このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211217となっている論文です。

PDF登録状況(公開日: 20211217)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) NILC-Metrix:ブラジルポルトガル語における文字・音声言語の複雑さの評価 [全文訳有]

NILC-Metrix: assessing the complexity of written and spoken language in Brazilian Portuguese ( http://arxiv.org/abs/2201.03445v1 )

ライセンス: CC BY-SA 4.0
Sidney Evaldo Leal and Magali Sanches Duran and Carolina Evaristo Scarton and Nathan Siegle Hartmann and Sandra Maria Alu\'isio(参考訳) 本稿では,ブラジルポルトガル語 (BP) における文章の複雑さを評価するために,言論, 心理言語学, 認知言語学, 計算言語学の研究において提案される200の指標からなる計算システムNILC-Metrixを提示し, 公開する。 これらのメトリクスは、記述的分析と計算モデルの作成に関係しており、様々な言語レベルから言語レベルから情報を取り出すのに使用できる。 NILC-Metrixのメトリクスは、2008年にCoh-Metrix-Portによって開発され、PorSimplesプロジェクトの範囲内で開発された。 Coh-Metrix-Portは、英語のテキストの凝集とコヒーレンスに関連するメトリクスを計算するCoh-MetrixツールからBPにいくつかのメトリクスを適用した。 2010年のporsimplesの終了後、coh-metrix-portの最初の48のメトリクスに新しいメトリクスが追加された。 coh-metrix v3.0のメトリクスに似た組織に従って、ポルトガル語と英語のメトリクスとの比較を容易にする。 本稿では,NILC-Metrixの3つの応用例を示す。 (i)小学校1年及び2年(第2四半期)に書かれた児童映画の字幕とテキストの相違に関する記述的分析 (ii)porsimplesプロジェクトの原文及び簡易テキストコーパスにおけるテキスト複雑さの新しい予測因子 (iii)十代の子どもの物語の書き起こしを用いて、学年における複雑性予測モデル。 それぞれのアプリケーションについて、どのメトリクス群がより識別的であるかを評価し、それぞれのタスクへの貢献を示す。

This paper presents and makes publicly available the NILC-Metrix, a computational system comprising 200 metrics proposed in studies on discourse, psycholinguistics, cognitive and computational linguistics, to assess textual complexity in Brazilian Portuguese (BP). These metrics are relevant for descriptive analysis and the creation of computational models and can be used to extract information from various linguistic levels of written and spoken language. The metrics in NILC-Metrix were developed during the last 13 years, starting in 2008 with Coh-Metrix-Port, a tool developed within the scope of the PorSimples project. Coh-Metrix-Port adapted some metrics to BP from the Coh-Metrix tool that computes metrics related to cohesion and coherence of texts in English. After the end of PorSimples in 2010, new metrics were added to the initial 48 metrics of Coh-Metrix-Port. Given the large number of metrics, we present them following an organisation similar to the metrics of Coh-Metrix v3.0 to facilitate comparisons made with metrics in Portuguese and English. In this paper, we illustrate the potential of NILC-Metrix by presenting three applications: (i) a descriptive analysis of the differences between children's film subtitles and texts written for Elementary School I and II (Final Years); (ii) a new predictor of textual complexity for the corpus of original and simplified texts of the PorSimples project; (iii) a complexity prediction model for school grades, using transcripts of children's story narratives told by teenagers. For each application, we evaluate which groups of metrics are more discriminative, showing their contribution for each task.
翻訳日:2022-01-16 18:32:02 公開日:2021-12-17
# 両世界のベスト:宣言的事実を伴うマルチホップ説明のためのハイブリッドアプローチ

Best of Both Worlds: A Hybrid Approach for Multi-Hop Explanation with Declarative Facts ( http://arxiv.org/abs/2201.02740v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Aishwarya Reganti, Govind Thattai(参考訳) 言語対応AIシステムは複雑なマルチホップ質問に高い精度で答えることができるが、エビデンスによる回答をサポートすることは、ユーザの透明性と信頼性にとって重要な課題である。 最先端のディープニューラルネットワークシステムは複雑すぎて、大規模アプリケーションでは役に立たないが、最速のシステムは信頼性に欠ける。 本研究では,宣言的事実に基づくマルチホップ説明生成のための高速構文法と強力な意味的手法を統合する。 証拠や細粒度言語モデルに対するマルチホップ推論をシミュレートする軽量な操作を学習し、生成した説明連鎖を再度ランク付けし、前回の作業から最大7%のゴールド説明検索率で純粋な構文ベースラインを上回ります。

Language-enabled AI systems can answer complex, multi-hop questions to high accuracy, but supporting answers with evidence is a more challenging task which is important for the transparency and trustworthiness to users. Prior work in this area typically makes a trade-off between efficiency and accuracy; state-of-the-art deep neural network systems are too cumbersome to be useful in large-scale applications, while the fastest systems lack reliability. In this work, we integrate fast syntactic methods with powerful semantic methods for multi-hop explanation generation based on declarative facts. Our best system, which learns a lightweight operation to simulate multi-hop reasoning over pieces of evidence and fine-tunes language models to re-rank generated explanation chains, outperforms a purely syntactic baseline from prior work by up to 7% in gold explanation retrieval rate.
翻訳日:2022-01-16 16:32:30 公開日:2021-12-17
# (参考訳) クラウド上の再現可能でポータブルなビッグデータ分析 [全文訳有]

Reproducible and Portable Big Data Analytics in the Cloud ( http://arxiv.org/abs/2112.09762v1 )

ライセンス: CC BY 4.0
Xin Wang, Pei Guo, Xingyan Li, Jianwu Wang, Aryya Gangopadhyay, Carl E. Busart, Jade Freeman(参考訳) クラウドコンピューティングは、オンデマンドハードウェアとソフトウェアリソースのプロビジョニングをサポートするため、再現可能な計算実験を可能にする主要なアプローチとなっている。 しかし、クラウドでビッグデータアプリケーションを再現する上で、大きな困難は2つあります。 ひとつは、仮想分散環境プロビジョニング、ネットワークとセキュリティグループのセットアップ、ビッグデータ分析パイプラインの記述と実行を含む、クラウドにおけるビッグデータ分析のエンドツーエンド実行を自動化する方法だ。 2つ目は、AWSやAzureなど、あるクラウド向けに開発されたアプリケーションで、別のクラウドで再現することは困難である。 これらの問題に対処するために,私たちは,スケーラブルなビッグデータアプリケーションの自動実行と再現性のために,サーバレスコンピューティングとコンテナ化技術を活用するとともに,アダプタ設計パターンを活用して,さまざまなクラウド間でのアプリケーションのポータビリティと再現性を実現する。 このアプローチに基づいて,オープンソースツールキットの提案と開発を行う。 1)オンデマンド分散ハードウェアとソフトウェア環境のプロビジョニング 2) 各実行毎に自動データと設定記憶装置。 3) ユーザの好みに基づいたフレキシブルクライアントモード。 4)実行履歴クエリ、および 5)同一環境や異なる環境における既存実行の簡単な再現性。 仮想cpu/gpuクラスタ上で動作する3つのビッグデータ分析アプリケーションを使用して、awsとazureの両方で広範な実験を行いました。 ツールキットの主な動作は以下の3つだ。 一 再現性支援のための実行オーバーヘッド率 二 実行時間、予算費及び費用対効果比率の点で、aws及びazure上で同一のアプリケーションを再生することの相違 iii) AWSとAzure上の同じアプリケーションに対するスケールアウトとスケールアップのアプローチの違い。

Cloud computing has become a major approach to enable reproducible computational experiments because of its support of on-demand hardware and software resource provisioning. Yet there are still two main difficulties in reproducing big data applications in the cloud. The first is how to automate end-to-end execution of big data analytics in the cloud including virtual distributed environment provisioning, network and security group setup, and big data analytics pipeline description and execution. The second is an application developed for one cloud, such as AWS or Azure, is difficult to reproduce in another cloud, a.k.a. vendor lock-in problem. To tackle these problems, we leverage serverless computing and containerization techniques for automatic scalable big data application execution and reproducibility, and utilize the adapter design pattern to enable application portability and reproducibility across different clouds. Based on the approach, we propose and develop an open-source toolkit that supports 1) on-demand distributed hardware and software environment provisioning, 2) automatic data and configuration storage for each execution, 3) flexible client modes based on user preferences, 4) execution history query, and 5) simple reproducibility of existing executions in the same environment or a different environment. We did extensive experiments on both AWS and Azure using three big data analytics applications that run on a virtual CPU/GPU cluster. Three main behaviors of our toolkit were benchmarked: i) execution overhead ratio for reproducibility support, ii) differences of reproducing the same application on AWS and Azure in terms of execution time, budgetary cost and cost-performance ratio, iii) differences between scale-out and scale-up approach for the same application on AWS and Azure.
翻訳日:2022-01-09 17:11:54 公開日:2021-12-17
# 深部強化学習を用いたパーソナライズされたレーン変更決定アルゴリズム

Personalized Lane Change Decision Algorithm Using Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2112.13646v1 )

ライセンス: Link先を確認
Daofei Li and Ao Liu(参考訳) 人間のための運転自動化技術を開発するためには、安全性とユーザエクスペリエンスの確保のために、人間中心の方法論を採用する必要がある。 高速道路交通における車線変更の自動決定は、特に異なるドライバーのパーソナライズされた好みを考慮すると困難である。 人間の運転中心決定アルゴリズム開発を実現するため,6自由度運転シミュレータ上でドライバ・イン・ザ・ループ実験を行った。 3つの特定のスタイルのドライバによる車線変更データの解析に基づいて、車線変更決定におけるドライバの好みを記述するためにパーソナライズインジケータを選択する。 Then a deep reinforcement learning (RL) approach is applied to design human-like agents for automated lane change decision, with refined reward and loss functions to capture the driver preferences.The trained RL agents and benchmark agents are tested in a two-lane highway driving scenario, and by comparing the agents with the specific drivers at the same initial states of lane change, the statistics show that the proposed algorithm can guarantee higher consistency of lane change decision preferences. 運転者パーソナライズ指標とrlに基づく車線変更決定アルゴリズムは、自動車線変更システムの開発に寄与することを約束している。

To develop driving automation technologies for human, a human-centered methodology should be adopted for ensured safety and satisfactory user experience. Automated lane change decision in dense highway traffic is challenging, especially when considering the personalized preferences of different drivers. To fulfill human driver centered decision algorithm development, we carry out driver-in-the-loop experiments on a 6-Degree-of-Freedom driving simulator. Based on the analysis of the lane change data by drivers of three specific styles,personalizati on indicators are selected to describe the driver preferences in lane change decision. Then a deep reinforcement learning (RL) approach is applied to design human-like agents for automated lane change decision, with refined reward and loss functions to capture the driver preferences.The trained RL agents and benchmark agents are tested in a two-lane highway driving scenario, and by comparing the agents with the specific drivers at the same initial states of lane change, the statistics show that the proposed algorithm can guarantee higher consistency of lane change decision preferences. The driver personalization indicators and the proposed RL-based lane change decision algorithm are promising to contribute in automated lane change system developing.
翻訳日:2022-01-02 08:28:40 公開日:2021-12-17
# (参考訳) 外乱のないビジュアルモバイルマニピュレーションを目指して [全文訳有]

Towards Disturbance-Free Visual Mobile Manipulation ( http://arxiv.org/abs/2112.12612v1 )

ライセンス: CC BY 4.0
Tianwei Ni, Kiana Ehsani, Luca Weihs, Jordi Salvador(参考訳) embodied aiは、ビジュアルナビゲーションや操作など、シミュレーションにおけるロボットタスクの豊富さに有望な結果を示している。 先行研究は一般的に、最も短い経路で高い成功率を追求する一方で、相互作用中の衝突に起因する問題を無視する。 シミュレーション環境では、仮想オブジェクトを壊すのに固有のコストはありません。 結果として、訓練されたエージェントは、最終的な成功にもかかわらず、しばしば天体と壊滅的な衝突を起こす。 衝突のコストが大きいロボティクスのコミュニティでは、ロボットが現実世界に安全に配備されることを確実にするために、衝突回避は長年、かつ重要なトピックである。 本研究では,視覚的移動操作のための衝突・妨害のないAIエージェントへの第一歩を踏み出し,実際のロボットへの安全な配置を容易にする。 本研究は,外乱予測の補助課題である新しい外乱回避手法を心部で開発する。 外乱ペナルティと組み合わせると、補助作業は、エージェントへの外乱の知識蒸留によるサンプル効率と最終性能を大幅に向上させる。 マニピュラトール実験では,新しい物体を用いた実験では,成功率を61.7%から85.6%に改善し,混乱のない成功率は29.8%から50.2%に向上した。 広範なアブレーション研究はパイプライン化アプローチの価値を示している。 プロジェクトサイトはhttps://sites.google .com/view/disturb-fr ee

Embodied AI has shown promising results on an abundance of robotic tasks in simulation, including visual navigation and manipulation. The prior work generally pursues high success rates with shortest paths while largely ignoring the problems caused by collision during interaction. This lack of prioritization is understandable: in simulated environments there is no inherent cost to breaking virtual objects. As a result, well-trained agents frequently have catastrophic collision with objects despite final success. In the robotics community, where the cost of collision is large, collision avoidance is a long-standing and crucial topic to ensure that robots can be safely deployed in the real world. In this work, we take the first step towards collision/disturbanc e-free embodied AI agents for visual mobile manipulation, facilitating safe deployment in real robots. We develop a new disturbance-avoidanc e methodology at the heart of which is the auxiliary task of disturbance prediction. When combined with a disturbance penalty, our auxiliary task greatly enhances sample efficiency and final performance by knowledge distillation of disturbance into the agent. Our experiments on ManipulaTHOR show that, on testing scenes with novel objects, our method improves the success rate from 61.7% to 85.6% and the success rate without disturbance from 29.8% to 50.2% over the original baseline. Extensive ablation studies show the value of our pipelined approach. Project site is at https://sites.google .com/view/disturb-fr ee
翻訳日:2021-12-26 13:13:38 公開日:2021-12-17
# (参考訳) ディープニューラルネットワークに対する特異リーマン幾何学的アプローチII 1次元同値クラスの再構成 [全文訳有]

A singular Riemannian geometry approach to Deep Neural Networks II. Reconstruction of 1-D equivalence classes ( http://arxiv.org/abs/2112.10583v1 )

ライセンス: CC BY 4.0
Alessandro Benfenati and Alessio Marta(参考訳) 前回の研究では、特異リーマン幾何学を用いて、多様体間の写像列と見なされる深いニューラルネットワークを研究する幾何学的枠組みを提案した。 本稿では,入力点の等価性のクラスを構築する手法を提案する。このクラスは,ニューラルネットワークによって同じ出力にマップされた入力多様体上の点の集合として定義される。 言い換えれば、入力空間における出力多様体内の点の事前像を構築する。 特に。 我々は,n-次元実空間から(n-1)-次元実空間へのニューラルネットワークのマッピングをシンプルにするため,同種の同値性を持つ点の集合を構築するアルゴリズムを提案する。 このアプローチは、新しい合成データの生成と、入力データ上の小さな摂動(例えば、チワワを含む画像に分類されるペンギン画像)によって分類器がどのように混乱するかについての洞察を与える2つの主要な応用をもたらす。 さらに,2次元から1次元の実空間におけるニューラルネットワークについても,実線の閉区間の事前像を見つける方法について検討する。 また,非線形回帰タスクを実行するように訓練された複数のニューラルネットワークを用いて,バイナリ分類器の場合などいくつかの数値実験を行う。

In a previous work, we proposed a geometric framework to study a deep neural network, seen as sequence of maps between manifolds, employing singular Riemannian geometry. In this paper, we present an application of this framework, proposing a way to build the class of equivalence of an input point: such class is defined as the set of the points on the input manifold mapped to the same output by the neural network. In other words, we build the preimage of a point in the output manifold in the input space. In particular. we focus for simplicity on the case of neural networks maps from n-dimensional real spaces to (n - 1)-dimensional real spaces, we propose an algorithm allowing to build the set of points lying on the same class of equivalence. This approach leads to two main applications: the generation of new synthetic data and it may provides some insights on how a classifier can be confused by small perturbation on the input data (e.g. a penguin image classified as an image containing a chihuahua). In addition, for neural networks from 2D to 1D real spaces, we also discuss how to find the preimages of closed intervals of the real line. We also present some numerical experiments with several neural networks trained to perform non-linear regression tasks, including the case of a binary classifier.
翻訳日:2021-12-23 09:42:24 公開日:2021-12-17
# (参考訳) ビチューイングX線における歯列分類のための解釈型および対話型深層学習 [全文訳有]

Interpretable and Interactive Deep Multiple Instance Learning for Dental Caries Classification in Bitewing X-rays ( http://arxiv.org/abs/2112.09694v1 )

ライセンス: CC BY 4.0
Benjamin Bergner, Csaba Rohrer, Aiham Taleb, Martha Duchrau, Guilherme De Leon, Jonas Almeida Rodrigues, Falk Schwendicke, Joachim Krois, Christoph Lippert(参考訳) 本稿では, 深層多段階学習に基づく簡易かつ効率的な画像分類アーキテクチャを提案する。 まず、画像レベルの弱いラベルで訓練されているにもかかわらず、局所的なパッチ分類の確率のヒートマップを出力する。 第二に、セグメンテーションラベルからガイドトレーニングまで学ぶことは可能である。 既存の手法とは対照的に、人間のユーザは予測を忠実に解釈し、モデルと対話してどのリージョンに参加するかを決定することができる。 実験は、さまざまなベースラインと比較して競争力のあるパフォーマンスを達成するために、$\sim$38k bitewings ($316k)の大規模な臨床データセットで行われます。 外部カリーセグメンテーションモデルにより誘導されると、分類と局所化性能が著しく向上する。

We propose a simple and efficient image classification architecture based on deep multiple instance learning, and apply it to the challenging task of caries detection in dental radiographs. Technically, our approach contributes in two ways: First, it outputs a heatmap of local patch classification probabilities despite being trained with weak image-level labels. Second, it is amenable to learning from segmentation labels to guide training. In contrast to existing methods, the human user can faithfully interpret predictions and interact with the model to decide which regions to attend to. Experiments are conducted on a large clinical dataset of $\sim$38k bitewings ($\sim$316k teeth), where we achieve competitive performance compared to various baselines. When guided by an external caries segmentation model, a significant improvement in classification and localization performance is observed.
翻訳日:2021-12-23 09:14:25 公開日:2021-12-17
# (参考訳) ソーシャルメディアプラットフォームにおける投稿からの自殺思考検出のためのアンサンブル深層学習手法 [全文訳有]

An ensemble deep learning technique for detecting suicidal ideation from posts in social media platforms ( http://arxiv.org/abs/2112.10609v1 )

ライセンス: CC BY 4.0
Shini Renjith, Annie Abraham, Surya B.Jyothi, Lekshmi Chandran, Jincy Thomson(参考訳) ソーシャルメディアからの自殺イデオレーション検出は、大きな課題を持つ進化的な研究である。 自殺傾向の人の多くは、ソーシャルメディアプラットフォームを通じて意見や意見を共有している。 多くの研究の一環として、ソーシャルメディアから公開されている投稿には自殺思考を持つ個人を効果的に検出するための貴重な基準が含まれていることが観察された。 自殺を防ぐための最も難しい部分は、自殺につながる複雑な危険因子や警告の兆候を検出し、理解することである。 これは、ユーザー行動の突然の変化を自動的に識別することで達成できる。 自然言語処理技術は、ソーシャルメディアのインタラクションから行動やテキストの特徴を収集するために利用することができ、これらの機能は、自殺意図の指標である人間のインタラクションの異常を検出するために特別に設計されたフレームワークに渡される。 深層学習および/または機械学習に基づく分類アプローチを用いて,自殺イデオレーションの迅速検出を実現する。 このような目的のために,LSTMモデルとCNNモデルを組み合わせることで,ユーザの投稿からそのような感情を検出することができる。 精度を向上させるために、トレーニングにより多くのデータを使うこと、既存のモデルの効率を改善するためにアテンションモデルを使用することなど、いくつかのアプローチが可能である。 本稿ではLSTM-Attention-CNN複合モデルを提案する。 評価中、提案モデルは精度が90.3%、f1-scoreが92.6%であり、これはベースラインモデルよりも大きい。

Suicidal ideation detection from social media is an evolving research with great challenges. Many of the people who have the tendency to suicide share their thoughts and opinions through social media platforms. As part of many researches it is observed that the publicly available posts from social media contain valuable criteria to effectively detect individuals with suicidal thoughts. The most difficult part to prevent suicide is to detect and understand the complex risk factors and warning signs that may lead to suicide. This can be achieved by identifying the sudden changes in a user behavior automatically. Natural language processing techniques can be used to collect behavioral and textual features from social media interactions and these features can be passed to a specially designed framework to detect anomalies in human interactions that are indicators of suicidal intentions. We can achieve fast detection of suicidal ideation using deep learning and/or machine learning based classification approaches. For such a purpose, we can employ the combination of LSTM and CNN models to detect such emotions from posts of the users. In order to improve the accuracy, some approaches like using more data for training, using attention model to improve the efficiency of existing models etc. could be done. This paper proposes a LSTM-Attention-CNN combined model to analyze social media submissions to detect any underlying suicidal intentions. During evaluations, the proposed model demonstrated an accuracy of 90.3 percent and an F1-score of 92.6 percent, which is greater than the baseline models.
翻訳日:2021-12-23 08:58:33 公開日:2021-12-17
# (参考訳) Rank4Class: 多クラス分類のランク付け式 [全文訳有]

Rank4Class: A Ranking Formulation for Multiclass Classification ( http://arxiv.org/abs/2112.09727v1 )

ライセンス: CC BY 4.0
Nan Wang, Zhen Qin, Le Yan, Honglei Zhuang, Xuanhui Wang, Michael Bendersky, Marc Najork(参考訳) マルチクラス分類(MCC)は、各インスタンスを事前に定義されたクラスの1つに分類することを目的とした、基本的な機械学習問題である。 インスタンスが与えられた場合、分類モデルは各クラスのスコアを計算し、そのすべてがクラスをソートするために使用される。 分類モデルの性能は通常、Top-K精度/エラー(例えばK=1または5)によって測定される。 本稿では,最近の研究のように新しいニューラル表現学習モデルを提案するのではなく,ランキングレンズによる新しい定式化により,MCCの性能を高めることが容易であることを示す。 特に、MCCをインスタンスのランク付けクラスとして見ることによって、正規化された非カウント累積ゲイン(NDCG)のようなランク付けメトリクスは、既存のTop-Kメトリクスよりも有益である、と最初に主張する。 我々はさらに,支配的なニューラルmccアーキテクチャを,特定の設計選択のセットを持つニューラルランキングフレームワークとして定式化できることを実証する。 このような一般化に基づいて,豊富な情報検索文献から得られる技術を活用して,MCCの性能を向上させることは簡単かつ直感的であることを示す。 多様なデータセットとバックボーンモデル(例えば、bertとresnet for text and image classification)を持つテキストと画像の分類タスクの広範な経験結果から、提案フレームワークの価値が分かる。

Multiclass classification (MCC) is a fundamental machine learning problem which aims to classify each instance into one of a predefined set of classes. Given an instance, a classification model computes a score for each class, all of which are then used to sort the classes. The performance of a classification model is usually measured by Top-K Accuracy/Error (e.g., K=1 or 5). In this paper, we do not aim to propose new neural representation learning models as most recent works do, but to show that it is easy to boost MCC performance with a novel formulation through the lens of ranking. In particular, by viewing MCC as to rank classes for an instance, we first argue that ranking metrics, such as Normalized Discounted Cumulative Gain (NDCG), can be more informative than existing Top-K metrics. We further demonstrate that the dominant neural MCC architecture can be formulated as a neural ranking framework with a specific set of design choices. Based on such generalization, we show that it is straightforward and intuitive to leverage techniques from the rich information retrieval literature to improve the MCC performance out of the box. Extensive empirical results on both text and image classification tasks with diverse datasets and backbone models (e.g., BERT and ResNet for text and image classification) show the value of our proposed framework.
翻訳日:2021-12-23 08:38:59 公開日:2021-12-17
# (参考訳) Neurashed: ディープラーニングトレーニングの省力化のための現象モデル [全文訳有]

Neurashed: A Phenomenological Model for Imitating Deep Learning Training ( http://arxiv.org/abs/2112.09741v1 )

ライセンス: CC BY 4.0
Weijie J. Su(参考訳) 今後10年間にディープラーニングの方法論を進歩させるためには、現代のニューラルネットワークを推論するための理論的枠組みが必要である。 深層学習がなぜこれほど効果的であるかを謎解き明かす努力が増えているが、総合的なイメージは依然として欠如しており、より良い理論が可能であることを示唆している。 将来のディープラーニング理論は、3つの特性を継承すべきであると主張する: \textit{hierarchically}構造化ネットワークアーキテクチャ、確率的勾配に基づく手法で最適化されたパラメータ \textit{iteratively}、および \textit{compressively}を進化させるデータからの情報。 インスタンス化として、これらの特性を \textit{neurashed} と呼ばれるグラフィカルモデルに統合する。 このモデルは、ディープラーニングにおける一般的な経験的パターンを効果的に説明します。 特に、neurashedは暗黙の正規化、情報のボトルネック、局所的な弾力性についての洞察を可能にする。 最後に,ニューロッシュドが深層学習理論の発展をいかに導くかについて議論する。

To advance deep learning methodologies in the next decade, a theoretical framework for reasoning about modern neural networks is needed. While efforts are increasing toward demystifying why deep learning is so effective, a comprehensive picture remains lacking, suggesting that a better theory is possible. We argue that a future deep learning theory should inherit three characteristics: a \textit{hierarchically} structured network architecture, parameters \textit{iteratively} optimized using stochastic gradient-based methods, and information from the data that evolves \textit{compressively}. As an instantiation, we integrate these characteristics into a graphical model called \textit{neurashed}. This model effectively explains some common empirical patterns in deep learning. In particular, neurashed enables insights into implicit regularization, information bottleneck, and local elasticity. Finally, we discuss how neurashed can guide the development of deep learning theories.
翻訳日:2021-12-23 08:20:53 公開日:2021-12-17
# (参考訳) コアのためのスコープを修正できますか? OntoNotes以外のベンチマークの問題と解決策 [全文訳有]

Can we Fix the Scope for Coreference? Problems and Solutions for Benchmarks beyond OntoNotes ( http://arxiv.org/abs/2112.09742v1 )

ライセンス: CC BY 4.0
Amir Zeldes(参考訳) 自動コリファレンス解決に関する現在の作業は、サイズと一貫性の両方のため、オントノートベンチマークデータセットに焦点を当てている。 しかし、OntoNotesアノテーションの多くの側面は、一般的なNP、名詞修飾子、不定形アナフォラ、述語など、NLP実践者によってよく理解されていない。 これらはしばしば直感的主張、結果、システム行動につながる。 この記事は、onnotes rendition of coreferenceの問題をいくつか強調し、3つの原則に依存する方法を提案することを目的としています。 1.モルフォシンタックスではなく意味論に焦点をあてる 2.言語横断的一般化可能性 3. 時間的およびモーダルなドメイン整合性に関わる古い問題を解決できるアイデンティティとスコープの分離。

Current work on automatic coreference resolution has focused on the OntoNotes benchmark dataset, due to both its size and consistency. However many aspects of the OntoNotes annotation scheme are not well understood by NLP practitioners, including the treatment of generic NPs, noun modifiers, indefinite anaphora, predication and more. These often lead to counterintuitive claims, results and system behaviors. This opinion piece aims to highlight some of the problems with the OntoNotes rendition of coreference, and to propose a way forward relying on three principles: 1. a focus on semantics, not morphosyntax; 2. cross-linguistic generalizability; and 3. a separation of identity and scope, which can resolve old problems involving temporal and modal domain consistency.
翻訳日:2021-12-23 08:10:56 公開日:2021-12-17
# (参考訳) 公正デバッグのための解釈可能なデータベース説明 [全文訳有]

Interpretable Data-Based Explanations for Fairness Debugging ( http://arxiv.org/abs/2112.09745v1 )

ライセンス: CC BY 4.0
Romila Pradhan, Jiongli Zhu, Boris Glavic, Babak Salimi(参考訳) さまざまなフェアネスメトリクスとeXplainable Artificial Intelligence (XAI)アプローチが文献で提案され、重要な実生活で使用される機械学習モデルのバイアスを特定することが提案されている。 しかし、単にモデルのバイアスを報告したり、既存のXAI技術を使って説明を生成するだけでは、バイアスの源を見つけるのに不十分です。 本稿では,この行動の根本原因となるトレーニングデータのコヒーレントなサブセットを同定することにより,バイアスや予期せぬモデル行動のコンパクトで解釈可能な因果的説明を生成するシステムであるGopherを紹介する。 具体的には,データセットのサブセットを取り除いたり更新したりすることで,トレーニングデータの介入の程度を定量化する因果責任の概念を導入し,バイアスを解消する。 この概念に基づいて,MLコミュニティの手法を用いて因果責任を近似し,プルーニングルールを用いてパターンの大規模な検索空間を管理するモデルバイアスを説明する,トップkパターンを生成するための効率的なアプローチを開発する。 バイアスの同定とデバッグのための解釈可能な説明生成におけるgopherの有効性を実験的に検証した。

A wide variety of fairness metrics and eXplainable Artificial Intelligence (XAI) approaches have been proposed in the literature to identify bias in machine learning models that are used in critical real-life contexts. However, merely reporting on a model's bias, or generating explanations using existing XAI techniques is insufficient to locate and eventually mitigate sources of bias. In this work, we introduce Gopher, a system that produces compact, interpretable, and causal explanations for bias or unexpected model behavior by identifying coherent subsets of the training data that are root-causes for this behavior. Specifically, we introduce the concept of causal responsibility that quantifies the extent to which intervening on training data by removing or updating subsets of it can resolve the bias. Building on this concept, we develop an efficient approach for generating the top-k patterns that explain model bias that utilizes techniques from the ML community to approximate causal responsibility and uses pruning rules to manage the large search space for patterns. Our experimental evaluation demonstrates the effectiveness of Gopher in generating interpretable explanations for identifying and debugging sources of bias.
翻訳日:2021-12-23 07:45:48 公開日:2021-12-17
# (参考訳) 同時特徴自動グループ化と次元削減による多変量学習

Supervised Multivariate Learning with Simultaneous Feature Auto-grouping and Dimension Reduction ( http://arxiv.org/abs/2112.09746v1 )

ライセンス: CC BY 4.0
Yiyuan She, Jiahui Shen, Chao Zhang(参考訳) 現代の高次元の手法は「sparsity」の原理を「bet on sparsity」と呼ぶことが多いが、教師付き多変量学習統計学では「dense」問題に多くの非ゼロ係数で直面することがある。 本稿では,2つの共同行列正則化を課し,予測因子を構成する特徴を自動的にグループ化する,新しいクラスタ化低ランク学習(CRL)フレームワークを提案する。 CRLは低ランクなモデリングよりも解釈可能であり、変数選択における厳密な空間性仮定を緩和する。 本稿では,クラスタ探索の本質的なコストと多変量学習における次元からの祝福を明らかにするために,新たな情報理論の限界を示す。 さらに,収束性を保証するサブスペース学習とクラスタリングを行う効率的な最適化アルゴリズムを開発した。 得られた不動点推定器は、必ずしもグローバルに最適とは限らず、一定の正規性条件下での標準確率設定を超えた所望の統計精度を享受する。 さらに、クラスタとランクの選択には、新しい種類の情報基準とスケールフリーの形式が提案され、無限のサンプルサイズを仮定することなく厳密な理論的支援がなされている。 大規模シミュレーションと実データ実験により,提案手法の統計的精度と解釈可能性を示す。

Modern high-dimensional methods often adopt the ``bet on sparsity'' principle, while in supervised multivariate learning statisticians may face ``dense'' problems with a large number of nonzero coefficients. This paper proposes a novel clustered reduced-rank learning (CRL) framework that imposes two joint matrix regularizations to automatically group the features in constructing predictive factors. CRL is more interpretable than low-rank modeling and relaxes the stringent sparsity assumption in variable selection. In this paper, new information-theoreti cal limits are presented to reveal the intrinsic cost of seeking for clusters, as well as the blessing from dimensionality in multivariate learning. Moreover, an efficient optimization algorithm is developed, which performs subspace learning and clustering with guaranteed convergence. The obtained fixed-point estimators, though not necessarily globally optimal, enjoy the desired statistical accuracy beyond the standard likelihood setup under some regularity conditions. Moreover, a new kind of information criterion, as well as its scale-free form, is proposed for cluster and rank selection, and has a rigorous theoretical support without assuming an infinite sample size. Extensive simulations and real-data experiments demonstrate the statistical accuracy and interpretability of the proposed method.
翻訳日:2021-12-23 07:14:22 公開日:2021-12-17
# (参考訳) シングルホップノード分類のためのset Twister [全文訳有]

Set Twister for Single-hop Node Classification ( http://arxiv.org/abs/2112.09752v1 )

ライセンス: CC BY 4.0
Yangze Zhou, Vinayak Rao, Bruno Ribeiro(参考訳) ノード分類はリレーショナルラーニングにおける中心的なタスクであり、現在の最先端技術は2つの原則に基づいています。 (i)予測は、ノードの近傍の順序に置換不変であり、 (ii)予測は、ノードの$r$-hop近傍トポロジーと属性、$r \geq 2$の関数である。 グラフニューラルネットワークと集合的推論手法(例えば、信念伝播)はどちらも最大$r$-hopsの情報を頼りにしている。 本研究では,より強力な置換不変関数を用いることで,分類器が1ドル以上の情報を集める必要性を回避できるかどうかについて検討する。 そのために我々は、単純で広く使われている置換不変表現であるdeepsets(zaheer et al., 2017)を一般化した新しいアーキテクチャであるset twisterを紹介する。 Twisterは理論的にDeepSetsの表現性を高め、単純さと計算コストを低く保ちながら高階の依存関係をキャプチャできる。 実験的には、DeepSetsよりもSet Twisterの精度が向上し、さまざまなグラフニューラルネットワークや集合推論スキームがいくつかのタスクで実現され、その実装の単純さと計算効率が示されている。

Node classification is a central task in relational learning, with the current state-of-the-art hinging on two key principles: (i) predictions are permutation-invarian t to the ordering of a node's neighbors, and (ii) predictions are a function of the node's $r$-hop neighborhood topology and attributes, $r \geq 2$. Both graph neural networks and collective inference methods (e.g., belief propagation) rely on information from up to $r$-hops away. In this work, we study if the use of more powerful permutation-invarian t functions can sometimes avoid the need for classifiers to collect information beyond $1$-hop. Towards this, we introduce a new architecture, the Set Twister, which generalizes DeepSets (Zaheer et al., 2017), a simple and widely-used permutation-invarian t representation. Set Twister theoretically increases expressiveness of DeepSets, allowing it to capture higher-order dependencies, while keeping its simplicity and low computational cost. Empirically, we see accuracy improvements of Set Twister over DeepSets as well as a variety of graph neural networks and collective inference schemes in several tasks, while showcasing its implementation simplicity and computational efficiency.
翻訳日:2021-12-23 07:12:25 公開日:2021-12-17
# (参考訳) 深層学習アプリケーションのユーザビリティに及ぼす仮想化の影響を探る [全文訳有]

Exploring the Impact of Virtualization on the Usability of the Deep Learning Applications ( http://arxiv.org/abs/2112.09780v1 )

ライセンス: CC BY 4.0
Davood G. Samani, Mohsen Amini Salehi(参考訳) ディープラーニングベースの(DL)アプリケーションは,前例のないペースで普及し,進歩している。 dlアプリケーションの中心となるディープニューラルネットワーク(dnn)を強化するために多くの研究が進められているが、クラウドやエッジシステムにおけるこれらのアプリケーションの実用的なデプロイ課題とそのアプリケーションのユーザビリティへの影響は十分に調査されていない。 特に、クラウドとエッジが提供するさまざまな仮想化プラットフォームのデプロイが、DLアプリケーションのユーザビリティ(End-to-End(E2E)推論時間の観点から)に与える影響は、未解決のままである。 重要なのは、リソースの弾力性(スケールアップによる)、CPUピンニング、プロセッサタイプ(CPU対GPU)の設定が仮想化のオーバーヘッドに影響を与えていることである。 したがって、本研究の目的は、これらの潜在的に決定的なデプロイメントオプションがE2Eのパフォーマンスに与える影響を調べることである。 そのため、プロセッサ構成(スケールアップ、CPUピンニング)やプロセッサタイプを変更する際に、一般的な4つの実行プラットフォーム(ベアメタル、仮想マシン(VM)、コンテナ、VM内のコンテナ)が4種類のDLアプリケーションのE2E推論時間に与える影響を測定する。 この研究は、クラウドソリューションアーキテクトがさまざまなシステムにDLアプリケーションを効率的にデプロイするためのベストプラクティスとして使用できる興味深い、時には反直感的な発見の集合を明らかにします。 注目すべき発見は、ソリューションアーキテクトがDLアプリケーションの特徴、特に前処理と後処理の要件を認識して、実行プラットフォームを最適に選択して設定し、GPUの使用を判断し、効率的なスケールアップ範囲を決定する必要があることである。

Deep Learning-based (DL) applications are becoming increasingly popular and advancing at an unprecedented pace. While many research works are being undertaken to enhance Deep Neural Networks (DNN) -- the centerpiece of DL applications -- practical deployment challenges of these applications in the Cloud and Edge systems, and their impact on the usability of the applications have not been sufficiently investigated. In particular, the impact of deploying different virtualization platforms, offered by the Cloud and Edge, on the usability of DL applications (in terms of the End-to-End (E2E) inference time) has remained an open question. Importantly, resource elasticity (by means of scale-up), CPU pinning, and processor type (CPU vs GPU) configurations have shown to be influential on the virtualization overhead. Accordingly, the goal of this research is to study the impact of these potentially decisive deployment options on the E2E performance, thus, usability of the DL applications. To that end, we measure the impact of four popular execution platforms (namely, bare-metal, virtual machine (VM), container, and container in VM) on the E2E inference time of four types of DL applications, upon changing processor configuration (scale-up, CPU pinning) and processor types. This study reveals a set of interesting and sometimes counter-intuitive findings that can be used as best practices by Cloud solution architects to efficiently deploy DL applications in various systems. The notable finding is that the solution architects must be aware of the DL application characteristics, particularly, their pre- and post-processing requirements, to be able to optimally choose and configure an execution platform, determine the use of GPU, and decide the efficient scale-up range.
翻訳日:2021-12-23 06:44:55 公開日:2021-12-17
# (参考訳) 消化・脱バイアス:知識蒸留による顔認識におけるバイアスの軽減 [全文訳有]

Distill and De-bias: Mitigating Bias in Face Recognition using Knowledge Distillation ( http://arxiv.org/abs/2112.09786v1 )

ライセンス: CC BY 4.0
Prithviraj Dhar, Joshua Gleason, Aniket Roy, Carlos D. Castillo, P. Jonathon Phillips, Rama Chellappa(参考訳) 顔認識ネットワークは一般的に、性別やスキントーンなどの繊細な属性に関してバイアスを示す。 性別やスキントーンについては、ネットワークが参加する顔の領域が属性のカテゴリによって異なることを観察する。 これは偏見に寄与するかもしれない。 この直感に基づいて, 属性カテゴリに関係なく, 類似の顔領域にネットワークを組み込むための蒸留方式であるDistill and De-bias (D&D) を提案する。 D&Dでは、属性の1つのカテゴリ、例えば光スキントーンの画像に基づいて教師ネットワークを訓練する。 次に教師からの情報を蒸留し、残りのカテゴリ、例えばダークスキントーンの画像に基づいて学生ネットワークを訓練する。 特徴レベルの蒸留損失は、学生ネットワークを制約し、教師のような表現を生成する。 これにより、学生ネットワークはすべての属性カテゴリで同様の顔領域に出席でき、バイアスを減らすことができる。 また、D&D++と呼ばれるD&Dの上に第2の蒸留工程を提案する。 D&D++ネットワークでは、D&D++ネットワークの'un-biasedness'を新しい学生ネットワークであるD&D++ネットワークに蒸留する。 新たなネットワークをすべての属性カテゴリ(例えば、明暗のスキントーン)でトレーニングします。 これにより、属性に対するバイアスの少ないネットワークをトレーニングし、D&Dよりも高い顔検証性能を得ることができます。 IJB-Cデータセットの男女差やスキントーンバイアスを低減しつつ,既存の逆逆脱バイアス法よりも高い顔検証性能が得られることを示す。 提案手法の有効性を,CrystalfaceとArcFaceの2つの顔認識ネットワーク上で評価した。

Face recognition networks generally demonstrate bias with respect to sensitive attributes like gender, skintone etc. For gender and skintone, we observe that the regions of the face that a network attends to vary by the category of an attribute. This might contribute to bias. Building on this intuition, we propose a novel distillation-based approach called Distill and De-bias (D&D) to enforce a network to attend to similar face regions, irrespective of the attribute category. In D&D, we train a teacher network on images from one category of an attribute; e.g. light skintone. Then distilling information from the teacher, we train a student network on images of the remaining category; e.g., dark skintone. A feature-level distillation loss constrains the student network to generate teacher-like representations. This allows the student network to attend to similar face regions for all attribute categories and enables it to reduce bias. We also propose a second distillation step on top of D&D, called D&D++. For the D&D++ network, we distill the `un-biasedness' of the D&D network into a new student network, the D&D++ network. We train the new network on all attribute categories; e.g., both light and dark skintones. This helps us train a network that is less biased for an attribute, while obtaining higher face verification performance than D&D. We show that D&D++ outperforms existing baselines in reducing gender and skintone bias on the IJB-C dataset, while obtaining higher face verification performance than existing adversarial de-biasing methods. We evaluate the effectiveness of our proposed methods on two state-of-the-art face recognition networks: Crystalface and ArcFace.
翻訳日:2021-12-23 06:27:42 公開日:2021-12-17
# (参考訳) ヘビーテールのデノイジングスコアマッチング [全文訳有]

Heavy-tailed denoising score matching ( http://arxiv.org/abs/2112.09788v1 )

ライセンス: CC BY 4.0
Jacob Deasy, Nikola Simidjievski, Pietro Li\`o(参考訳) 近年のスコアベースモデル研究は、ガウスのスコアマッチング(DSM)を用いて、アート生成モデルの状態を創出してきた。 しかし、ガウス雑音の仮定にはいくつかの高次元の制限があり、将来的にはさらに高次元のpdf推定へのより具体的な道筋が導かれる。 この制限を概説し、理論をより広範なノイズ分布の族、すなわち一般化正規分布に拡張する。 これを理論的に基礎づけるために、我々はスコアマッチング理論における重要な仮定を緩和し、微分可能な \textit{almost everywhere} の分布がガウス群と同じ目的を単純化することを証明した。 雑音ベクトル長分布について,深層学習に広く用いられている高次元空間における測定値の集中性を示す。 この過程において、スキュードノイズベクトル長分布を明らかにし、アニールランゲヴィン力学における複数レベルのノイズを連続的に初期化する反復ノイズスケーリングアルゴリズムを開発する。 実用面では,重み付きdsmを用いることで,スコア推定精度が向上し,サンプリング収束が制御可能となり,不均衡データセットに対する非条件生成性能が向上する。

Score-based model research in the last few years has produced state of the art generative models by employing Gaussian denoising score-matching (DSM). However, the Gaussian noise assumption has several high-dimensional limitations, motivating a more concrete route toward even higher dimension PDF estimation in future. We outline this limitation, before extending the theory to a broader family of noising distributions -- namely, the generalised normal distribution. To theoretically ground this, we relax a key assumption in (denoising) score matching theory, demonstrating that distributions which are differentiable \textit{almost everywhere} permit the same objective simplification as Gaussians. For noise vector length distributions, we demonstrate favourable concentration of measure in the high-dimensional spaces prevalent in deep learning. In the process, we uncover a skewed noise vector length distribution and develop an iterative noise scaling algorithm to consistently initialise the multiple levels of noise in annealed Langevin dynamics. On the practical side, our use of heavy-tailed DSM leads to improved score estimation, controllable sampling convergence, and more balanced unconditional generative performance for imbalanced datasets.
翻訳日:2021-12-23 06:00:26 公開日:2021-12-17
# (参考訳) 道路交通インシデント検出のためのデータ中心型弱教師付き学習 [全文訳有]

A data-centric weak supervised learning for highway traffic incident detection ( http://arxiv.org/abs/2112.09792v1 )

ライセンス: CC BY 4.0
Yixuan Sun, Tanwi Mallick, Prasanna Balaprakash, Jane Macfarlane(参考訳) 幹線道路における交通事故のリアルタイム検出にループ検出センサのデータを利用することは,交通渋滞の回避に不可欠である。 最近の教師付き機械学習は、人間ラベルインシデントデータを利用してインシデント検出のソリューションを提供しているが、偽アラームレートは実際に使用するには高すぎることが多い。 特に,人間によるインシデントのラベル付けの不整合は,教師付き学習モデルの性能に大きく影響する。 そこで我々は,道路交通事故検知の誤報率を低減し,精度を向上させるためのデータ中心の手法に注目する。 我々は,インシデントデータの高品質なトレーニングラベルを生成するための弱教師付き学習ワークフローを開発し,それらのラベルを教師付き学習装置に使用して最終検出を行う。 このアプローチは3つの段階からなる。 まず,交通センサデータを処理するデータ前処理とキュレーションパイプラインを導入し,ラベル付け機能を利用して高品質なトレーニングデータを生成する。 第2に,ランダムフォレスト,kネアレスト近傍,サポートベクターマシンアンサンブルという3つの教師付き学習モデルと長期記憶分類器を用いて,弱い監督によって生成されたトレーニングデータを評価する。 その結果,弱監視によって生成されたトレーニングデータを用いて,すべてのモデルの精度が大幅に向上した。 第3に,インシデント検出中にモデルアンサンブルと不確実性定量化を利用するオンラインリアルタイムインシデント検出手法を開発した。 提案する弱教師あり学習ワークフローは,高いインシデント検出率 (0.90) と低い偽警報率 (0.08) を実現する。

Using the data from loop detector sensors for near-real-time detection of traffic incidents in highways is crucial to averting major traffic congestion. While recent supervised machine learning methods offer solutions to incident detection by leveraging human-labeled incident data, the false alarm rate is often too high to be used in practice. Specifically, the inconsistency in the human labeling of the incidents significantly affects the performance of supervised learning models. To that end, we focus on a data-centric approach to improve the accuracy and reduce the false alarm rate of traffic incident detection on highways. We develop a weak supervised learning workflow to generate high-quality training labels for the incident data without the ground truth labels, and we use those generated labels in the supervised learning setup for final detection. This approach comprises three stages. First, we introduce a data preprocessing and curation pipeline that processes traffic sensor data to generate high-quality training data through leveraging labeling functions, which can be domain knowledge-related or simple heuristic rules. Second, we evaluate the training data generated by weak supervision using three supervised learning models -- random forest, k-nearest neighbors, and a support vector machine ensemble -- and long short-term memory classifiers. The results show that the accuracy of all of the models improves significantly after using the training data generated by weak supervision. Third, we develop an online real-time incident detection approach that leverages the model ensemble and the uncertainty quantification while detecting incidents. Overall, we show that our proposed weak supervised learning workflow achieves a high incident detection rate (0.90) and low false alarm rate (0.08).
翻訳日:2021-12-23 05:32:38 公開日:2021-12-17
# (参考訳) ドメイン再ラベルによるマルチドメイン一般化の改善 [全文訳有]

Improving Multi-Domain Generalization through Domain Re-labeling ( http://arxiv.org/abs/2112.09802v1 )

ライセンス: CC BY-SA 4.0
Kowshik Thopalli, Sameeksha Katoch, Andreas Spanias, Pavan Turaga and Jayaraman J. Thiagarajan(参考訳) ドメイン一般化(DG)手法は、テスト分布がトレーニングデータと異なる設定に一般化するモデルを開発することを目的としている。 本稿では,複数のソースドメインからのラベル付きトレーニングデータが利用可能だが,対象ドメインからのデータにアクセスできないマルチソースゼロショットDGの課題に焦点を当てる。 この問題は研究の重要なトピックとなっているが、驚くべきことに、すべてのソースデータをまとめ、単一の分類器を訓練する簡単なソリューションは、標準ベンチマークで非常に競争力がある。 さらに重要なことに、異なるドメイン間の不変性を明示的に最適化する洗練されたアプローチでさえ、ermに対する非自明な利益を提供するとは限らない。 本稿では,先述したドメインラベルと一般化性能の関連性について,初めて考察する。 分散ロバスト最適化アルゴリズムであるGroupDRO++の新たな変種であるモチベーションケーススタディを用いて、カスタムドメイングループを推論することで、データセットに付属する元のドメインラベルよりも一貫した改善がもたらされることを示す。 次に、EMMベースの深層アンサンブルバックボーンを用いてメタ最適化アルゴリズムにより暗黙的なドメイン再ラベルを行うマルチドメイン一般化の一般的なアプローチであるMulDEnsを提案する。 複数の標準ベンチマークに関する実証的な研究から、MulDEnsはデータセット固有の拡張戦略やトレーニングプロセスの調整を必要とせず、一貫したマージンでEMMを上回り、ドメインラベルを利用する既存手法と比較しても最先端の一般化性能を生み出すことを示した。

Domain generalization (DG) methods aim to develop models that generalize to settings where the test distribution is different from the training data. In this paper, we focus on the challenging problem of multi-source zero-shot DG, where labeled training data from multiple source domains is available but with no access to data from the target domain. Though this problem has become an important topic of research, surprisingly, the simple solution of pooling all source data together and training a single classifier is highly competitive on standard benchmarks. More importantly, even sophisticated approaches that explicitly optimize for invariance across different domains do not necessarily provide non-trivial gains over ERM. In this paper, for the first time, we study the important link between pre-specified domain labels and the generalization performance. Using a motivating case-study and a new variant of a distributional robust optimization algorithm, GroupDRO++, we first demonstrate how inferring custom domain groups can lead to consistent improvements over the original domain labels that come with the dataset. Subsequently, we introduce a general approach for multi-domain generalization, MulDEns, that uses an ERM-based deep ensembling backbone and performs implicit domain re-labeling through a meta-optimization algorithm. Using empirical studies on multiple standard benchmarks, we show that MulDEns does not require tailoring the augmentation strategy or the training process specific to a dataset, consistently outperforms ERM by significant margins, and produces state-of-the-art generalization performance, even when compared to existing methods that exploit the domain labels.
翻訳日:2021-12-23 05:18:11 公開日:2021-12-17
# (参考訳) 距離関数計算アルゴリズムにおける追跡音源による3次元点雲と離散面との間の中面の直接簡易計算

Direct simple computation of middle surface between 3D point clouds and/or discrete surfaces by tracking sources in distance function calculation algorithms ( http://arxiv.org/abs/2112.09808v1 )

ライセンス: CC BY 4.0
Balazs Kosa and Karol Mikula(参考訳) 本稿では,点群や離散面といった様々な3次元データセット間の中間面を計算する新しい手法を提案する。 伝統的に、中間面は、尾根、三重接合などの計算距離関数の特異点を検出することによって得られる。 二次微分特性を計算する必要があり、ある種のヒューリスティックも適用する必要がある。 それとは対照的に、高速で単純なアプローチである距離関数自体を計算するだけで、中間面を決定する。 本研究では,3次元データセット間の中間面探索において,高速スイーピング法,ベクトル距離変換法,高速マーチング法,およびダイクストラ・ピタゴラス法の結果を比較した。

In this paper, we introduce novel methods for computing middle surfaces between various 3D data sets such as point clouds and/or discrete surfaces. Traditionally the middle surface is obtained by detecting singularities in computed distance function such as ridges, triple junctions, etc. It requires to compute second order differential characteristics and also some kinds of heuristics must be applied. Opposite to that, we determine the middle surface just from computing the distance function itself which is a fast and simple approach. We present and compare the results of the fast sweeping method, the vector distance transform algorithm, the fast marching method, and the Dijkstra-Pythagoras method in finding the middle surface between 3D data sets.
翻訳日:2021-12-23 04:54:52 公開日:2021-12-17
# soundify:ビデオと音響効果のマッチング

Soundify: Matching Sound Effects to Video ( http://arxiv.org/abs/2112.09726v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Anastasis Germanidis, Crist\'obal Valenzuela, Yining Shi, Nikolas Martelaro(参考訳) ビデオ編集の分野では、サウンドは物語の半分に過ぎません。 熟練したビデオエディタは、エフェクトや環境などの音をオーバーレイして、オブジェクトにキャラクタを追加したり、空間内で視聴者を没入させる。 しかし、プロのビデオ編集者との形式的インタビューを通じて、このプロセスは非常に退屈で時間がかかります。 soundifyは,映像と音響効果をマッチングするシステムである。 ラベル付き、スタジオ品質のサウンドエフェクトライブラリを活用し、印象的なゼロショット画像分類機能を持つニューラルネットワークであるCLIPを"ゼロショット検出器"に拡張することで、リソース集約型対応学習やオーディオ生成なしに高品質な結果を生成することができる。 私たちは、https://chuanenlin.c om/soundify.comで結果を聴くことをお勧めします。

In the art of video editing, sound is really half the story. A skilled video editor overlays sounds, such as effects and ambients, over footage to add character to an object or immerse the viewer within a space. However, through formative interviews with professional video editors, we found that this process can be extremely tedious and time-consuming. We introduce Soundify, a system that matches sound effects to video. By leveraging labeled, studio-quality sound effects libraries and extending CLIP, a neural network with impressive zero-shot image classification capabilities, into a "zero-shot detector", we are able to produce high-quality results without resource-intensive correspondence learning or audio generation. We encourage you to have a look at, or better yet, have a listen to the results at https://chuanenlin.c om/soundify.
翻訳日:2021-12-21 18:23:27 公開日:2021-12-17
# 磁気共鳴画像再構成のための学習型半曲面分割ネットワーク

Learned Half-Quadratic Splitting Network for Magnetic Resonance Image Reconstruction ( http://arxiv.org/abs/2112.09760v1 )

ライセンス: Link先を確認
Bingyu Xin, Timothy S. Phan, Leon Axel, Dimitris N. Metaxas(参考訳) 高アンサンプされた$k$-spaceデータからのMR画像再構成は、MRI(Accelerd MR imaging)技術において重要である。 近年,ディープラーニングに基づく手法がこの課題に大きな可能性を示している。 本稿では,mr画像再構成のための学習型半量子分割アルゴリズムを提案し,未ロール深層学習ネットワークアーキテクチャで実装する。 提案手法は,DC-CNN と LPDNet に対する公共心MRデータセットの性能を比較検討し,定量的な結果と定性的な結果の両方において,より少ないモデルパラメータと高速な再構成速度で比較した。 最後に,再現性の向上のためにモデルを拡張し,ピーク信号対雑音比を5\times$と10\times$Accelerator でそれぞれ1.76$dBと2.74$dBに改善した。 このメソッドのコードはhttps://github.com/h ellopipu/hqs-netで公開されている。

Magnetic Resonance (MR) image reconstruction from highly undersampled $k$-space data is critical in accelerated MR imaging (MRI) techniques. In recent years, deep learning-based methods have shown great potential in this task. This paper proposes a learned half-quadratic splitting algorithm for MR image reconstruction and implements the algorithm in an unrolled deep learning network architecture. We compare the performance of our proposed method on a public cardiac MR dataset against DC-CNN and LPDNet, and our method outperforms other methods in both quantitative results and qualitative results with fewer model parameters and faster reconstruction speed. Finally, we enlarge our model to achieve superior reconstruction quality, and the improvement is $1.76$ dB and $2.74$ dB over LPDNet in peak signal-to-noise ratio on $5\times$ and $10\times$ acceleration, respectively. Code for our method is publicly available at https://github.com/h ellopipu/HQS-Net.
翻訳日:2021-12-21 17:56:50 公開日:2021-12-17
# ROIに基づくビジュアルトラッキングのための適応サブサンプリング:アルゴリズムとFPGA実装

Adaptive Subsampling for ROI-based Visual Tracking: Algorithms and FPGA Implementation ( http://arxiv.org/abs/2112.09775v1 )

ライセンス: Link先を確認
Odrika Iqbal, Victor Isaac Torres Muro, Sameeksha Katoch, Andreas Spanias and Suren Jayasuriya(参考訳) 画像センサの設計には、プログラム可能な領域(ROI)の読み出しを組み込むことで、組込み視覚システムのエネルギー効率を向上させるための膨大な範囲がある。 本研究では、将来のフレームにROIがどこにあるのかを予測し、この領域の外でピクセルをオフにすることで、ROIプログラム可能性をどのように利用してアプリケーションを追跡するかを検討する。 本稿では、このROI予測プロセスと対応するセンサ構成を適応サブサンプリングと呼ぶ。 適応型サブサンプリングアルゴリズムは、オブジェクト検出器と、視覚パイプラインのエネルギー効率を最適化するために協調して動作するROI予測器(カルマンフィルタ)から構成される。 実生活における適応アルゴリズムの実装をさらに促進するために、候補アルゴリズムを選択し、FPGAにマップする。 Xilinx Vitis AIツールを活用し, YOLOオブジェクト検出に基づく適応サブサンプリングアルゴリズムの設計と高速化を行った。 デプロイ後のアルゴリズムをさらに改善するために,otb100 と lasot データセット上で競合するいくつかのベースラインを評価した。 その結果,OCOトラッカーとカルマンフィルタの結合は,OCB100およびLaSOTデータセット上でそれぞれ0.4568と0.3471のAUCスコアを持つことがわかった。 さらに、このアルゴリズムの電力効率は、他のベースラインと同等であり、いくつかのインスタンスで同等である。 ECOベースのアルゴリズムは、両方のデータセットで平均4Wの消費電力を発生させる一方、YOLOベースのアプローチでは、消費電力は約6W(電力消費モデルによる)である。 精度とレイテンシのトレードオフに関して、ECOベースのアルゴリズムは、ほぼリアルタイムのパフォーマンス(19.23 FPS)を提供しながら、競合する追跡精度を実現する。

There is tremendous scope for improving the energy efficiency of embedded vision systems by incorporating programmable region-of-interest (ROI) readout in the image sensor design. In this work, we study how ROI programmability can be leveraged for tracking applications by anticipating where the ROI will be located in future frames and switching pixels off outside of this region. We refer to this process of ROI prediction and corresponding sensor configuration as adaptive subsampling. Our adaptive subsampling algorithms comprise an object detector and an ROI predictor (Kalman filter) which operate in conjunction to optimize the energy efficiency of the vision pipeline with the end task being object tracking. To further facilitate the implementation of our adaptive algorithms in real life, we select a candidate algorithm and map it onto an FPGA. Leveraging Xilinx Vitis AI tools, we designed and accelerated a YOLO object detector-based adaptive subsampling algorithm. In order to further improve the algorithm post-deployment, we evaluated several competing baselines on the OTB100 and LaSOT datasets. We found that coupling the ECO tracker with the Kalman filter has a competitive AUC score of 0.4568 and 0.3471 on the OTB100 and LaSOT datasets respectively. Further, the power efficiency of this algorithm is on par with, and in a couple of instances superior to, the other baselines. The ECO-based algorithm incurs a power consumption of approximately 4 W averaged across both datasets while the YOLO-based approach requires power consumption of approximately 6 W (as per our power consumption model). In terms of accuracy-latency tradeoff, the ECO-based algorithm provides near-real-time performance (19.23 FPS) while managing to attain competitive tracking precision.
翻訳日:2021-12-21 17:56:32 公開日:2021-12-17
# Coded Consensus Monte Carlo: ストラグラーによるロバストなワンショット分散ベイズ学習

Coded Consensus Monte Carlo: Robust One-Shot Distributed Bayesian Learning with Stragglers ( http://arxiv.org/abs/2112.09794v1 )

ライセンス: Link先を確認
Hari Hara Suthan Chittoor and Osvaldo Simeone(参考訳) 本論文は,集中型サーバと複数作業者を対象として,ストラグラーの影響軽減問題に着目し,ベイズ学習を分散した。 コンセンサスモンテカルロ (CMC) として知られるベイズ学習プロトコルは、グループ化とコーディングに基づく2つのストラグラーレジリエントな解を提案することで一般化される。 提案手法は,グループベースMCC (G-CMC) とコードドMCC (C-CMC) と呼ばれ,作業者の部分出力に基づいて,サーバのグローバルな後部サンプルを推定するために,作業者の冗長な計算を利用する。 シミュレーションの結果,C-CMCは少数の労働者に対してG-GCMCより優れており,G-CMCは多数の労働者に対して好適であることがわかった。

This letter studies distributed Bayesian learning in a setting encompassing a central server and multiple workers by focusing on the problem of mitigating the impact of stragglers. The standard one-shot, or embarrassingly parallel, Bayesian learning protocol known as consensus Monte Carlo (CMC) is generalized by proposing two straggler-resilient solutions based on grouping and coding. The proposed methods, referred to as Group-based CMC (G-CMC) and Coded CMC (C-CMC), leverage redundant computing at the workers in order to enable the estimation of global posterior samples at the server based on partial outputs from the workers. Simulation results show that C-CMC may outperform G-GCMC for a small number of workers, while G-CMC is generally preferable for a larger number of workers.
翻訳日:2021-12-21 17:51:46 公開日:2021-12-17
# オブジェクトローカライゼーションとインスタンスセグメンテーションのための簡易シングルスケール視覚変換器

A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation ( http://arxiv.org/abs/2112.09747v1 )

ライセンス: Link先を確認
Wuyang Chen, Xianzhi Du, Fan Yang, Lucas Beyer, Xiaohua Zhai, Tsung-Yi Lin, Huizhong Chen, Jing Li, Xiaodan Song, Zhangyang Wang, Denny Zhou(参考訳) この研究は、オブジェクトローカライゼーションとインスタンスセグメンテーションタスクのための強力なベースラインとして、単純な視覚変換器の設計を示す。 トランスフォーマーは近年,画像分類タスクにおける競合性能を実証している。 オブジェクト検出と密集予測タスクにViTを採用するために、多くの研究が畳み込みネットワークと高度にカスタマイズされたViTアーキテクチャからマルチステージ設計を継承した。 この設計の背後にある目標は、計算コストとマルチスケールグローバルコンテキストの効果的な集約とのトレードオフを改善することである。 しかし、既存の作品では、その真のメリットを明確に理解せずに、ブラックボックスソリューションとして多段階アーキテクチャ設計を採用している。 本稿では,vitにおける3つのアーキテクチャ設計選択 - 空間的縮小,二重化チャネル,マルチスケール機能 -- を包括的に検討し,vailla vitアーキテクチャがマルチスケール機能を手作りすることなく,vitの設計哲学を維持できることを示す。 さらに,モデルの精度と計算コスト/モデルサイズに関するトレードオフを最適化するためのスケーリングルールも完成しました。 エンコーダブロック全体にわたって一定の特徴解像度と隠れサイズを活用することで,COCOオブジェクト検出やインスタンス分割タスクにおいて高い性能を実現する,Universal Vision Transformer (UViT) と呼ばれるシンプルでコンパクトなViTアーキテクチャを提案する。

This work presents a simple vision transformer design as a strong baseline for object localization and instance segmentation tasks. Transformers recently demonstrate competitive performance in image classification tasks. To adopt ViT to object detection and dense prediction tasks, many works inherit the multistage design from convolutional networks and highly customized ViT architectures. Behind this design, the goal is to pursue a better trade-off between computational cost and effective aggregation of multiscale global contexts. However, existing works adopt the multistage architectural design as a black-box solution without a clear understanding of its true benefits. In this paper, we comprehensively study three architecture design choices on ViT -- spatial reduction, doubled channels, and multiscale features -- and demonstrate that a vanilla ViT architecture can fulfill this goal without handcrafting multiscale features, maintaining the original ViT design philosophy. We further complete a scaling rule to optimize our model's trade-off on accuracy and computation cost / model size. By leveraging a constant feature resolution and hidden size throughout the encoder blocks, we propose a simple and compact ViT architecture called Universal Vision Transformer (UViT) that achieves strong performance on COCO object detection and instance segmentation tasks.
翻訳日:2021-12-21 16:18:11 公開日:2021-12-17
# 不均一グラフ畳み込みネットワークを用いた問合せ適応型少数ショット物体検出

Query Adaptive Few-Shot Object Detection with Heterogeneous Graph Convolutional Networks ( http://arxiv.org/abs/2112.09791v1 )

ライセンス: Link先を確認
Guangxing Han, Yicheng He, Shiyuan Huang, Jiawei Ma, Shih-Fu Chang(参考訳) Few-shot Object Detection (FSOD) は、いくつかの例を使って見えないオブジェクトを検出することを目的としている。 この分野では,クエリイメージと少数ショットのクラス例のマッチング方法を学ぶことによって,メタラーニング技術による最近の進歩が見られ,学習モデルが少数ショットの新規クラスに一般化できる。 しかし、現在、メタラーニングベースの手法のほとんどは、クエリ画像領域(通常提案)と新しいクラスを別々にペアワイズにマッチングしているため、複数の関係を考慮に入れていない。 本稿では,不均一なグラフ畳み込みネットワークを用いた新しいfsodモデルを提案する。 3種類のエッジを持つ全ての提案ノードとクラスノード間の効率的なメッセージパッシングにより、各クラスに対するコンテキスト認識型提案機能とクエリ適応型マルチクラス拡張プロトタイプ表現が得られ、ペアマッチングの促進と最終的なFSOD精度の向上に役立つ。 広範な実験結果から,提案モデルであるqa-fewdetは,pascal voc と mscoco fsod ベンチマークにおける最先端の手法を,異なるショットと評価指標で上回っていることがわかった。

Few-shot object detection (FSOD) aims to detect never-seen objects using few examples. This field sees recent improvement owing to the meta-learning techniques by learning how to match between the query image and few-shot class examples, such that the learned model can generalize to few-shot novel classes. However, currently, most of the meta-learning-based methods perform pairwise matching between query image regions (usually proposals) and novel classes separately, therefore failing to take into account multiple relationships among them. In this paper, we propose a novel FSOD model using heterogeneous graph convolutional networks. Through efficient message passing among all the proposal and class nodes with three different types of edges, we could obtain context-aware proposal features and query-adaptive, multiclass-enhanced prototype representations for each class, which could help promote the pairwise matching and improve final FSOD accuracy. Extensive experimental results show that our proposed model, denoted as QA-FewDet, outperforms the current state-of-the-art approaches on the PASCAL VOC and MSCOCO FSOD benchmarks under different shots and evaluation metrics.
翻訳日:2021-12-21 15:44:09 公開日:2021-12-17
# カーカソンゲームにおける進化アルゴリズムによる木に対するmcts上信頼境界の進化について

On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means of Evolutionary Algorithms in the Game of Carcassonne ( http://arxiv.org/abs/2112.09697v1 )

ライセンス: Link先を確認
Edgar Galv\'an and Gavin Simpson(参考訳) Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。 mctsの人気は、チェスよりはるかに難易度が高く、最近まで人工知能の手法では実現不可能と考えられていた2人のプレイヤーによるゲームgoの驚くべき結果に基づいている。 mctsの成功は、ツリーの構築方法に大きく依存し、選択プロセスがこれにおいて基本的な役割を果たす。 信頼性が証明された特定の選択メカニズムの1つは、樹上の信頼境界(一般にUCTと呼ばれる)に基づいている。 UCTは、MCTSの統計ツリーに格納されている値を考慮することで、探索と利用のバランスを良好に保とうとしている。 しかし、mcts uctのチューニングは、これがうまく機能するためには必要である。 本研究では、進化的アルゴリズム(EA)を用いて、UTTの数学的表現に代えて数学的表現を進化させる。 提案手法であるmcts(es-mcts)と,mcts uctの5つの変種,star-minimax系アルゴリズムの3つの変種,およびcarcassonneゲームにおけるランダムコントローラを比較した。 また、提案したEAベースのコントローラの変種であるESを部分的にMCTSに統合する。 ES-MCTSコントローラは、頑健なMCTS UCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れた性能を発揮することを示す。

Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for optimal decisions. The MCTS's popularity is based on its extraordinary results in the challenging two-player based game Go, a game considered much harder than Chess and that until very recently was considered infeasible for Artificial Intelligence methods. The success of MCTS depends heavily on how the tree is built and the selection process plays a fundamental role in this. One particular selection mechanism that has proved to be reliable is based on the Upper Confidence Bounds for Trees, commonly referred as UCT. The UCT attempts to nicely balance exploration and exploitation by considering the values stored in the statistical tree of the MCTS. However, some tuning of the MCTS UCT is necessary for this to work well. In this work, we use Evolutionary Algorithms (EAs) to evolve mathematical expressions with the goal to substitute the UCT mathematical expression. We compare our proposed approach, called Evolution Strategy in MCTS (ES-MCTS) against five variants of the MCTS UCT, three variants of the star-minimax family of algorithms as well as a random controller in the Game of Carcassonne. We also use a variant of our proposed EA-based controller, dubbed ES partially integrated in MCTS. We show how the ES-MCTS controller, is able to outperform all these 10 intelligent controllers, including robust MCTS UCT controllers.
翻訳日:2021-12-21 15:43:21 公開日:2021-12-17
# nftgan:生成型adversatial networkを用いた非フランジブルトークンアート生成

NFTGAN: Non-Fungible Token Art Generation Using Generative Adversatial Networks ( http://arxiv.org/abs/2112.10577v1 )

ライセンス: Link先を確認
Sakib Shahriar and Kadhim Hayawi(参考訳) デジタルアートは、NFT(Non-fungible tokens)の出現によって、前例のないほどの人気を得た。 NFTはブロックチェーンネットワークに格納され、偽造できない所有権のデジタル証明書を表す暗号資産である。 NFTはスマートコントラクトに組み込むことができ、所有者は将来の販売率から利益を得ることができる。 デジタルアートの制作者はNFTで大いに利益を得ることができるが、生産には時間がかかる。 そこで本稿では,デジタルアートの自動生成にGAN(Generative Adversarial Network)を用いることの可能性を検討する。 GANは、音声、画像、ビデオコンテンツの合成に広く、効果的に使用されるディープラーニングアーキテクチャである。 しかし、NFTアートへの応用は限られている。 本稿では,デジタルアート生成のためのGANアーキテクチャを実装し,評価する。 定性的ケーススタディの結果は、生成されたアートワークが実際のサンプルに匹敵することを示している。

Digital arts have gained an unprecedented level of popularity with the emergence of non-fungible tokens (NFTs). NFTs are cryptographic assets that are stored on blockchain networks and represent a digital certificate of ownership that cannot be forged. NFTs can be incorporated into a smart contract which allows the owner to benefit from a future sale percentage. While digital art producers can benefit immensely with NFTs, their production is time consuming. Therefore, this paper explores the possibility of using generative adversarial networks (GANs) for automatic generation of digital arts. GANs are deep learning architectures that are widely and effectively used for synthesis of audio, images, and video contents. However, their application to NFT arts have been limited. In this paper, a GAN-based architecture is implemented and evaluated for digital arts generation. Results from the qualitative case study indicate the generated artworks are comparable to the real samples.
翻訳日:2021-12-21 15:18:52 公開日:2021-12-17
# 確率的逆最適輸送

Probabilistic Inverse Optimal Transport ( http://arxiv.org/abs/2112.09754v1 )

ライセンス: Link先を確認
Wei-Ting Chiu, Pei Wang, Patrick Shafto(参考訳) 最適輸送(OT)は、コスト行列が与えられた確率測度間の最適結合を求める問題を定式化する。 結合のコストを推定する逆問題は、逆最適輸送(Inverse Optimal Transport, IOT)である。 IOTはOTほどよく理解されていない。 我々は、エントロピー規則化OTの研究ツールを用いて、IOTの特性を形式化し、体系的に解析する。 理論的貢献には、クロス比例等価コストの多様体の特徴づけ、モデル事前の含意、MCMCサンプリング器の導出などが含まれる。 経験的貢献には、基本的な例と理論結果を検証するシミュレーションに対する相互比等価効果の可視化が含まれる。

Optimal transport (OT) formalizes the problem of finding an optimal coupling between probability measures given a cost matrix. The inverse problem of inferring the cost given a coupling is Inverse Optimal Transport (IOT). IOT is less well understood than OT. We formalize and systematically analyze the properties of IOT using tools from the study of entropy-regularized OT. Theoretical contributions include characterization of the manifold of cross-ratio equivalent costs, the implications of model priors, and derivation of an MCMC sampler. Empirical contributions include visualizations of cross-ratio equivalent effect on basic examples and simulations validating theoretical results.
翻訳日:2021-12-21 15:18:15 公開日:2021-12-17
# AutoTransfer:バイオシグナリカルデータに基づく教師付き表現による教科移動学習

AutoTransfer: Subject Transfer Learning with Censored Representations on Biosignals Data ( http://arxiv.org/abs/2112.09796v1 )

ライセンス: Link先を確認
Niklas Smedemark-Margulies, Ye Wang, Toshiaki Koike-Akino, Deniz Erdogmus(参考訳) 潜在表現と被写体ラベルの独立性を測定するペナルティの対象となる、分類損失を最小限に抑えるためにエンコーダと分類器を訓練することを目的とした、被写体転送学習のための正規化フレームワークを提供する。 相互情報や相違を独立の代理として,3つの独立概念と対応するペナルティ用語を導入する。 各ペナルティ項に対して,解析的手法と神経批判関数を用いて,いくつかの具体的な推定アルゴリズムを提供する。 我々は、この多種多様な正規化アルゴリズムを新しいデータセットに適用するためのハンドオフ戦略を提供し、それを"AutoTransfer"と呼ぶ。 脳波、EMG、ECoGデータセットにおけるこれらの個別正規化戦略とオートトランスファー法の性能評価を行い、これらの手法が現実のデータセットに挑戦するための主観的伝達学習を改善することを示す。

We provide a regularization framework for subject transfer learning in which we seek to train an encoder and classifier to minimize classification loss, subject to a penalty measuring independence between the latent representation and the subject label. We introduce three notions of independence and corresponding penalty terms using mutual information or divergence as a proxy for independence. For each penalty term, we provide several concrete estimation algorithms, using analytic methods as well as neural critic functions. We provide a hands-off strategy for applying this diverse family of regularization algorithms to a new dataset, which we call "AutoTransfer". We evaluate the performance of these individual regularization strategies and our AutoTransfer method on EEG, EMG, and ECoG datasets, showing that these approaches can improve subject transfer learning for challenging real-world datasets.
翻訳日:2021-12-21 15:18:05 公開日:2021-12-17
# 不確実性は、デジタル病理におけるAIベースの診断手法の信頼性を高めるか?

Can uncertainty boost the reliability of AI-based diagnostic methods in digital pathology? ( http://arxiv.org/abs/2112.09693v1 )

ライセンス: Link先を確認
Milda Pocevi\v{c}i\=ut\.e, Gabriel Eilertsen, Sofia Jarkman, Claes Lundstr\"om(参考訳) 深層学習(DL)はデジタル病理学の応用に大きな可能性を示している。 診断用DLベースのソリューションの堅牢性は、安全な臨床展開に不可欠である。 本研究では, デジタル病理学におけるdl予測に対する不確実性推定の付加が, 一般予測性能の向上や誤予測の検出によって臨床応用価値の向上につながるかどうかを評価する。 モデル統合手法(MCドロップアウトとディープアンサンブル)の有効性をモデル非依存アプローチ(テスト時間拡張,TTA)と比較した。 さらに、4つの不確実性指標を比較する。 実験では, 2つの領域シフトシナリオに注目した。別の医療センターへのシフトと,低発現のがんのサブタイプへのシフトである。 以上の結果から,不確実性推定により信頼性が増し,分類しきい値選択に対する感度が低下することが示された。 高度なメトリクスとディープアンサンブルは、我々の比較において最も優れているが、単純なメトリクスよりも付加価値があり、TTAは小さい。 重要なことに、評価された不確実性推定方法の利点は、ドメインシフトによって減少する。

Deep learning (DL) has shown great potential in digital pathology applications. The robustness of a diagnostic DL-based solution is essential for safe clinical deployment. In this work we evaluate if adding uncertainty estimates for DL predictions in digital pathology could result in increased value for the clinical applications, by boosting the general predictive performance or by detecting mispredictions. We compare the effectiveness of model-integrated methods (MC dropout and Deep ensembles) with a model-agnostic approach (Test time augmentation, TTA). Moreover, four uncertainty metrics are compared. Our experiments focus on two domain shift scenarios: a shift to a different medical center and to an underrepresented subtype of cancer. Our results show that uncertainty estimates can add some reliability and reduce sensitivity to classification threshold selection. While advanced metrics and deep ensembles perform best in our comparison, the added value over simpler metrics and TTA is small. Importantly, the benefit of all evaluated uncertainty estimation methods is diminished by domain shift.
翻訳日:2021-12-21 14:30:12 公開日:2021-12-17
# (参考訳) 不完全知識グラフに対するリンク集約アライメント [全文訳有]

Link-Intensive Alignment for Incomplete Knowledge Graphs ( http://arxiv.org/abs/2112.09266v1 )

ライセンス: CC BY 4.0
Vinh Van Tong, Thanh Trung Huynh, Thanh Tam Nguyen, Hongzhi Yin, Quoc Viet Hung Nguyen and Quyet Thang Huynh(参考訳) 知識グラフ(KG)アライメント - 同じことを異なるKGで参照するエンティティを認識するタスクは、KGの構築と完了の分野で最も重要な操作の1つとして認識されている。 しかし、既存のアライメント手法は入力KGsが完全で同型であると仮定することが多く、これは領域、サイズ、空間の実際の異質性のために正しくない。 本研究では,不完全KGと表現学習の整合性の問題に対処する。 我々のKG埋め込みフレームワークは2つの特徴チャンネルを利用する。 前者は翻訳経路を介してエンティティ間の一貫性の制約をキャプチャし、後者は注意誘導関係対応グラフニューラルネットワークを介してKGの近傍構造をキャプチャする。 2つの特徴チャネルは、入力KG間の重要な特徴を同一の埋め込み空間において入力KGの出力表現を強制しながら、共同で学習する。 また,入力kgs内の欠落リンクを学習中に検出・回収する欠落リンク検出器を開発し,不完全性問題を軽減するとともに,学習表現の互換性を向上させる。 そして、埋め込みを融合してアライメント結果を生成し、高信頼の一致したノードペアを予め整列された監視データに更新し、徐々に埋め込みを改善する。 実験の結果、我々のモデルはSOTAよりも最大15.2\%正確であり、異なるレベルの不完全性に対して堅牢であることが示された。 また,KG間の知識交換は,知識グラフの未確認事実(すなわち知識完備化)を明らかにするのに役立ち,結果がSOTA知識グラフ完成技術よりも3.5倍高いことを示す。

Knowledge graph (KG) alignment - the task of recognizing entities referring to the same thing in different KGs - is recognized as one of the most important operations in the field of KG construction and completion. However, existing alignment techniques often assume that the input KGs are complete and isomorphic, which is not true due to the real-world heterogeneity in the domain, size, and sparsity. In this work, we address the problem of aligning incomplete KGs with representation learning. Our KG embedding framework exploits two feature channels: transitivity-based and proximity-based. The former captures the consistency constraints between entities via translation paths, while the latter captures the neighbourhood structure of KGs via attention guided relation-aware graph neural network. The two feature channels are jointly learned to exchange important features between the input KGs while enforcing the output representations of the input KGs in the same embedding space. Also, we develop a missing links detector that discovers and recovers the missing links in the input KGs during the training process, which helps mitigate the incompleteness issue and thus improve the compatibility of the learned representations. The embeddings then are fused to generate the alignment result, and the high-confidence matched node pairs are updated to the pre-aligned supervision data to improve the embeddings gradually. Empirical results show that our model is up to 15.2\% more accurate than the SOTA and is robust against different levels of incompleteness. We also demonstrate that the knowledge exchanging between the KGs helps reveal the unseen facts from knowledge graphs (a.k.a. knowledge completion), with the result being 3.5\% higher than the SOTA knowledge graph completion techniques.
翻訳日:2021-12-21 04:05:55 公開日:2021-12-17
# (参考訳) 深層学習におけるロバスト最適化手法

A Robust Optimization Approach to Deep Learning ( http://arxiv.org/abs/2112.09279v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, Xavier Boix, Kimberly Villalobos Carballo, Dick den Hertog(参考訳) 多くの最先端の敵の訓練方法は、敵の損失の上限を利用してセキュリティの保証を提供する。 しかし、これらの方法は、バックプロパゲーションの勾配に組み込めない各トレーニングステップでの計算を必要とする。 本稿では, 逆行法により効果的に訓練可能な, 対向損失の上界の閉じた解法に基づく, 対向トレーニングに対する新たな, より原則化されたアプローチを提案する。 この境界は、堅牢な最適化から最先端のツールによって促進される。 私たちはアプローチで2つの新しい方法を導出します。 最初の手法 (Approximated Robust Upper Bound, ARUB) は、線形ロバスト最適化による基本ツールと同様にネットワークの第1次近似を用いて、容易に実装可能な対向損失の近似上界を求める。 第2の方法(Robust Upper Bound, RUB)は、対向損失の正確な上限を計算する。 rubはより大きな摂動に対して最先端のメソッドよりも大幅に堅牢であり、arubは小さな摂動に対して最先端のメソッドのパフォーマンスにマッチしています。 また、RUBとARUBは、(メモリの増加を犠牲にして)標準の敵トレーニングよりも高速に実行される。 結果を再現するコードはhttps://github.com/k imvc7/robustnessにある。

Many state-of-the-art adversarial training methods leverage upper bounds of the adversarial loss to provide security guarantees. Yet, these methods require computations at each training step that can not be incorporated in the gradient for backpropagation. We introduce a new, more principled approach to adversarial training based on a closed form solution of an upper bound of the adversarial loss, which can be effectively trained with backpropagation. This bound is facilitated by state-of-the-art tools from robust optimization. We derive two new methods with our approach. The first method (Approximated Robust Upper Bound or aRUB) uses the first order approximation of the network as well as basic tools from linear robust optimization to obtain an approximate upper bound of the adversarial loss that can be easily implemented. The second method (Robust Upper Bound or RUB), computes an exact upper bound of the adversarial loss. Across a variety of tabular and vision data sets we demonstrate the effectiveness of our more principled approach -- RUB is substantially more robust than state-of-the-art methods for larger perturbations, while aRUB matches the performance of state-of-the-art methods for small perturbations. Also, both RUB and aRUB run faster than standard adversarial training (at the expense of an increase in memory). All the code to reproduce the results can be found at https://github.com/k imvc7/Robustness.
翻訳日:2021-12-21 03:33:51 公開日:2021-12-17
# (参考訳) 生体間関係抽出のためのニューラルアーキテクチャ [全文訳有]

Neural Architectures for Biological Inter-Sentence Relation Extraction ( http://arxiv.org/abs/2112.09288v1 )

ライセンス: CC BY 4.0
Enrique Noriega-Atala, Peter M. Lovett, Clayton T. Morrison, Mihai Surdeanu(参考訳) 文間関係抽出のためのディープラーニングアーキテクチャのファミリ、すなわち、参加者が必ずしも同じ文にない関係について紹介する。 これらのアーキテクチャを,生物医学領域における重要なユースケースである生化学的事象に生物学的文脈を割り当てることに適用する。 この研究において、生物学的文脈は、生化学的事象が観測される生体系のタイプとして定義される。 ニューラルネットワークは、同じ候補コンテキストの複数の発生をエンコードして集約し、特定のイベント参照の正しいコンテキストかどうかを決定する。 分類を発行する前に、同じ候補コンテキストに対応する複数のインスタンスを集約する第1のタイプと、各インスタンスを独立に分類し、最終クラスに投票するために結果を使用する第2のタイプと、アンサンブルアプローチに似た2つの幅広いタイプのアーキテクチャを提案する。 実験の結果,提案するニューラル分類器は競争力があり,機能工学を必要とせず,従来の機械学習手法よりも優れた性能が得られることがわかった。 分析の結果,従来の機械学習分類器に比べて精度が向上し,イベントとコンテキスト間の距離が大きくなるにつれて,文間関係抽出の難しさが増すことが示された。

We introduce a family of deep-learning architectures for inter-sentence relation extraction, i.e., relations where the participants are not necessarily in the same sentence. We apply these architectures to an important use case in the biomedical domain: assigning biological context to biochemical events. In this work, biological context is defined as the type of biological system within which the biochemical event is observed. The neural architectures encode and aggregate multiple occurrences of the same candidate context mentions to determine whether it is the correct context for a particular event mention. We propose two broad types of architectures: the first type aggregates multiple instances that correspond to the same candidate context with respect to event mention before emitting a classification; the second type independently classifies each instance and uses the results to vote for the final class, akin to an ensemble approach. Our experiments show that the proposed neural classifiers are competitive and some achieve better performance than previous state of the art traditional machine learning methods without the need for feature engineering. Our analysis shows that the neural methods particularly improve precision compared to traditional machine learning classifiers and also demonstrates how the difficulty of inter-sentence relation extraction increases as the distance between the event and context mentions increase.
翻訳日:2021-12-21 03:32:37 公開日:2021-12-17
# (参考訳) LSTMモデルとTCNモデルを用いた時系列データ中の異常検出の比較検討 [全文訳有]

A Comparative Study of Detecting Anomalies in Time Series Data Using LSTM and TCN Models ( http://arxiv.org/abs/2112.09293v1 )

ライセンス: CC BY 4.0
Saroj Gopali, Faranak Abri, Sima Siami-Namini, Akbar Siami Namin(参考訳) 従来の回帰に基づくモデリングアプローチ(ARIMA)を含む時系列データをモデル化できるデータ駆動型アプローチがいくつか存在する。 近年,時系列解析と予測の文脈で深層学習技術が導入され,研究されている。 問うべき大きな研究課題は、時系列データの予測におけるこれらのさまざまなディープラーニング技術のパフォーマンスである。 本稿では,2つの著明なディープラーニングモデリング手法を比較した。 Recurrent Neural Network (RNN)-based Long Short-Term Memory (LSTM) と Convolutional Neural Network (CNN)-based Temporal Convolutional Networks (TCN) を比較し,その性能とトレーニング時間を報告する。 実験結果によると,ttnベースのモデルがlstmをわずかに上回って比較可能であった。 さらに、CNNベースのTNモデルは、RNNベースのLSTMモデルよりも高速に安定したモデルを構築する。

There exist several data-driven approaches that enable us model time series data including traditional regression-based modeling approaches (i.e., ARIMA). Recently, deep learning techniques have been introduced and explored in the context of time series analysis and prediction. A major research question to ask is the performance of these many variations of deep learning techniques in predicting time series data. This paper compares two prominent deep learning modeling techniques. The Recurrent Neural Network (RNN)-based Long Short-Term Memory (LSTM) and the convolutional Neural Network (CNN)-based Temporal Convolutional Networks (TCN) are compared and their performance and training time are reported. According to our experimental results, both modeling techniques perform comparably having TCN-based models outperform LSTM slightly. Moreover, the CNN-based TCN model builds a stable model faster than the RNN-based LSTM models.
翻訳日:2021-12-21 03:21:02 公開日:2021-12-17
# (参考訳) FIRE 2021におけるHASOCサブトラックの概要:英語とインド・アーリア語におけるヘイトスピーチと攻撃的コンテンツ同定 [全文訳有]

Overview of the HASOC Subtrack at FIRE 2021: Hate Speech and Offensive Content Identification in English and Indo-Aryan Languages ( http://arxiv.org/abs/2112.09301v1 )

ライセンス: CC BY 4.0
Thomas Mandl, Sandip Modha, Gautam Kishore Shahi, Hiren Madhu, Shrey Satapara, Prasenjit Majumder, Johannes Schaefer, Tharindu Ranasinghe, Marcos Zampieri, Durgesh Nandini and Amit Kumar Jaiswal(参考訳) ヘイトスピーチのような悪質なコンテンツをオンラインで広めることは社会的な問題となっている。 オンラインプラットフォームでのモデレーションプロセスをサポートするには、AIツールが必要である。 これらの識別ツールの評価には、異なる言語でデータセットを連続的に実験する必要がある。 HASOCトラック(Hate Speech and Offensive Content Identification)は、この目的のためのベンチマークデータの開発を目的としている。 本稿では、hasoc subtrack for english, hindi, marathiについて述べる。 データセットはtwitterから収集された。 このサブトラックには2つのサブタスクがある。 タスクAは3つの言語すべてに対して提供されるバイナリ分類問題(Hate and Not Offensive)である。 タスクBは、英語とヒンディー語で提供される3つのクラス(HATE)Hateスピーチ、OFENSIVE、ProFANITYのきめ細かい分類問題である。 合計652チームが出場した。 タスクaの最適分類アルゴリズムの性能は、マラーティー、ヒンディー語、英語でそれぞれ 0.91, 0.78, 0.83 である。 この概要では、タスクとデータ開発、および詳細な結果について概説する。 競技に提出されたシステムは様々な技術を適用した。 最高の性能のアルゴリズムは主にトランスフォーマーアーキテクチャの変種である。

The widespread of offensive content online such as hate speech poses a growing societal problem. AI tools are necessary for supporting the moderation process at online platforms. For the evaluation of these identification tools, continuous experimentation with data sets in different languages are necessary. The HASOC track (Hate Speech and Offensive Content Identification) is dedicated to develop benchmark data for this purpose. This paper presents the HASOC subtrack for English, Hindi, and Marathi. The data set was assembled from Twitter. This subtrack has two sub-tasks. Task A is a binary classification problem (Hate and Not Offensive) offered for all three languages. Task B is a fine-grained classification problem for three classes (HATE) Hate speech, OFFENSIVE and PROFANITY offered for English and Hindi. Overall, 652 runs were submitted by 65 teams. The performance of the best classification algorithms for task A are F1 measures 0.91, 0.78 and 0.83 for Marathi, Hindi and English, respectively. This overview presents the tasks and the data development as well as the detailed results. The systems submitted to the competition applied a variety of technologies. The best performing algorithms were mainly variants of transformer architectures.
翻訳日:2021-12-21 03:10:49 公開日:2021-12-17
# (参考訳) 弱滑らかなポテンシャルの混合をサンプリングするための非調整ランゲヴィンアルゴリズム

Unadjusted Langevin algorithm for sampling a mixture of weakly smooth potentials ( http://arxiv.org/abs/2112.09311v1 )

ライセンス: CC BY 4.0
Dao Nguyen(参考訳) 連続時間拡散過程の離散化はサンプリング法として広く知られている。 しかし、ポテンシャルが滑らかであることがしばしば要求されるとき(勾配リプシッツ)、これはかなりの制限であると考えられる。 本稿では, ポテンシャル関数が弱滑らかな分布の混合であり, 弱散逸性を満たすと仮定したオイラー離散化によるサンプリング問題について検討する。 kullback-leibler (kl) における反復数との収束を定め、その次元に対する多項式依存性のみにおいて対象分布の$\epsilon$-neighborh oodに達する。 また, 球面外におけるポアンカーの不等式や非強凸の下での収束保証を証明し, 無限条件下でのデジェネレーション凸を緩和する。 さらに、平滑化ポテンシャルに対する$l_{\beta}$-wasserstein計量の収束も提供する。

Discretization of continuous-time diffusion processes is a widely recognized method for sampling. However, it seems to be a considerable restriction when the potentials are often required to be smooth (gradient Lipschitz). This paper studies the problem of sampling through Euler discretization, where the potential function is assumed to be a mixture of weakly smooth distributions and satisfies weakly dissipative. We establish the convergence in Kullback-Leibler (KL) divergence with the number of iterations to reach $\epsilon$-neighborh ood of a target distribution in only polynomial dependence on the dimension. We relax the degenerated convex at infinity conditions of \citet{erdogdu2020convergen ce} and prove convergence guarantees under Poincar\'{e} inequality or non-strongly convex outside the ball. In addition, we also provide convergence in $L_{\beta}$-Wasserstein metric for the smoothing potential.
翻訳日:2021-12-21 02:38:04 公開日:2021-12-17
# (参考訳) MIDI-DDSP:階層的モデリングによる演奏の詳細な制御 [全文訳有]

MIDI-DDSP: Detailed Control of Musical Performance via Hierarchical Modeling ( http://arxiv.org/abs/2112.09312v1 )

ライセンス: CC BY 4.0
Yusong Wu, Ethan Manilow, Yi Deng, Rigel Swavely, Kyle Kastner, Tim Cooijmans, Aaron Courville, Cheng-Zhi Anna Huang, Jesse Engel(参考訳) 音楽表現は、演奏される音と演奏方法の両方を制御する必要がある。 従来のオーディオシンセサイザーは詳細な表現制御を提供するが、リアリズムのコストがかかる。 black-box neural audio synthesis and concatenative samplerは現実的なオーディオを生成できるが、制御のメカニズムは少ない。 本研究では,MIDI-DDSPを楽器の階層モデルとして導入し,リアルなニューラルオーディオ合成と詳細なユーザ制御を実現する。 解釈可能な微分可能ディジタル信号処理(DDSP)合成パラメータから始め、音符とそれらの表現性能(音色、ビブラート、ダイナミクス、調音など)の高レベル特性を推定する。 これにより、3レベル階層(ノート、パフォーマンス、合成)が作成され、各レベルに介入するオプションや、トレーニング済みの事前(パフォーマンス、パフォーマンス、パフォーマンス)を創造的な支援に利用することができる。 定量的実験とリスニングテストにより,この階層が高忠実度音声を再構築し,音符列の性能特性を正確に予測し,与えられた演奏特性を独立に操作し,完全なシステムとして,新たな音符列から現実的な音声を生成することを実証した。 様々なレベルの粒度を持つ解釈可能な階層を利用することで、MIDI-DDSPは様々な音楽経験を個人に与える支援ツールの扉を開く。

Musical expression requires control of both what notes are played, and how they are performed. Conventional audio synthesizers provide detailed expressive controls, but at the cost of realism. Black-box neural audio synthesis and concatenative samplers can produce realistic audio, but have few mechanisms for control. In this work, we introduce MIDI-DDSP a hierarchical model of musical instruments that enables both realistic neural audio synthesis and detailed user control. Starting from interpretable Differentiable Digital Signal Processing (DDSP) synthesis parameters, we infer musical notes and high-level properties of their expressive performance (such as timbre, vibrato, dynamics, and articulation). This creates a 3-level hierarchy (notes, performance, synthesis) that affords individuals the option to intervene at each level, or utilize trained priors (performance given notes, synthesis given performance) for creative assistance. Through quantitative experiments and listening tests, we demonstrate that this hierarchy can reconstruct high-fidelity audio, accurately predict performance attributes for a note sequence, independently manipulate the attributes of a given performance, and as a complete system, generate realistic audio from a novel note sequence. By utilizing an interpretable hierarchy, with multiple levels of granularity, MIDI-DDSP opens the door to assistive tools to empower individuals across a diverse range of musical experience.
翻訳日:2021-12-21 02:36:22 公開日:2021-12-17
# (参考訳) データ駆動型政策学習フレームワークによる集中治療患者の最適退院

Optimal discharge of patients from intensive care via a data-driven policy learning framework ( http://arxiv.org/abs/2112.09315v1 )

ライセンス: CC BY 4.0
Fernando Lejarza, Jacob Calvert, Misty M Attwood, Daniel Evans, Qingqing Mao(参考訳) 機械学習と最適化に根ざした臨床意思決定支援ツールは、集中治療ユニットの管理の改善を含む、医療提供者に大きな価値を提供する。 特に、患者退院作業は、患者の滞在期間(および関連する入院費)の短縮と、退院決定後の退院または死亡のリスクとの微妙なトレードオフに対処することが重要である。 本研究は、患者の電子健康記録から最適な退院時期決定を推奨するために、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入する。 データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。 このモデルと所定のコスト関数に基づいて無限ホライゾン割引マルコフ決定過程を定式化し、数値解き、オフポリシー評価戦略を用いて価値を評価する最適な排出政策を算出する。 実生活集中治療ユニット患者データを用いて,提案フレームワークを検証するために,広範な数値実験を行った。

Clinical decision support tools rooted in machine learning and optimization can provide significant value to healthcare providers, including through better management of intensive care units. In particular, it is important that the patient discharge task addresses the nuanced trade-off between decreasing a patient's length of stay (and associated hospitalization costs) and the risk of readmission or even death following the discharge decision. This work introduces an end-to-end general framework for capturing this trade-off to recommend optimal discharge timing decisions given a patient's electronic health records. A data-driven approach is used to derive a parsimonious, discrete state space representation that captures a patient's physiological condition. Based on this model and a given cost function, an infinite-horizon discounted Markov decision process is formulated and solved numerically to compute an optimal discharge policy, whose value is assessed using off-policy evaluation strategies. Extensive numerical experiments are performed to validate the proposed framework using real-life intensive care unit patient data.
翻訳日:2021-12-21 02:12:38 公開日:2021-12-17
# (参考訳) 手続き型カーネルネットワーク [全文訳有]

Procedural Kernel Networks ( http://arxiv.org/abs/2112.09318v1 )

ライセンス: CC BY 4.0
Bartlomiej Wronski(参考訳) 過去10年間、畳み込みニューラルネットワーク(cnns)は、デノイジング、デモサイクリング、アップスケーリング、インパインティングなど、多くの低レベルの画像処理と修復タスクの最先端を定義してきた。 しかし、デバイス上のモバイル写真はまだ伝統的な画像処理技術に支配されており、ほとんどが単純な機械学習技術を使うか、ニューラルネットワーク処理を低解像度マスクに制限している。 CNNの高速な計算とメモリ要求、限られた処理能力、モバイルデバイスの熱的制約、大出力画像解像度(典型的には8-12MPix)と組み合わせることで、より広い応用を防げる。 本研究では,画像フィルタカーネルや他のアルゴリズムのパラメータを生成する機械学習モデルのファミリであるProcedural Kernel Networks (PKNs)を紹介する。 軽量cnnは、入力画像を低解像度で処理し、他のカーネルベースの機械学習方法に比べて大幅に高速化し、新しいアプリケーションを可能にする。 アーキテクチャはエンドツーエンドで学習され、特に様々な低レベルの画像処理タスクに適している。 また、このフレームワークが、一般的な画像復元タスクに機械学習を適用した以前の作業をどのように統合したかについても述べる。

In the last decade Convolutional Neural Networks (CNNs) have defined the state of the art for many low level image processing and restoration tasks such as denoising, demosaicking, upscaling, or inpainting. However, on-device mobile photography is still dominated by traditional image processing techniques, and uses mostly simple machine learning techniques or limits the neural network processing to producing low resolution masks. High computational and memory requirements of CNNs, limited processing power and thermal constraints of mobile devices, combined with large output image resolutions (typically 8--12 MPix) prevent their wider application. In this work, we introduce Procedural Kernel Networks (PKNs), a family of machine learning models which generate parameters of image filter kernels or other traditional algorithms. A lightweight CNN processes the input image at a lower resolution, which yields a significant speedup compared to other kernel-based machine learning methods and allows for new applications. The architecture is learned end-to-end and is especially well suited for a wide range of low-level image processing tasks, where it improves the performance of many traditional algorithms. We also describe how this framework unifies some previous work applying machine learning for common image restoration tasks.
翻訳日:2021-12-21 02:11:38 公開日:2021-12-17
# (参考訳) 合成データリワードによる機械学習におけるコラボレーションのインセンティブ

Incentivizing Collaboration in Machine Learning via Synthetic Data Rewards ( http://arxiv.org/abs/2112.09327v1 )

ライセンス: CC BY-SA 4.0
Sebastian Shenghong Tay and Xinyi Xu and Chuan Sheng Foo and Bryan Kian Hsiang Low(参考訳) 本稿では, 自己関心のある参加者間の協調を動機付け, 生成モデル(GANなど)を訓練するためのプールへのデータ提供を促す, 新たな協調生成モデリング(CGM)フレームワークを提案する。 合成データを(訓練されたモデルやお金の代わりに)報酬として分配することは、下流の学習タスクにタスクやモデルに依存しない利点をもたらし、データのプライバシー規制に違反する可能性が低い。 このフレームワークを実現するために、まず、その量と品質に基づいてデータを評価する最大平均誤差(MMD)を用いたデータアセスメント関数を提案し、MDDベースのデータアセスメント関数におけるカーネル選択を導く理論的結果を提供する。 次に, cgmフレームワークにおける公平性など, ある種のインセンティブを保証する線形最適化問題として, 報酬スキームを定式化する。 我々は、各当事者に分配される合成データを生成するための重み付けサンプリングアルゴリズムを考案し、そのデータと合成データの値が、その報酬スキームによって割り当てられた報酬値と一致するようにした。 シミュレーションおよび実世界のデータセットを用いて、当事者の合成データ報酬がその貢献に相応しいことを実証的に示す。

This paper presents a novel collaborative generative modeling (CGM) framework that incentivizes collaboration among self-interested parties to contribute data to a pool for training a generative model (e.g., GAN), from which synthetic data are drawn and distributed to the parties as rewards commensurate to their contributions. Distributing synthetic data as rewards (instead of trained models or money) offers task- and model-agnostic benefits for downstream learning tasks and is less likely to violate data privacy regulation. To realize the framework, we firstly propose a data valuation function using maximum mean discrepancy (MMD) that values data based on its quantity and quality in terms of its closeness to the true data distribution and provide theoretical results guiding the kernel choice in our MMD-based data valuation function. Then, we formulate the reward scheme as a linear optimization problem that when solved, guarantees certain incentives such as fairness in the CGM framework. We devise a weighted sampling algorithm for generating synthetic data to be distributed to each party as reward such that the value of its data and the synthetic data combined matches its assigned reward value by the reward scheme. We empirically show using simulated and real-world datasets that the parties' synthetic data rewards are commensurate to their contributions.
翻訳日:2021-12-21 01:55:03 公開日:2021-12-17
# (参考訳) Point2Cyl: ポイントクラウドから押出シリンダへのリバースエンジニアリング3Dオブジェクト [全文訳有]

Point2Cyl: Reverse Engineering 3D Objects from Point Clouds to Extrusion Cylinders ( http://arxiv.org/abs/2112.09329v1 )

ライセンス: CC BY 4.0
Mikaela Angelina Uy, Yen-yu Chang, Minhyuk Sung, Purvi Goel, Joseph Lambourne, Tolga Birdal, Leonidas Guibas(参考訳) 本稿では,生の3次元点雲を一連の押出シリンダに変換する教師ネットワークであるPoint2Cylを提案する。 生の幾何学からCADモデルへのリバースエンジニアリングは、形状編集ソフトウェアにおける3Dデータの操作を可能にし、多くの下流アプリケーションでの利用を拡大するための重要な課題である。 特に、2次元スケッチと押出軸と射程を持つ一連の押出シリンダを持つcadモデルの形であり、それらのブールの組み合わせはcadコミュニティ/ソフトウェアで広く使われているだけでなく、限られた種類のプリミティブ(例えば、平面、球面、シリンダ)を持つものに比べて、形状の表現性も高い。 本研究では,まず幾何学的プロキシを学習することにより,押出シリンダの分解問題を幾何学的に解くニューラルネットワークを提案する。 より正確には,本手法はまず,点ごとのセグメンテーション,ベース/バレルラベルおよび正規化を予測し,その基礎となる押出パラメータを微分可能および閉形式の定式化で推定する。 実験の結果,本手法はFusion GalleryとDeepCADの2つのCADデータセット上で最高の性能を示し,さらにリバースエンジニアリングと編集のアプローチを示す。

We propose Point2Cyl, a supervised network transforming a raw 3D point cloud to a set of extrusion cylinders. Reverse engineering from a raw geometry to a CAD model is an essential task to enable manipulation of the 3D data in shape editing software and thus expand their usages in many downstream applications. Particularly, the form of CAD models having a sequence of extrusion cylinders -- a 2D sketch plus an extrusion axis and range -- and their boolean combinations is not only widely used in the CAD community/software but also has great expressivity of shapes, compared to having limited types of primitives (e.g., planes, spheres, and cylinders). In this work, we introduce a neural network that solves the extrusion cylinder decomposition problem in a geometry-grounded way by first learning underlying geometric proxies. Precisely, our approach first predicts per-point segmentation, base/barrel labels and normals, then estimates for the underlying extrusion parameters in differentiable and closed-form formulations. Our experiments show that our approach demonstrates the best performance on two recent CAD datasets, Fusion Gallery and DeepCAD, and we further showcase our approach on reverse engineering and editing.
翻訳日:2021-12-21 01:53:49 公開日:2021-12-17
# (参考訳) ZeroVL:限られたリソースで視覚言語表現を調整するための強力なベースライン [全文訳有]

ZeroVL: A Strong Baseline for Aligning Vision-Language Representations with Limited Resources ( http://arxiv.org/abs/2112.09331v1 )

ライセンス: CC BY 4.0
Quan Cui, Boyan Zhou, Yu Guo, Weidong Yin, Hao Wu, Osamu Yoshie(参考訳) ピアネリングデュアルエンコーダ事前学習作業(例えばCLIPやALIGN)は、マルチモーダル表現とコントラスト学習を整合させる可能性を明らかにしている。 しかし、これらの研究には膨大な量のデータと計算リソース(数十億のwebデータや数百のgpuなど)が必要であり、限られたリソースを持つ研究者が複製やさらなる探索を妨げている。 この目的のために,単純かつ効果的なヒューリスティックなスタックを探索し,限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。 我々は、公開アクセス可能な学術データセットと8v100 gpuしか持たない、競合結果の再現可能な強力なベースライン、すなわちzerovlを提供する。 さらに,事前学習のための1億の web データを収集し,最先端手法と同等あるいは優れた結果を得るとともに,大規模データに対する提案手法の有効性をさらに証明した。 今後のマルチモーダル事前学習研究に有用なデータポイントと体験を提供することを期待している。 私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。

Pioneering dual-encoder pre-training works (e.g., CLIP and ALIGN) have revealed the potential of aligning multi-modal representations with contrastive learning. However, these works require a tremendous amount of data and computational resources (e.g., billion-level web data and hundreds of GPUs), which prevent researchers with limited resources from reproduction and further exploration. To this end, we explore a stack of simple but effective heuristics, and provide a comprehensive training guidance, which allows us to conduct dual-encoder multi-modal representation alignment with limited resources. We provide a reproducible strong baseline of competitive results, namely ZeroVL, with only 14M publicly accessible academic datasets and 8 V100 GPUs. Additionally, we collect 100M web data for pre-training, and achieve comparable or superior results than state-of-the-art methods, further proving the effectiveness of our method on large-scale data. We hope that this work will provide useful data points and experience for future research in multi-modal pre-training. Our code and pre-trained models will be released to facilitate the research community.
翻訳日:2021-12-21 01:29:20 公開日:2021-12-17
# (参考訳) グラフ畳み込みネットワークのコミュニティベース層別分散トレーニング [全文訳有]

Community-based Layerwise Distributed Training of Graph Convolutional Networks ( http://arxiv.org/abs/2112.09335v1 )

ライセンス: CC BY 4.0
Hongyi Li, Junxiang Wang, Yongchao Wang, Yue Cheng, and Liang Zhao(参考訳) Graph Convolutional Network (GCN)は多くのグラフベースのアプリケーションにうまく適用されている。 しかし、大規模なGCNモデルをトレーニングすることはまだ難しい。GCNアーキテクチャのノード依存性とレイヤ依存性のため、トレーニングプロセスには膨大な計算時間とメモリが必要である。 本稿では,2つの課題を同時に解決するために,乗算器の交互方向法(admm)に基づく並列分散gcn学習アルゴリズムを提案する。 我々はまずGCN層を独立したブロックに分割し、層並列化を実現した。 さらに,グラフを複数の密集したコミュニティに分割することで,ノード依存性を低減し,エージェントを並列にトレーニングすることができる。 最後に,コミュニティベースのadmmアルゴリズムにおいて,すべての部分問題に対するソリューションを提供する。 予備的な結果から,提案したコミュニティベースADMMトレーニングアルゴリズムは3倍以上の高速化を実現し,最先端の手法と比較して最高の性能を達成できることが示された。

The Graph Convolutional Network (GCN) has been successfully applied to many graph-based applications. Training a large-scale GCN model, however, is still challenging: Due to the node dependency and layer dependency of the GCN architecture, a huge amount of computational time and memory is required in the training process. In this paper, we propose a parallel and distributed GCN training algorithm based on the Alternating Direction Method of Multipliers (ADMM) to tackle the two challenges simultaneously. We first split GCN layers into independent blocks to achieve layer parallelism. Furthermore, we reduce node dependency by dividing the graph into several dense communities such that each of them can be trained with an agent in parallel. Finally, we provide solutions for all subproblems in the community-based ADMM algorithm. Preliminary results demonstrate that our proposed community-based ADMM training algorithm can lead to more than triple speedup while achieving the best performance compared with state-of-the-art methods.
翻訳日:2021-12-21 00:37:37 公開日:2021-12-17
# (参考訳) ST2Vec:道路ネットワークにおける時空間軌道類似性学習 [全文訳有]

ST2Vec: Spatio-Temporal Trajectory Similarity Learning in Road Networks ( http://arxiv.org/abs/2112.09339v1 )

ライセンス: CC BY 4.0
Ziquan Fang, Yuntao Du, Xinjun Zhu, Lu Chen, Yunjun Gao, Christian S. Jensen(参考訳) 人や車両の軌跡は交通インフラの重要な情報を具現化しており、軌道類似性計算は軌道データ分析を含む現実の多くのアプリケーションにおいて機能している。 近年、ディープラーニングに基づく軌道類似性技術は、従来の類似性技術よりも効率と適応性を向上させる可能性を秘めている。 それにもかかわらず、既存の軌道類似性学習提案は時間的類似性よりも空間類似性を強調し、時間的類似性分析に最適である。 この目的のために,道路網における時空間類似性学習のための2対の軌跡間の微粒な空間的および時間的相関を考慮した軌道表現型学習アーキテクチャST2Vecを提案する。 我々の知る限りでは、これは時空間軌道類似性分析のための最初のディープラーニング提案である。 具体的には、ST2Vecは3つのフェーズを含む。 (i)代表訓練サンプルを選択する訓練データ作成 (ii)一般時間モデリングモジュール(tmm)が設計されている軌道の空間的及び時間的特性を符号化する空間的及び時間的モデリング (iii) 時空間的コアテンション融合(stcf)は、軌道間の時空間的類似関係を捉える統一時空間的軌道埋め込みを生成するために統一的融合(uf)アプローチが開発されている。 さらに、ST2Vecはカリキュラムの概念にインスパイアされ、モデル最適化のためのカリキュラム学習を採用し、収束性と有効性の両方を改善している。 実験によって、ST2Vecは、パラメータの感度が低く、モデルロバスト性が良い一方で、有効性、効率、スケーラビリティの点で、最先端の競合相手全てをはるかに上回っていることが示されている。

People and vehicle trajectories embody important information of transportation infrastructures, and trajectory similarity computation is functionality in many real-world applications involving trajectory data analysis. Recently, deep-learning based trajectory similarity techniques hold the potential to offer improved efficiency and adaptability over traditional similarity techniques. Nevertheless, the existing trajectory similarity learning proposals emphasize spatial similarity over temporal similarity, making them suboptimal for time-aware analyses. To this end, we propose ST2Vec, a trajectory-represent ation-learning based architecture that considers fine-grained spatial and temporal correlations between pairs of trajectories for spatio-temporal similarity learning in road networks. To the best of our knowledge, this is the first deep-learning proposal for spatio-temporal trajectory similarity analytics. Specifically, ST2Vec encompasses three phases: (i) training data preparation that selects representative training samples; (ii) spatial and temporal modeling that encode spatial and temporal characteristics of trajectories, where a generic temporal modeling module (TMM) is designed; and (iii) spatio-temporal co-attention fusion (STCF), where a unified fusion (UF) approach is developed to help generating unified spatio-temporal trajectory embeddings that capture the spatio-temporal similarity relations between trajectories. Further, inspired by curriculum concept, ST2Vec employs the curriculum learning for model optimization to improve both convergence and effectiveness. An experimental study offers evidence that ST2Vec outperforms all state-of-the-art competitors substantially in terms of effectiveness, efficiency, and scalability, while showing low parameter sensitivity and good model robustness.
翻訳日:2021-12-21 00:27:51 公開日:2021-12-17
# (参考訳) 部分不変性による公平性とロバスト性のバランス [全文訳有]

Balancing Fairness and Robustness via Partial Invariance ( http://arxiv.org/abs/2112.09346v1 )

ライセンス: CC BY 4.0
Moulik Choraria, Ibtihal Ferwana, Ankur Mani, Lav R. Varshney(参考訳) Invariant Risk Minimization (IRM)フレームワークは、アウト・オブ・ディストリビューション(OOD)一般化問題を解決するための環境セットから不変機能を学ぶことを目的としている。 基本的な前提は、データ生成分布の因果成分が環境全体にわたって一定か、あるいは交互に、有意義な不変な特徴を見つけるために環境全体でデータを"オーバーラップ"するというものである。 したがって、「オーバーラップ」仮定が成り立たない場合、真に不変な特徴の集合は最適な予測性能には不十分である。 このようなケースは、ネットワーク化された設定や階層的なデータ生成モデルで自然に発生し、ITM性能が最適以下になる。 この障害を緩和するために、部分的不変性フレームワークを議論する。 鍵となる考え方は、階層的な違いに基づいて環境を分割し、パーティション内での分散を局所的に強制することで、IRMフレームワークに柔軟性を導入することである。 我々はこのフレームワークを環境間の因果分布シフトを伴う分類設定で動機付けている。 本研究は,公平性とリスクのトレードオフを緩和するための部分的不変リスク最小化の能力を示す。

The Invariant Risk Minimization (IRM) framework aims to learn invariant features from a set of environments for solving the out-of-distribution (OOD) generalization problem. The underlying assumption is that the causal components of the data generating distributions remain constant across the environments or alternately, the data "overlaps" across environments to find meaningful invariant features. Consequently, when the "overlap" assumption does not hold, the set of truly invariant features may not be sufficient for optimal prediction performance. Such cases arise naturally in networked settings and hierarchical data-generating models, wherein the IRM performance becomes suboptimal. To mitigate this failure case, we argue for a partial invariance framework. The key idea is to introduce flexibility into the IRM framework by partitioning the environments based on hierarchical differences, while enforcing invariance locally within the partitions. We motivate this framework in classification settings with causal distribution shifts across environments. Our results show the capability of the partial invariant risk minimization to alleviate the trade-off between fairness and risk in certain settings.
翻訳日:2021-12-20 23:59:46 公開日:2021-12-17
# (参考訳) 探索:概念階層の教師なし学習システム

Expedition: A System for the Unsupervised Learning of a Hierarchy of Concepts ( http://arxiv.org/abs/2112.09348v1 )

ライセンス: CC BY 4.0
Omid Madani(参考訳) 本稿では,意味のある文字列に対応する無数の概念とその部分関連および予測エッジのボトムアップ累積学習システムを提案する。 学習は、発見される概念が予測対象だけでなく予測対象として使用されるという点で自己監督される。 本研究では,より広い範囲のテキストを予測可能な,より大規模な概念の作成と利用を促進するベースライン予測システムと比較した学習概念のセグメンテーションを考案し,セグメンテーションプロセスにおいて新たに生成された概念を試すという,探索を促進するための簡単なテクニックについて述べる。 概念の階層化を動機付け、説明し、(条件付き)分散が概念間で学習されるように支援します。 概念の階層化は、概して部分的な概念階層に対応する。 With rudimentary segmentation and learning algorithms, the system is promising in that it acquires many concepts (tens of thousands in our small-scale experiments), and it learns to segment text well: when fed with English text with spaces removed, starting at the character level, much of what is learned respects word or phrase boundaries, and over time the average number of "bad" splits within segmentations, i.e. splits inside words, decreases as larger concepts are discovered and the system learns when to use them during segmentation. 入力テキストがバイナリに変換され、システムが"0"と"1"の2つの概念で始まる場合の有望な実験について報告する。 システムは透明であり、学習した概念が何に対応するのか、どの概念がセグメンテーションでアクティブであるか、あるいはシステムがどのように入力を「見る」かを知ることは容易である。 我々はこのフレームワークが拡張可能であることを期待し、学習能力と推論能力を高めるための現在の制限と様々な方向性について議論する。

We present a system for bottom-up cumulative learning of myriad concepts corresponding to meaningful character strings, and their part-related and prediction edges. The learning is self-supervised in that the concepts discovered are used as predictors as well as targets of prediction. We devise an objective for segmenting with the learned concepts, derived from comparing to a baseline prediction system, that promotes making and using larger concepts, which in turn allows for predicting larger spans of text, and we describe a simple technique to promote exploration, i.e. trying out newly generated concepts in the segmentation process. We motivate and explain a layering of the concepts, to help separate the (conditional) distributions learnt among concepts. The layering of the concepts roughly corresponds to a part-whole concept hierarchy. With rudimentary segmentation and learning algorithms, the system is promising in that it acquires many concepts (tens of thousands in our small-scale experiments), and it learns to segment text well: when fed with English text with spaces removed, starting at the character level, much of what is learned respects word or phrase boundaries, and over time the average number of "bad" splits within segmentations, i.e. splits inside words, decreases as larger concepts are discovered and the system learns when to use them during segmentation. We report on promising experiments when the input text is converted to binary and the system begins with only two concepts, "0" and "1". The system is transparent, in the sense that it is easy to tell what the concepts learned correspond to, and which ones are active in a segmentation, or how the system "sees" its input. We expect this framework to be extensible and we discuss the current limitations and a number of directions for enhancing the learning and inference capabilities.
翻訳日:2021-12-20 23:48:35 公開日:2021-12-17
# (参考訳) 劣化から加速へ:フェデレーション最適化におけるステップ非同期性回復のためのキャリブレーションアプローチ [全文訳有]

From Deterioration to Acceleration: A Calibration Approach to Rehabilitating Step Asynchronism in Federated Optimization ( http://arxiv.org/abs/2112.09355v1 )

ライセンス: CC BY 4.0
Feijie Wu, Song Guo, Haozhao Wang, Zhihao Qu, Haobo Zhang, Jie Zhang, Ziming Liu(参考訳) グローバルモデルが定期的に集約されるフェデレーション最適化の設定では、参加者が計算資源を十分に活用してモデルトレーニングを行うと、ステップ非同期が発生する。 ステップ非同期性は非i.i.d.データの下で客観的な矛盾を招き、モデルの精度を低下させる。 この問題に対処するために,我々は,局所方向を予測的大域的方向へ対応づける新しいアルゴリズム \texttt{fedagrac} を提案する。 推定向きの利点を生かして、より高速なノードのローカル更新を十分に活用しながら、集約モデルが期待方向から過度に逸脱しないことを保証する。 理論的には、 \texttt{fedagrac} は最先端のアプローチよりも収束速度が向上し、ステップ非同期の負の効果が排除される。 実験の結果,本アルゴリズムはトレーニングを高速化し,最終的な精度を向上させる。

In the setting of federated optimization, where a global model is aggregated periodically, step asynchronism occurs when participants conduct model training with fully utilizing their computational resources. It is well acknowledged that step asynchronism leads to objective inconsistency under non-i.i.d. data, which degrades the model accuracy. To address this issue, we propose a new algorithm \texttt{FedaGrac}, which calibrates the local direction to a predictive global orientation. Taking the advantage of estimated orientation, we guarantee that the aggregated model does not excessively deviate from the expected orientation while fully utilizing the local updates of faster nodes. We theoretically prove that \texttt{FedaGrac} holds an improved order of convergence rate than the state-of-the-art approaches and eliminates the negative effect of step asynchronism. Empirical results show that our algorithm accelerates the training and enhances the final accuracy.
翻訳日:2021-12-20 23:47:21 公開日:2021-12-17
# (参考訳) 自己注意に基づく骨格に基づく行動認識のためのアンカーの提案 [全文訳有]

Self-attention based anchor proposal for skeleton-based action recognition ( http://arxiv.org/abs/2112.09413v1 )

ライセンス: CC BY 4.0
Ruijie Hou, Zhao Wang(参考訳) スケルトンシーケンスは、軽量でコンパクトな特性のため、アクション認識タスクに広く使われている。 近年のグラフ畳み込みネットワーク(GCN)アプローチは,非ユークリッドデータのモデリング能力に感謝して,骨格に基づく行動認識において大きな成功を収めている。 GCNは、様々な行動の区別に不可欠である遠方の関節関係を直接モデル化することなく、短距離関節依存関係を利用することができる。 したがって、多くのGCNアプローチは、より広い範囲の近隣情報を集約するために階層的なメカニズムを採用する。 動作特徴学習のための人体の内部関係を包括的にモデル化する,自己注意型骨格アンカー提案(SAP)モジュールを提案する。 提案するSAPモジュールは,既存の階層型GCNアプローチで用いられる固定対骨接続よりも,高次角情報を符号化することで,人体内固有の関係を探索することを目的としている。 角情報を符号化するルートポイントを抽出するSAPモジュールにおいて,自己アテンションに基づくアンカー選択法を設計する。 一般的な時空間グラフニューラルネットワーク(MSG3Dなど)とSAPモジュールを結合することにより、挑戦的なベンチマークデータセットに対して新たな最先端の精度を実現する。 さらなるアブレーション研究により提案するSAPモジュールの有効性が明らかとなり,多くの一般的な骨格に基づく行動認識法の性能向上が図られた。

Skeleton sequences are widely used for action recognition task due to its lightweight and compact characteristics. Recent graph convolutional network (GCN) approaches have achieved great success for skeleton-based action recognition since its grateful modeling ability of non-Euclidean data. GCN is able to utilize the short-range joint dependencies while lack to directly model the distant joints relations that are vital to distinguishing various actions. Thus, many GCN approaches try to employ hierarchical mechanism to aggregate wider-range neighborhood information. We propose a novel self-attention based skeleton-anchor proposal (SAP) module to comprehensively model the internal relations of a human body for motion feature learning. The proposed SAP module aims to explore inherent relationship within human body using a triplet representation via encoding high order angle information rather than the fixed pair-wise bone connection used in the existing hierarchical GCN approaches. A Self-attention based anchor selection method is designed in the proposed SAP module for extracting the root point of encoding angular information. By coupling proposed SAP module with popular spatial-temporal graph neural networks, e.g. MSG3D, it achieves new state-of-the-art accuracy on challenging benchmark datasets. Further ablation study have shown the effectiveness of our proposed SAP module, which is able to obviously improve the performance of many popular skeleton-based action recognition methods.
翻訳日:2021-12-20 22:39:04 公開日:2021-12-17
# (参考訳) 異所性表現 : 股関節からの性決定の解釈に向けて [全文訳有]

Disentangled representations: towards interpretation of sex determination from hip bone ( http://arxiv.org/abs/2112.09414v1 )

ライセンス: CC BY 4.0
Kaifeng Zou, Sylvain Faisan, Fabrice Heitz, Marie Epain, Pierre Croisille, Laurent Fanton, S\'ebastien Valette(参考訳) 決定に最も寄与する入力画像の領域を強調することで、サリエンシマップはニューラルネットワークを解釈可能にするための一般的な方法となっている。 医用イメージングでは、異常局在の文脈でニューラルネットワークを説明するのに特に適しています。 しかし,本実験では,異なるクラスを区別できる特徴が空間的に相関し,散在し,非自明であるような分類問題にはあまり適していない。 本稿では,解釈性を向上させるための新しいパラダイムを提案する。 この目的のために、ユーザに対して、ユーザが自身の意見を形成できるように、適切かつ容易に解釈可能な情報を提供する。 潜在表現を2つの成分(非可読部分と不連続部分)に分割した不等角変分オートエンコーダを用いる。 後者は、異なる関心のクラスを明示的に表す分類変数を記述している。 与えられた入力サンプルのクラスを提供するのに加えて、そのようなモデルは、潜在表現におけるカテゴリ変数の値を変更することによって、サンプルを与えられたクラスから別のクラスのサンプルに変換することができる。 これによりクラスの違いの解釈が容易になる。 法医学における股関節からの自動性決定の文脈におけるこのアプローチの意義について述べる。 異なるクラスを区別するモデルによって符号化された特徴は、専門家の知識と一致していることがわかった。

By highlighting the regions of the input image that contribute the most to the decision, saliency maps have become a popular method to make neural networks interpretable. In medical imaging, they are particularly well-suited to explain neural networks in the context of abnormality localization. However, from our experiments, they are less suited to classification problems where the features that allow to distinguish between the different classes are spatially correlated, scattered and definitely non-trivial. In this paper we thus propose a new paradigm for better interpretability. To this end we provide the user with relevant and easily interpretable information so that he can form his own opinion. We use Disentangled Variational Auto-Encoders which latent representation is divided into two components: the non-interpretable part and the disentangled part. The latter accounts for the categorical variables explicitly representing the different classes of interest. In addition to providing the class of a given input sample, such a model offers the possibility to transform the sample from a given class to a sample of another class, by modifying the value of the categorical variables in the latent representation. This paves the way to easier interpretation of class differences. We illustrate the relevance of this approach in the context of automatic sex determination from hip bones in forensic medicine. The features encoded by the model, that distinguish the different classes were found to be consistent with expert knowledge.
翻訳日:2021-12-20 22:28:11 公開日:2021-12-17
# (参考訳) 深層学習へのランダムエネルギーアプローチ [全文訳有]

A random energy approach to deep learning ( http://arxiv.org/abs/2112.09420v1 )

ライセンス: CC0 1.0
Rongrong Xie and Matteo Marsili(参考訳) 本研究では,各層の隠れた状態のエネルギー準位分布によってパラメータ化される深層信念ネットワークの一般アンサンブルについて検討する。 ランダムなエネルギーアプローチでは、学習中に各層が臨界点に近づくように調整された場合にのみ、統計的依存が可視層から深層へと伝播できることが示される。 その結果、効率よく訓練された学習機械は、幅広いエネルギーレベルの分布によって特徴づけられる。 異なるデータセット上でのDeep Belief NetworksとRestricted Boltzmann Machinesの分析は、これらの結論を裏付けるものである。

We study a generic ensemble of deep belief networks which is parametrized by the distribution of energy levels of the hidden states of each layer. We show that, within a random energy approach, statistical dependence can propagate from the visible to deep layers only if each layer is tuned close to the critical point during learning. As a consequence, efficiently trained learning machines are characterised by a broad distribution of energy levels. The analysis of Deep Belief Networks and Restricted Boltzmann Machines on different datasets confirms these conclusions.
翻訳日:2021-12-20 22:08:31 公開日:2021-12-17
# (参考訳) エンドツーエンド音声認識のための連続学習 [全文訳有]

Continual Learning for Monolingual End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2112.09427v1 )

ライセンス: CC BY 4.0
Steven Vander Eeckt and Hugo Van hamme(参考訳) 自動音声認識(asr)モデルを新しいドメインに適応させることで、元のドメインのパフォーマンスが低下する。 単言語 ASR モデルでさえ、CF に苦しむことなく新しいアクセント、方言、トピックなどに拡張することはできないため、過去のデータをすべて保存することなく継続的に拡張することはできない。 幸いなことに、CFを克服しながら継続的適応を可能にする連続学習(CL)手法が利用可能である。 本稿では,End-to-End ASRのためのCL手法を多数実装し,モノリンガルなCTC-Transformerモデルを4つの新しいタスクに拡張する能力を比較する。 最善のcl法では,すべてのタスクで協調的にトレーニングされたモデル(下限)と微調整されたモデル(下限)のギャップを40%以上狭くし,元のデータの0.6%しかアクセスできないことがわかった。

Adapting Automatic Speech Recognition (ASR) models to new domains leads to a deterioration of performance on the original domain(s), a phenomenon called Catastrophic Forgetting (CF). Even monolingual ASR models cannot be extended to new accents, dialects, topics, etc. without suffering from CF, making them unable to be continually enhanced without storing all past data. Fortunately, Continual Learning (CL) methods, which aim to enable continual adaptation while overcoming CF, can be used. In this paper, we implement an extensive number of CL methods for End-to-End ASR and test and compare their ability to extend a monolingual Hybrid CTC-Transformer model across four new tasks. We find that the best performing CL method closes the gap between the fine-tuned model (lower bound) and the model trained jointly on all tasks (upper bound) by more than 40%, while requiring access to only 0.6% of the original data.
翻訳日:2021-12-20 21:52:58 公開日:2021-12-17
# (参考訳) プライバシ保護nパーティスカラー製品プロトコル [全文訳有]

Privacy preserving n-party scalar product protocol ( http://arxiv.org/abs/2112.09436v1 )

ライセンス: CC BY 4.0
Florian van Daalen (1) and Inigo Bermejo (1) and Lianne Ippel (2) and Andre Dekkers (2) ((1) GROW School for Oncology and Developmental Biology Maastricht University Medical Centre+ Maastricht the Netherlands, (2) Statistics Netherlands Heerlen the Netherlands)(参考訳) プライバシ保存機械学習は、水平データと垂直分割データの両方で、データを明かすことなく、分散データセット上のモデルのトレーニングを可能にする。 しかし、必要な計算を行うには特殊な技術やアルゴリズムに依存する。 プライバシ保護スカラー製品プロトコルは、ベクターのドット生成を明かさずに実現し、その汎用性の一般的な例である。 残念ながら、文献で現在提案されているソリューションは、データパーティの数が多いシナリオがより関連性を高めつつも、主に2つのシナリオに焦点を当てている。 例えば、決定木のノードにおける情報ゲインを計算するなど、さまざまなサイトにわたって定義された基準を満たしたサンプル数をカウントする分析を行う場合である。 本稿では,既存の2党方式に基づく任意の人数の当事者に対するプロトコルの一般化を提案する。 提案するソリューションは,スカラー製品の再帰的解決に依存している。 提案手法を説明した後、潜在的なスケーラビリティの問題について議論する。 最後に,プライバシの保証について述べ,懸念事項を特定するとともに,提案手法を本手法のソリューションと比較する。

Privacy-preserving machine learning enables the training of models on decentralized datasets without the need to reveal the data, both on horizontal and vertically partitioned data. However, it relies on specialized techniques and algorithms to perform the necessary computations. The privacy preserving scalar product protocol, which enables the dot product of vectors without revealing them, is one popular example for its versatility. Unfortunately, the solutions currently proposed in the literature focus mainly on two-party scenarios, even though scenarios with a higher number of data parties are becoming more relevant. For example when performing analyses that require counting the number of samples which fulfill certain criteria defined across various sites, such as calculating the information gain at a node in a decision tree. In this paper we propose a generalization of the protocol for an arbitrary number of parties, based on an existing two-party method. Our proposed solution relies on a recursive resolution of smaller scalar products. After describing our proposed method, we discuss potential scalability issues. Finally, we describe the privacy guarantees and identify any concerns, as well as comparing the proposed method to the original solution in this aspect.
翻訳日:2021-12-20 21:39:23 公開日:2021-12-17
# (参考訳) 最適輸送蒸留による言語教師付きゼロショット認識 [全文訳有]

Data Efficient Language-supervised Zero-shot Recognition with Optimal Transport Distillation ( http://arxiv.org/abs/2112.09445v1 )

ライセンス: CC BY 4.0
Bichen Wu, Ruizhe Cheng, Peizhao Zhang, Peter Vajda, Joseph E. Gonzalez(参考訳) 従来のコンピュータビジョンモデルは、予め定義されたカテゴリの固定セットを予測するように訓練される。 近年、自然言語は、監督された「ゴールド」ラベルよりも視覚的概念に詳細な記述を提供する、より広範にリッチな監督源であることが示されている。 CLIPのような以前の作業では、InfoNCE損失を使用して、イメージとテキストキャプションのペアリングを予測するモデルをトレーニングしている。 しかしclipはデータに飢えており、トレーニングには画像とテキストのペアが400万以上必要だ。 非効率性は、画像とテキストのペアがノイズであるという事実によって部分的に説明できる。 そこで本研究では,オンラインエントロピー最適化トランスポートを用いたotter(optimal transport distillation for efficient zero-shot recognition)を提案する。 事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。 InfoNCEの損失、ラベルのスムーズ化、知識の蒸留と比較すると、OTTERは、Tencent ML-ImagesのGoogle Open Images (19,958クラス)とマルチラベルのImageNet 10K (10032クラス)のゼロショット評価において、これらのベースラインを一貫して上回っている。 7つの異なるデータセット/アーキテクチャ設定 x 6 メトリクス、OTTER のパフォーマンス (32) または ties (2) に関する42以上の評価。

Traditional computer vision models are trained to predict a fixed set of predefined categories. Recently, natural language has been shown to be a broader and richer source of supervision that provides finer descriptions to visual concepts than supervised "gold" labels. Previous works, such as CLIP, use InfoNCE loss to train a model to predict the pairing between images and text captions. CLIP, however, is data hungry and requires more than 400M image-text pairs for training. The inefficiency can be partially attributed to the fact that the image-text pairs are noisy. To address this, we propose OTTER (Optimal TransporT distillation for Efficient zero-shot Recognition), which uses online entropic optimal transport to find a soft image-text match as labels for contrastive learning. Based on pretrained image and text encoders, models trained with OTTER achieve strong performance with only 3M image text pairs. Compared with InfoNCE loss, label smoothing, and knowledge distillation, OTTER consistently outperforms these baselines in zero shot evaluation on Google Open Images (19,958 classes) and multi-labeled ImageNet 10K (10032 classes) from Tencent ML-Images. Over 42 evaluations on 7 different dataset/architecture settings x 6 metrics, OTTER outperforms (32) or ties (2) all baselines in 34 of them.
翻訳日:2021-12-20 21:22:39 公開日:2021-12-17
# (参考訳) 連続高次元PMDPのための視覚学習型計画法 [全文訳有]

Visual Learning-based Planning for Continuous High-Dimensional POMDPs ( http://arxiv.org/abs/2112.09456v1 )

ライセンス: CC BY 4.0
Sampada Deglurkar, Michael H. Lim, Johnathan Tucker, Zachary N. Sunberg, Aleksandra Faust, Claire J. Tomlin(参考訳) 部分観測可能なマルコフ決定プロセス(POMDP)は、状態と遷移の不確実性を含む意思決定問題を解決するための強力なフレームワークである。 しかし、現在のほとんどのPOMDPプランナーは、現実世界でしばしば遭遇する非常に高次元の観測(例えば、ロボット領域における画像観察)を効果的に扱えない。 本研究では,オフラインで学習した生成モデルとオンラインモデルに基づくPOMDP計画を組み合わせた学習計画手法であるVisual Tree Search (VTS)を提案する。 vtsは、モンテカルロ木探索プランナーにおける画像観測の可能性を予測するために、一連の深部生成的観測モデルを用いてオフラインモデルトレーニングとオンライン計画とを橋渡しする。 VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。 この新しいアプローチは、オフラインのトレーニング時間を大幅に削減しながら、最先端のオン・ポリシー計画アルゴリズムを上回っている。

The Partially Observable Markov Decision Process (POMDP) is a powerful framework for capturing decision-making problems that involve state and transition uncertainty. However, most current POMDP planners cannot effectively handle very high-dimensional observations they often encounter in the real world (e.g. image observations in robotic domains). In this work, we propose Visual Tree Search (VTS), a learning and planning procedure that combines generative models learned offline with online model-based POMDP planning. VTS bridges offline model training and online planning by utilizing a set of deep generative observation models to predict and evaluate the likelihood of image observations in a Monte Carlo tree search planner. We show that VTS is robust to different observation noises and, since it utilizes online, model-based planning, can adapt to different reward structures without the need to re-train. This new approach outperforms a baseline state-of-the-art on-policy planning algorithm while using significantly less offline training time.
翻訳日:2021-12-20 20:57:53 公開日:2021-12-17
# (参考訳) 強化学習エージェントの選好比較のための対比的説明 [全文訳有]

Contrastive Explanations for Comparing Preferences of Reinforcement Learning Agents ( http://arxiv.org/abs/2112.09462v1 )

ライセンス: CC BY 4.0
Jasmina Gajcin, Rahul Nair, Tejaswini Pedapati, Radu Marinescu, Elizabeth Daly, Ivana Dusparic(参考訳) 報酬関数が単純で目的の集合からなる複雑なタスクでは、個別の目的が報酬関数に与える影響を調整することにより、タスクを適切に実行するが、異なる戦略を用いる複数の強化学習(rl)ポリシーを訓練することができる。 ポリシー間の戦略の違いを理解することは、提供されたポリシーの選択を可能にするために必要であり、開発者は様々な報酬関数から生じるさまざまな振る舞いを理解し、RLシステムのハイパーパラメータをトレーニングするのに役立つ。 この作業では、同じタスクでトレーニングされた2つのポリシーの振る舞いと、目的の異なる好みを比較します。 本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。 さらに,エージェントの嗜好に関する対照的な説明を生成するために,嗜好に基づく差異のデータのみを使用する。 最後に、自動運転タスクに対するアプローチをテストし、評価し、安全志向のポリシーとスピードを好むポリシーの振る舞いを比較します。

In complex tasks where the reward function is not straightforward and consists of a set of objectives, multiple reinforcement learning (RL) policies that perform task adequately, but employ different strategies can be trained by adjusting the impact of individual objectives on reward function. Understanding the differences in strategies between policies is necessary to enable users to choose between offered policies, and can help developers understand different behaviors that emerge from various reward functions and training hyperparameters in RL systems. In this work we compare behavior of two policies trained on the same task, but with different preferences in objectives. We propose a method for distinguishing between differences in behavior that stem from different abilities from those that are a consequence of opposing preferences of two RL agents. Furthermore, we use only data on preference-based differences in order to generate contrasting explanations about agents' preferences. Finally, we test and evaluate our approach on an autonomous driving task and compare the behavior of a safety-oriented policy and one that prefers speed.
翻訳日:2021-12-20 20:41:36 公開日:2021-12-17
# (参考訳) 公正感のある保険のためのアクティブラーニング手法の概要 [全文訳有]

An overview of active learning methods for insurance with fairness appreciation ( http://arxiv.org/abs/2112.09466v1 )

ライセンス: CC BY 4.0
Romuald Elie, Caroline Hillairet, Fran\c{c}ois Hu, Marc Juillard(参考訳) 本稿では、モデル展開の民主化に伴う保険における機械学習導入の課題に対処し、解決する。 最初の課題は、アクティブな学習、モデル推論とオラクルの間のフィードバックループによってラベル付けの労力(データ品質にフォーカスする)を減らすことだ。 そこで本稿では,合成データと実データの両方に対する経験的影響を調べる前に,様々な古典的アクティブラーニング手法をスケッチする。 保険におけるもう一つの重要な課題は、モデル推論における公平性の問題である。 この2つの問題を解決するために、このアクティブラーニングフレームワークにマルチクラスタスクに対する後処理フェアネスを導入し、統合する。 最後に、不公平なデータセットに関する数値実験により、提案した設定がモデル精度と公平性の間に良い妥協をもたらすことを示した。

This paper addresses and solves some challenges in the adoption of machine learning in insurance with the democratization of model deployment. The first challenge is reducing the labelling effort (hence focusing on the data quality) with the help of active learning, a feedback loop between the model inference and an oracle: as in insurance the unlabeled data is usually abundant, active learning can become a significant asset in reducing the labelling cost. For that purpose, this paper sketches out various classical active learning methodologies before studying their empirical impact on both synthetic and real datasets. Another key challenge in insurance is the fairness issue in model inferences. We will introduce and integrate a post-processing fairness for multi-class tasks in this active learning framework to solve these two issues. Finally numerical experiments on unfair datasets highlight that the proposed setup presents a good compromise between model precision and fairness.
翻訳日:2021-12-20 20:28:11 公開日:2021-12-17
# (参考訳) 双極性障害における自動マニア評価のためのマルチモーダルアプローチ

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder ( http://arxiv.org/abs/2112.09467v1 )

ライセンス: CC BY 4.0
P{\i}nar Baki(参考訳) 双極性障害(Bipolar disorder)は、うつ病からマニアまでの気分変化を引き起こす精神疾患である。 双極性障害の診断は通常、患者の面接と患者の介護者からの報告に基づいて行われる。 その後、診断は専門家の経験に依存し、他の精神疾患との混乱を生じさせる可能性がある。 双極性障害の診断における自動化プロセスは、定量的な指標を提供し、長期にわたって患者の観察を容易にする。 さらに、新型コロナウイルスのパンデミックでは、遠隔治療や診断の必要性が特に重要になった。 本論文では,患者の音響的,言語的,視覚的モダリティの記録に基づくマルチモーダル意思決定システムを構築する。 このシステムは双極性障害コーパスで訓練されている。 ユニモーダル系およびマルチモーダル系の包括的解析と様々な融合技術が実行されている。 ユニモーダルな特徴を用いた患者セッション全体の処理に加えて,クリップのタスクレベルの調査を行った。 マルチモーダル融合システムでは,音響的,言語的,視覚的特徴を用いて64.8%の平均リコールスコアを達成し,このデータセットで達成した最先端のパフォーマンスを改善した。

Bipolar disorder is a mental health disorder that causes mood swings that range from depression to mania. Diagnosis of bipolar disorder is usually done based on patient interviews, and reports obtained from the caregivers of the patients. Subsequently, the diagnosis depends on the experience of the expert, and it is possible to have confusions of the disorder with other mental disorders. Automated processes in the diagnosis of bipolar disorder can help providing quantitative indicators, and allow easier observations of the patients for longer periods. Furthermore, the need for remote treatment and diagnosis became especially important during the COVID-19 pandemic. In this thesis, we create a multimodal decision system based on recordings of the patient in acoustic, linguistic, and visual modalities. The system is trained on the Bipolar Disorder corpus. Comprehensive analysis of unimodal and multimodal systems, as well as various fusion techniques are performed. Besides processing entire patient sessions using unimodal features, a task-level investigation of the clips is studied. Using acoustic, linguistic, and visual features in a multimodal fusion system, we achieved a 64.8% unweighted average recall score, which improves the state-of-the-art performance achieved on this dataset.
翻訳日:2021-12-20 20:01:57 公開日:2021-12-17
# (参考訳) 臨床・薬学領域への細胞病理のためのAIアルゴリズムのローンチに向けて [全文訳有]

Towards Launching AI Algorithms for Cellular Pathology into Clinical & Pharmaceutical Orbits ( http://arxiv.org/abs/2112.09496v1 )

ライセンス: CC BY 4.0
Amina Asif, Kashif Rajpoot, David Snead, Fayyaz Minhas and Nasir Rajpoot(参考訳) 計算病理学(英: computational pathology、cpath)は、組織スライドのデジタル化高分解能画像の処理と解析のための計算アルゴリズムによる組織病理の研究に関わる新興分野である。 CPathにおける近年のディープラーニングベースの開発は、診断、予後、治療感度、患者層化の領域におけるターゲットパラメータを予測するために、ヒストロジー画像における生のピクセルデータの重大量をうまく活用している。 燃料としてのデータとAIをエンジンとして使用するCPathアルゴリズムは、離陸の準備が整い、最終的に臨床および医薬品の軌道に打ち上げられる。 本稿では,CPathの制限と関連する課題について議論し,読者が希望を誇大広告と区別できるようにし,今後の研究の方向性を提供し,この2つの軌道への打ち上げに直面する課題を克服する。

Computational Pathology (CPath) is an emerging field concerned with the study of tissue pathology via computational algorithms for the processing and analysis of digitized high-resolution images of tissue slides. Recent deep learning based developments in CPath have successfully leveraged sheer volume of raw pixel data in histology images for predicting target parameters in the domains of diagnostics, prognostics, treatment sensitivity and patient stratification -- heralding the promise of a new data-driven AI era for both histopathology and oncology. With data serving as the fuel and AI as the engine, CPath algorithms are poised to be ready for takeoff and eventual launch into clinical and pharmaceutical orbits. In this paper, we discuss CPath limitations and associated challenges to enable the readers distinguish hope from hype and provide directions for future research to overcome some of the major challenges faced by this budding field to enable its launch into the two orbits.
翻訳日:2021-12-20 20:00:45 公開日:2021-12-17
# (参考訳) インド語からのコニャーテと偽フレンドペアの挑戦データセット [全文訳有]

Challenge Dataset of Cognates and False Friend Pairs from Indian Languages ( http://arxiv.org/abs/2112.09526v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Pushpak Bhattacharyya, Malhar Kulkarni, Gholamreza Haffari(参考訳) コニャートは異なる言語にまたがって同じテキストの複数の変種に存在する(例えばドイツ語の"hund"や英語の"hound"は"dog"を意味する)。 彼らは機械翻訳、言語間センスの曖昧さ、計算系統学、情報検索といった様々な自然言語処理(NLP)アプリケーションに挑戦している。 この課題に対処するための可能な解決策は、言語ペア間の認識を識別することだ。 本論文では,インド12言語(サンスクリット,ヒンディー,アサメセ,オリヤ,カンナダ,グジャラティ,タミル,テルグ,パンジャビ,ベンガル,マラティアラム)のコグネートデータセットの作成について述べる。 本稿では,インド語コグネート辞書からコグネートデータをデジタル化し,リンクされたインド語ワードネットを用いてコグネート集合を生成する。 さらに、Wordnetデータを使用して、11の言語ペアのためのFalse Friendsのデータセットを作成します。 また,既存のベースラインコグネイト検出手法を用いてデータセットの有効性を評価した。 また,レキシコグラフィーの助けを借りて手作業による評価を行い,本論文で得られた金標準データセットを公表する。

Cognates are present in multiple variants of the same text across different languages (e.g., "hund" in German and "hound" in English language mean "dog"). They pose a challenge to various Natural Language Processing (NLP) applications such as Machine Translation, Cross-lingual Sense Disambiguation, Computational Phylogenetics, and Information Retrieval. A possible solution to address this challenge is to identify cognates across language pairs. In this paper, we describe the creation of two cognate datasets for twelve Indian languages, namely Sanskrit, Hindi, Assamese, Oriya, Kannada, Gujarati, Tamil, Telugu, Punjabi, Bengali, Marathi, and Malayalam. We digitize the cognate data from an Indian language cognate dictionary and utilize linked Indian language Wordnets to generate cognate sets. Additionally, we use the Wordnet data to create a False Friends' dataset for eleven language pairs. We also evaluate the efficacy of our dataset using previously available baseline cognate detection approaches. We also perform a manual evaluation with the help of lexicographers and release the curated gold-standard dataset with this paper.
翻訳日:2021-12-20 19:36:01 公開日:2021-12-17
# (参考訳) コンパクト符号を用いた最近近傍探索:デコーダの視点 [全文訳有]

Nearest neighbor search with compact codes: A decoder perspective ( http://arxiv.org/abs/2112.09568v1 )

ライセンス: CC BY 4.0
Kenza Amara, Matthijs Douze, Alexandre Sablayrolles, Herv\'e J\'egou(参考訳) 数十億規模のデータセット上の類似ベクトルの高速検索のための現代のアプローチは、バイナリスケッチや製品量子化のような圧縮ドメインアプローチに依存している。 これらの手法は、平均二乗誤差や検索問題に適した目的関数など、特定の損失を最小限に抑える。 本稿では,バイナリハッシュや製品量子化器などの一般的なメソッドを自動エンコーダとして再解釈し,デコーダの形式で暗黙的に最適でない仮定をすることを示す。 下位互換性のあるデコーダの設計により,同一符号からのベクトルの再構成が向上し,近接探索の性能が向上する。 本手法は,人気のあるベンチマークにおいて,バイナリハッシュ法や製品量子化よりも大幅に改善する。

Modern approaches for fast retrieval of similar vectors on billion-scaled datasets rely on compressed-domain approaches such as binary sketches or product quantization. These methods minimize a certain loss, typically the mean squared error or other objective functions tailored to the retrieval problem. In this paper, we re-interpret popular methods such as binary hashing or product quantizers as auto-encoders, and point out that they implicitly make suboptimal assumptions on the form of the decoder. We design backward-compatible decoders that improve the reconstruction of the vectors from the same codes, which translates to a better performance in nearest neighbor search. Our method significantly improves over binary hashing methods or product quantization on popular benchmarks.
翻訳日:2021-12-20 19:23:33 公開日:2021-12-17
# (参考訳) 抽出要約のためのトピックアウェア符号化 [全文訳有]

Topic-Aware Encoding for Extractive Summarization ( http://arxiv.org/abs/2112.09572v1 )

ライセンス: CC BY 4.0
Mingyang Song, Liping Jing(参考訳) 文書要約は、テキスト文書の収集を素早く理解するための道具であり、現実的な応用がいくつかある。 オンラインテキストデータの増加に伴い、近年多くの要約モデルが提案されている。 seq2seq(sequence-to- sequence)ベースのニューラルネットワークの要約モデルは、その高い性能のため、要約の分野で最も広く使われている。 これは、エンコーディング時にテキスト中の意味情報や構造情報が適切に考慮されているためである。 しかし, 既存の抽出要約モデルでは, 中心トピック情報にはほとんど注意を払わず, 要約生成を支援するため, 一次トピックの下で生成した要約を確実にしないモデルに繋がる。 長いドキュメントはいくつかのトピックにまたがることができ、単一の要約はすべてのトピックに対して公平にできない。 したがって、高品質な要約を生成する鍵は、中央のトピックを決定し、それに基づいて要約を構築することである。 この問題に対処するために,文書要約のためのトピック認識符号化を提案する。 このモデルは、構文レベルとトピックレベル情報を効果的に組み合わせ、包括的な文表現を構築する。 具体的には、ニューラルネットワークに基づく文レベルの表現学習にニューラルトピックモデルを追加し、原文書のクリティカルコンテンツをキャプチャする中心トピック情報を適切に検討する。 3つの公開データセットの実験結果は、我々のモデルが最先端のモデルより優れていることを示している。

Document summarization provides an instrument for faster understanding the collection of text documents and has several real-life applications. With the growth of online text data, numerous summarization models have been proposed recently. The Sequence-to-Sequence (Seq2Seq) based neural summarization model is the most widely used in the summarization field due to its high performance. This is because semantic information and structure information in the text is adequately considered when encoding. However, the existing extractive summarization models pay little attention to and use the central topic information to assist the generation of summaries, which leads to models not ensuring the generated summary under the primary topic. A lengthy document can span several topics, and a single summary cannot do justice to all the topics. Therefore, the key to generating a high-quality summary is determining the central topic and building a summary based on it, especially for a long document. We propose a topic-aware encoding for document summarization to deal with this issue. This model effectively combines syntactic-level and topic-level information to build a comprehensive sentence representation. Specifically, a neural topic model is added in the neural-based sentence-level representation learning to adequately consider the central topic information for capturing the critical content in the original document. The experimental results on three public datasets show that our model outperforms the state-of-the-art models.
翻訳日:2021-12-20 19:11:25 公開日:2021-12-17
# (参考訳) A-net深層学習ネットワークを用いた細胞骨格画像の超解像再構成 [全文訳有]

Super-resolution reconstruction of cytoskeleton image based on A-net deep learning network ( http://arxiv.org/abs/2112.09574v1 )

ライセンス: CC BY 4.0
Qian Chen, Haoxin Bai, Bingchen Che, Tianyun Zhao, Ce Zhang, Kaige Wang, Jintao Bai, Wei Zhao(参考訳) 現在まで、ナノメートルスケールでのライブセルイメージングは困難である。 超高分解能顕微鏡法は光学分解能限界以下の細胞内構造の可視化を可能にしているが、空間分解能は生体内での生体分子の構造再構成(すなわち微小管繊維の24nmの厚さ)には程遠い。 本研究では,共焦点顕微鏡で撮影された細胞骨格画像の解像度を,分解モデルに基づくa-net深層学習ネットワークとdwdcアルゴリズムを組み合わせることで大幅に向上できることを示す。 DWDCアルゴリズムを用いて新しいデータセットを構築し、A-netニューラルネットワークの特徴(層がかなり少ない)を活用することで、生画像の細胞構造に干渉するノイズや凝集構造を除去し、比較的小さなデータセットを用いて空間分解能を10倍改善した。 したがって, a-netニューラルネットワークとdwdc法を組み合わせたアルゴリズムは, 低解像度画像から生体分子, 細胞, 臓器の構造的詳細を同定する上で, 適切かつ普遍的なアプローチであると考えられる。

To date, live-cell imaging at the nanometer scale remains challenging. Even though super-resolution microscopy methods have enabled visualization of subcellular structures below the optical resolution limit, the spatial resolution is still far from enough for the structural reconstruction of biomolecules in vivo (i.e. ~24 nm thickness of microtubule fiber). In this study, we proposed an A-net network and showed that the resolution of cytoskeleton images captured by a confocal microscope can be significantly improved by combining the A-net deep learning network with the DWDC algorithm based on degradation model. Utilizing the DWDC algorithm to construct new datasets and taking advantage of A-net neural network's features (i.e., considerably fewer layers), we successfully removed the noise and flocculent structures, which originally interfere with the cellular structure in the raw image, and improved the spatial resolution by 10 times using relatively small dataset. We, therefore, conclude that the proposed algorithm that combines A-net neural network with the DWDC method is a suitable and universal approach for exacting structural details of biomolecules, cells and organs from low-resolution images.
翻訳日:2021-12-20 19:03:44 公開日:2021-12-17
# (参考訳) 非凸Min-Max問題の解法における2時間スケールグラディエントDescent-Ascent Dynamicsの収束速度 [全文訳有]

Convergence Rates of Two-Time-Scale Gradient Descent-Ascent Dynamics for Solving Nonconvex Min-Max Problems ( http://arxiv.org/abs/2112.09579v1 )

ライセンス: CC BY 4.0
Thinh T. Doan(参考訳) 機械学習、ネットワークリソース割り当て、分散最適化など、多くの分野で広く応用されているため、非コブネックスのmin-max最適化問題を解決することには、近年の関心がある。 おそらく、min-max最適化の最も一般的な一階法は、実装の単純さから、いわゆる同時(または単ループ)勾配勾配アルゴリズムである。 しかし、このアルゴリズムの収束に関する理論的保証は、単純な双線型問題においても発散できるため、非常に少ない。 本稿では,同時勾配降下・上昇アルゴリズムの連続時間変動の有限時間性能(あるいは収束率)を特徴付けることを目的とする。 特に,本手法の収束速度は,両面のポリアック-L ojasiewicz (PL), 片面のPL, 非凸-強凹, 強凸-非凹面条件など,様々な条件下で導出する。 我々の収束結果は, 目的関数と同じ条件下で, 先行作業の収束結果を改善する。 我々の分析における重要なアイデアは、古典的な特異摂動理論と結合リアプノフ関数を用いて、勾配降下と上昇ダイナミクスの間の時間スケールの違いと相互作用に対処することである。 連続時間アルゴリズムの挙動に関する結果は,その離散時間アルゴリズムの収束特性を高めるために用いられる。

There are much recent interests in solving noncovnex min-max optimization problems due to its broad applications in many areas including machine learning, networked resource allocations, and distributed optimization. Perhaps, the most popular first-order method in solving min-max optimization is the so-called simultaneous (or single-loop) gradient descent-ascent algorithm due to its simplicity in implementation. However, theoretical guarantees on the convergence of this algorithm is very sparse since it can diverge even in a simple bilinear problem. In this paper, our focus is to characterize the finite-time performance (or convergence rates) of the continuous-time variant of simultaneous gradient descent-ascent algorithm. In particular, we derive the rates of convergence of this method under a number of different conditions on the underlying objective function, namely, two-sided Polyak-L ojasiewicz (PL), one-sided PL, nonconvex-strongly concave, and strongly convex-nonconcave conditions. Our convergence results improve the ones in prior works under the same conditions of objective functions. The key idea in our analysis is to use the classic singular perturbation theory and coupling Lyapunov functions to address the time-scale difference and interactions between the gradient descent and ascent dynamics. Our results on the behavior of continuous-time algorithm may be used to enhance the convergence properties of its discrete-time counterpart.
翻訳日:2021-12-20 18:55:04 公開日:2021-12-17
# (参考訳) 自己監督型潜在空間における透かし画像 [全文訳有]

Watermarking Images in Self-Supervised Latent Spaces ( http://arxiv.org/abs/2112.09581v1 )

ライセンス: CC BY 4.0
Pierre Fernandez, Alexandre Sablayrolles, Teddy Furon, Herv\'e J\'egou, Matthijs Douze(参考訳) 我々は,事前学習した深層ネットワークに基づく透かし手法を,自己教師付きアプローチに照らして再検討する。 我々はマークとバイナリメッセージの両方を潜在空間に埋め込む方法を提案し、マーキング時にデータ拡張を利用する。 提案手法は任意の解像度で動作可能で,幅広い変換(ローテーション,作物,JPEG,コントラストなど)に対して堅牢な透かしを生成する。 従来のゼロビット法よりも大幅に優れており、マルチビット透かしの性能は最先端のエンコーダデコーダアーキテクチャと同等である。 我々の実装とモデルは公開される予定だ。

We revisit watermarking techniques based on pre-trained deep networks, in the light of self-supervised approaches. We present a way to embed both marks and binary messages into their latent spaces, leveraging data augmentation at marking time. Our method can operate at any resolution and creates watermarks robust to a broad range of transformations (rotations, crops, JPEG, contrast, etc). It significantly outperforms the previous zero-bit methods, and its performance on multi-bit watermarking is on par with state-of-the-art encoder-decoder architectures trained end-to-end for watermarking. Our implementation and models will be made publicly available.
翻訳日:2021-12-20 18:05:24 公開日:2021-12-17
# (参考訳) 調整とプロンプト: エンティティプロンプトによるビデオと言語事前トレーニング [全文訳有]

Align and Prompt: Video-and-Language Pre-training with Entity Prompts ( http://arxiv.org/abs/2112.09583v1 )

ライセンス: CC BY 4.0
Dongxu Li, Junnan Li, Hongdong Li, Juan Carlos Niebles, Steven C.H. Hoi(参考訳) ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 従来の手法では、変換器をベースとしたマルチモーダルエンコーダによるクロスモーダルなインタラクションをキャプチャするが、アンモダルビデオとテキストの特徴の相違を完全には解決しない。 さらに、粒度の細かい視覚言語アライメントを学習するには、通常、対象情報を提供するために市販の物体検出器が必要である。 クロスモーダルアライメントが向上した,効率的かつ効果的なビデオ・言語事前学習フレームワークである。 まず,ビデオテキストコントラッシブ(VTC)ロスを導入し,インスタンスレベルでの非モーダルなビデオテキスト特徴の整合を図り,モーダル間相互作用のモデリングを容易にする。 そこで我々は,細粒度領域のアライメントを学習することを目的とした,エンティティモデリング(PEM)の促進を目的とした,視覚的な事前学習タスクを提案する。 これを実現するために、まず、vtcでトレーニングされたエンティティプロンパモジュールを導入し、ビデオ作物とエンティティ名でインスタンス化されたテキストプロンプトとの類似性を生成する。 PEMタスクは、ランダムに選択されたビデオ作物の擬似ラベル(正規化類似度スコア)を予測するようモデルに要求する。 得られた事前学習モデルは、テキストビデオ検索とビデオQAの両方で最先端のパフォーマンスを達成する。 私たちのコードと事前訓練されたモデルはリリースされます。

Video-and-language pre-training has shown promising improvements on various downstream tasks. Most previous methods capture cross-modal interactions with a transformer-based multimodal encoder, not fully addressing the misalignment between unimodal video and text features. Besides, learning fine-grained visual-language alignment usually requires off-the-shelf object detectors to provide object information, which is bottlenecked by the detector's limited vocabulary and expensive computation cost. We propose Align and Prompt: an efficient and effective video-and-language pre-training framework with better cross-modal alignment. First, we introduce a video-text contrastive (VTC) loss to align unimodal video-text features at the instance level, which eases the modeling of cross-modal interactions. Then, we propose a new visually-grounded pre-training task, prompting entity modeling (PEM), which aims to learn fine-grained region-entity alignment. To achieve this, we first introduce an entity prompter module, which is trained with VTC to produce the similarity between a video crop and text prompts instantiated with entity names. The PEM task then asks the model to predict the entity pseudo-labels (i.e~normalized similarity scores) for randomly-selected video crops. The resulting pre-trained model achieves state-of-the-art performance on both text-video retrieval and videoQA, outperforming prior work by a substantial margin. Our code and pre-trained models will be released.
翻訳日:2021-12-20 17:53:24 公開日:2021-12-17
# (参考訳) ニューラル編集プログラムによる聴覚障害者のための自然言語転写 [全文訳有]

Transcribing Natural Languages for The Deaf via Neural Editing Programs ( http://arxiv.org/abs/2112.09600v1 )

ライセンス: CC BY 4.0
Dongxu Li, Chenchen Xu, Liu Liu, Yiran Zhong, Rong Wang, Lars Petersson, Hongdong Li(参考訳) 本研究は, 音韻化の課題について検討し, その目的は, 手話のグラスを注文するために, 難聴者コミュニティのための自然言語文の書き起こしを行うことである。 ペア言語データでトレーニングされた以前のシーケンス-シーケンス言語モデルは、しばしば2つの異なる言語間の豊富な接続を捉えることに失敗し、不十分な転写に繋がる。 異なる文法に拘わらず,単語の大部分を文と共有しながら,難聴コミュニケーションの容易な文を効果的に単純化することが観察された。 これにより、自然言語対応言語上で、単語の追加、削除、編集プログラムと呼ばれるコピーなどの編集動作のコレクションを実行することで、グロス化を実現する動機付けとなった。 具体的には、文コンテキストと部分的な編集結果に基づいて、編集プログラムの合成と実行を学習するニューラルエージェントを設計する。 エージェントは最小限の編集プログラムを模倣するように訓練され、より広い範囲のプログラム空間をポリシー勾配を通して探索し、シーケンスワイドの転写品質を最適化する。 その結果,従来の光沢化モデルよりも大きなマージンで優れていることがわかった。

This work studies the task of glossification, of which the aim is to em transcribe natural spoken language sentences for the Deaf (hard-of-hearing) community to ordered sign language glosses. Previous sequence-to-sequence language models trained with paired sentence-gloss data often fail to capture the rich connections between the two distinct languages, leading to unsatisfactory transcriptions. We observe that despite different grammars, glosses effectively simplify sentences for the ease of deaf communication, while sharing a large portion of vocabulary with sentences. This has motivated us to implement glossification by executing a collection of editing actions, e.g. word addition, deletion, and copying, called editing programs, on their natural spoken language counterparts. Specifically, we design a new neural agent that learns to synthesize and execute editing programs, conditioned on sentence contexts and partial editing results. The agent is trained to imitate minimal editing programs, while exploring more widely the program space via policy gradients to optimize sequence-wise transcription quality. Results show that our approach outperforms previous glossification models by a large margin.
翻訳日:2021-12-20 17:31:09 公開日:2021-12-17
# (参考訳) 異なる材料からのミューオン分光データの共同機械学習解析 [全文訳有]

Joint machine learning analysis of muon spectroscopy data from different materials ( http://arxiv.org/abs/2112.09601v1 )

ライセンス: CC BY 4.0
T. Tula, G. M\"oller, J. Quintanilla, S. R. Giblin, A. D. Hillier, E. E. McCabe, S. Ramos, D. S. Barker, S. Gibson(参考訳) 機械学習(ML)手法は、特に実験データ分析に適用した場合、物理科学において非常に成功したツールであることが証明されている。 人工知能は、高次元データのパターンを認識するのに特に適しています。 そこで本研究では,主成分分析(principal component analysis, pca)と呼ばれる単純なmlツールを適用した。 この実験から得られた測定量は非対称性関数であり、サンプルの平均固有磁場に関する情報を保持する。 非対称性関数の変化は相転移を示すかもしれないが、これらの変化は非常に微妙であり、既存の分析法では物質の特定の物理に関する知識を必要とする。 pcaは教師なしのmlツールであり、入力データに関する仮定は必要ないが、非対称性曲線にうまく適用でき、相転移の兆候を回復できることがわかった。 この手法は、基礎となる物理の異なる磁性材料に適用された。 また,これらすべての材料でpcaを同時に行うと,相転移指標の明瞭さに正の効果が得られ,非対称性関数の最も重要な変動の検出も改善できることがわかった。 この共同PCAのために、より意味のある分析のために、異なる材料からのコントリビューションを追跡する簡単な方法を紹介します。

Machine learning (ML) methods have proved to be a very successful tool in physical sciences, especially when applied to experimental data analysis. Artificial intelligence is particularly good at recognizing patterns in high dimensional data, where it usually outperforms humans. Here we applied a simple ML tool called principal component analysis (PCA) to study data from muon spectroscopy. The measured quantity from this experiment is an asymmetry function, which holds the information about the average intrinsic magnetic field of the sample. A change in the asymmetry function might indicate a phase transition; however, these changes can be very subtle, and existing methods of analyzing the data require knowledge about the specific physics of the material. PCA is an unsupervised ML tool, which means that no assumption about the input data is required, yet we found that it still can be successfully applied to asymmetry curves, and the indications of phase transitions can be recovered. The method was applied to a range of magnetic materials with different underlying physics. We discovered that performing PCA on all those materials simultaneously can have a positive effect on the clarity of phase transition indicators and can also improve the detection of the most important variations of asymmetry functions. For this joint PCA we introduce a simple way to track the contributions from different materials for a more meaningful analysis.
翻訳日:2021-12-20 17:16:13 公開日:2021-12-17
# (参考訳) 自律強化学習:形式主義とベンチマーク [全文訳有]

Autonomous Reinforcement Learning: Formalism and Benchmarking ( http://arxiv.org/abs/2112.09605v1 )

ライセンス: CC BY 4.0
Archit Sharma, Kelvin Xu, Nikhil Sardana, Abhishek Gupta, Karol Hausman, Sergey Levine, Chelsea Finn(参考訳) 強化学習(rl)は、試行錯誤を通じて学ぶための自然主義的な枠組みを提供するが、それはその単純さと有効性と、人間と動物が経験を通じてスキルを取得する方法に類似しているため、魅力的である。 しかしながら、人間や動物によって行われるような現実世界の具体的学習は連続的で非エポゾディックな世界にあり、一方RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を提供する環境がリセットされる。 この違いは、擬似環境向けに開発されたRLアルゴリズムをロボットのような現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。 本稿では,自律強化学習(autonomous reinforcement learning:arl)の枠組みを構築し,エージェントが自身の経験から学ぶだけでなく,治験の間にリセットするための人間の監督が欠如していることにも反論する。 本フレームワークの周辺にシミュレーションベンチマークEARLを導入し,外在的介入を最小限に抑えることができる場合の学習に導入されたハードルを反映した,多様かつ困難なシミュレーションタスクのセットを含む。 RLと既存のアプローチに対する標準的なアプローチは、介入を最小限に抑え、自律性を重視した強化学習のための新しいアルゴリズムの開発の必要性を浮き彫りにしている。

Reinforcement learning (RL) provides a naturalistic framing for learning through trial and error, which is appealing both because of its simplicity and effectiveness and because of its resemblance to how humans and animals acquire skills through experience. However, real-world embodied learning, such as that performed by humans and animals, is situated in a continual, non-episodic world, whereas common benchmark tasks in RL are episodic, with the environment resetting between trials to provide the agent with multiple attempts. This discrepancy presents a major challenge when attempting to take RL algorithms developed for episodic simulated environments and run them on real-world platforms, such as robots. In this paper, we aim to address this discrepancy by laying out a framework for Autonomous Reinforcement Learning (ARL): reinforcement learning where the agent not only learns through its own experience, but also contends with lack of human supervision to reset between trials. We introduce a simulated benchmark EARL around this framework, containing a set of diverse and challenging simulated tasks reflective of the hurdles introduced to learning when only a minimal reliance on extrinsic intervention can be assumed. We show that standard approaches to episodic RL and existing approaches struggle as interventions are minimized, underscoring the need for developing new algorithms for reinforcement learning with a greater focus on autonomy.
翻訳日:2021-12-20 17:11:52 公開日:2021-12-17
# (参考訳) 量子モデルにおける確率的対向ロバスト性

Provable Adversarial Robustness in the Quantum Model ( http://arxiv.org/abs/2112.09625v1 )

ライセンス: CC BY 4.0
Khashayar Barooti, Grzegorz G{\l}uch, Ruediger Urbanke(参考訳) 近年、現代の機械学習システムは様々なタスクにうまく適用されてきたが、反対に選択された入力インスタンスの修正に対して、そのようなシステムを堅牢にすることは、はるかに難しい問題である。 完全に満足できる解がこれまでに見つかっていないと言うのは、おそらく公平であり、標準定式化が原理的な解を許すかどうかも定かではない。 したがって、有界摂動の古典的な経路に従うのではなく、bshouty と jackson [1995] によって導入された量子パック学習モデルに似たモデルを考える。 私たちの最初の重要な貢献は、このモデルでは2つの古典的学習理論問題(problem)を組み合わせることで、敵対的ロバスト性を低減できることを示しています。 1)生成モデルの発見の問題と(問題) 2) 分布シフトに関してロバストな分類器を考案する問題。 2つ目の重要なコントリビューションは、考慮されているフレームワークが$\ell_p$ 境界摂動のような特定の(従ってやや任意な)脅威モデルに依存していないことです。 その代わり、我々の還元は、我々のモデルにおける敵対的ロバストネス問題を解決するために、1つの距離の概念、すなわちヘリンガー距離を考えるのが十分であることを保証します。 技術的な観点からは、我々のプロトコルは近年の量子計算のデリゲート(例えばMahadev [2018])に大きく依存している。 考慮されたモデルは量子論であり、従って「実世界」の状況に直ちには適用できないが、将来的には「実世界」の問題を量子論の枠組みに組み込む方法や、その強力な量子論を模倣できる古典的アルゴリズムが見つかることを期待しているかもしれない。

Modern machine learning systems have been applied successfully to a variety of tasks in recent years but making such systems robust against adversarially chosen modifications of input instances seems to be a much harder problem. It is probably fair to say that no fully satisfying solution has been found up to date and it is not clear if the standard formulation even allows for a principled solution. Hence, rather than following the classical path of bounded perturbations, we consider a model similar to the quantum PAC-learning model introduced by Bshouty and Jackson [1995]. Our first key contribution shows that in this model we can reduce adversarial robustness to the conjunction of two classical learning theory problems, namely (Problem 1) the problem of finding generative models and (Problem 2) the problem of devising classifiers that are robust with respect to distributional shifts. Our second key contribution is that the considered framework does not rely on specific (and hence also somewhat arbitrary) threat models like $\ell_p$ bounded perturbations. Instead, our reduction guarantees that in order to solve the adversarial robustness problem in our model it suffices to consider a single distance notion, i.e. the Hellinger distance. From the technical perspective our protocols are heavily based on the recent advances on delegation of quantum computation, e.g. Mahadev [2018]. Although the considered model is quantum and therefore not immediately applicable to ``real-world'' situations, one might hope that in the future either one can find a way to embed ``real-world'' problems into a quantum framework or that classical algorithms can be found that are capable of mimicking their powerful quantum counterparts.
翻訳日:2021-12-20 16:49:20 公開日:2021-12-17
# (参考訳) 連続確率的非可逆ネットワークによる不連続多様体のデータ生成 [全文訳有]

Generation of data on discontinuous manifolds via continuous stochastic non-invertible networks ( http://arxiv.org/abs/2112.09646v1 )

ライセンス: CC BY 4.0
Mariia Drozdova, Vitaliy Kinakh, Guillaume Qu\'etant, Tobias Golling, Slava Voloshynovskiy(参考訳) 不連続分布の生成は、生成的自己エンコーダや生成的敵ネットワークのような最も知られたフレームワークにとって難しい課題である。 生成的非可逆モデルはそのような分布を正確に生成できず、長い訓練を必要とし、しばしばモード崩壊する。 変分オートエンコーダ(VAE)は、単純なサンプリングのために潜伏空間をガウス空間として維持するというアイデアに基づいており、生成タスクにおいて重大な制限を経験しながら、正確な再構築を可能にする。 この研究では、潜在空間をガウス空間とする代わりに、事前学習されたコントラストエンコーダを用いてクラスタ化された潜在空間を得る。 次に、一様部分多様体を表す各クラスタに対して、ガウス分布からこの部分多様体を生成するために専用の低複雑性ネットワークを訓練する。 提案手法は,入力データと潜在空間表現との間の相互情報の最大化に関する情報理論の定式化に基づく。 コスト関数と情報理論的定式化との関係を導出する。 本手法を合成2次元分布に適用し,連続確率ネットワークを用いた不連続分布の再構成と生成の両方を実証する。

The generation of discontinuous distributions is a difficult task for most known frameworks such as generative autoencoders and generative adversarial networks. Generative non-invertible models are unable to accurately generate such distributions, require long training and often are subject to mode collapse. Variational autoencoders (VAEs), which are based on the idea of keeping the latent space to be Gaussian for the sake of a simple sampling, allow an accurate reconstruction, while they experience significant limitations at generation task. In this work, instead of trying to keep the latent space to be Gaussian, we use a pre-trained contrastive encoder to obtain a clustered latent space. Then, for each cluster, representing a unimodal submanifold, we train a dedicated low complexity network to generate this submanifold from the Gaussian distribution. The proposed framework is based on the information-theoreti c formulation of mutual information maximization between the input data and latent space representation. We derive a link between the cost functions and the information-theoreti c formulation. We apply our approach to synthetic 2D distributions to demonstrate both reconstruction and generation of discontinuous distributions using continuous stochastic networks.
翻訳日:2021-12-20 16:48:08 公開日:2021-12-17
# (参考訳) 情報理論的確率的コントラスト条件付きGAN:InfoSCC-GAN [全文訳有]

Information-theoreti c stochastic contrastive conditional GAN: InfoSCC-GAN ( http://arxiv.org/abs/2112.09653v1 )

ライセンス: CC BY 4.0
Vitaliy Kinakh, Mariia Drozdova, Guillaume Qu\'etant, Tobias Golling, Slava Voloshynovskiy(参考訳) 条件生成は、属性情報によって生成の出力が条件づけられた生成問題のサブクラスである。 本稿では,探索可能な潜伏空間を有する確率的コントラスト条件生成対向ネットワーク(InfoSCC-GAN)を提案する。 InfoSCC-GANアーキテクチャは、InfoNCEパラダイム、属性分類器、EigenGANジェネレータに基づいて構築された教師なしコントラストエンコーダに基づいている。 本稿では,事前学習したコントラストエンコーダと事前学習した分類器を用いて,外部属性や内部属性を$n$-thの繰り返し毎に使用した新たなトレーニング手法を提案する。 提案するinfoscc-ganは,入力データと潜在空間表現,潜在空間と生成データの相互情報最大化に関する情報理論的定式化に基づいている。 そこで本研究では,学習目標関数と上記の情報理論定式化との関係を示す。 実験の結果,InfoSCC-GANはAFHQおよびCelebAデータセットの画像生成において,"vanilla" EigenGANよりも優れていた。 さらに,判別器アーキテクチャと損失関数の影響をアブレーション研究により検討した。 最後に、EigenGANジェネレータのおかげで、提案フレームワークは、既存のフレームワークとは対照的に、エンコーダ、分類器、ジェネレータの独立したトレーニングでは、バニラ決定的GANに対して確率的生成を享受できることを示した。 コード、実験結果、デモはhttps://github.com/v kinakh/InfoSCC-GAN.c omで公開されている。

Conditional generation is a subclass of generative problems where the output of the generation is conditioned by the attribute information. In this paper, we present a stochastic contrastive conditional generative adversarial network (InfoSCC-GAN) with an explorable latent space. The InfoSCC-GAN architecture is based on an unsupervised contrastive encoder built on the InfoNCE paradigm, an attribute classifier and an EigenGAN generator. We propose a novel training method, based on generator regularization using external or internal attributes every $n$-th iteration, using a pre-trained contrastive encoder and a pre-trained classifier. The proposed InfoSCC-GAN is derived based on an information-theoreti c formulation of mutual information maximization between input data and latent space representation as well as latent space and generated data. Thus, we demonstrate a link between the training objective functions and the above information-theoreti c formulation. The experimental results show that InfoSCC-GAN outperforms the "vanilla" EigenGAN in the image generation on AFHQ and CelebA datasets. In addition, we investigate the impact of discriminator architectures and loss functions by performing ablation studies. Finally, we demonstrate that thanks to the EigenGAN generator, the proposed framework enjoys a stochastic generation in contrast to vanilla deterministic GANs yet with the independent training of encoder, classifier, and generator in contrast to existing frameworks. Code, experimental results, and demos are available online at https://github.com/v kinakh/InfoSCC-GAN.
翻訳日:2021-12-20 16:41:47 公開日:2021-12-17
# (参考訳) AIによるバイオメトリックデータ収集の検証 [全文訳有]

AI-Assisted Verification of Biometric Data Collection ( http://arxiv.org/abs/2112.09660v1 )

ライセンス: CC BY 4.0
Ryan Lindsey(参考訳) ビデオフィードからアクションを認識することは、特に古いハードウェアで自動化するのが難しい作業だ。 このプロジェクトには2つの目標がある。ひとつは、Androidスマートフォンの前面カメラからのアクションを認識すること、もうひとつは、できるだけ多くの携帯電話とAndroidバージョンをサポートすることだ。 これにより、gpuの有無に関わらず携帯電話で動作し、アクションを認識するためにカメラフィードのみを使用するようなモデルの使用が制限されます。 本稿では、カスタムデータセットでトレーニングされたモデルを用いて、デバイス間で(専用GPUなしで)YOLOアーキテクチャの性能を比較する。 また、限られたハードウェア上でビデオから顔や行動を認識する際の制限についても論じる。

Recognizing actions from a video feed is a challenging task to automate, especially so on older hardware. There are two aims for this project: one is to recognize an action from the front-facing camera on an Android phone, the other is to support as many phones and Android versions as possible. This limits us to using models that are small enough to run on mobile phones with and without GPUs, and only using the camera feed to recognize the action. In this paper we compare performance of the YOLO architecture across devices (with and without dedicated GPUs) using models trained on a custom dataset. We also discuss limitations in recognizing faces and actions from video on limited hardware.
翻訳日:2021-12-20 16:35:21 公開日:2021-12-17
# (参考訳) マルチレゾリューション・フュージョン・アンド・アテンション・ネットワークによるより効果的なPRMベースの集団カウント

Towards More Effective PRM-based Crowd Counting via A Multi-resolution Fusion and Attention Network ( http://arxiv.org/abs/2112.09664v1 )

ライセンス: CC BY 4.0
Usman Sajid, Guanghui Wang(参考訳) 本稿では,最近のプラグアンドプレイ・パッチ・リスケーリング・モジュール (PRM) に基づく群集カウント手法の改良に焦点を当てた。 PRMのポテンシャルをフル活用し、群衆変動、大局的視点、極端閉塞、散在する背景領域を含む課題の画像に対して、より信頼性が高く正確な結果を得るために、より有効性と有効性のあるPRMモジュールを利用して、新しいPRMベースのマルチレゾリューションおよびマルチタスク・クラウドカウントネットワークを提案する。 提案モデルは3つの深層分岐で構成され,それぞれ異なる解像度の特徴写像を生成する。 これらのブランチは互いに機能レベルの融合を行い、最終的な群衆の見積もりに使用する重要な集合的知識を構築する。 さらに、初期特徴マップは、前景領域の後期チャネル理解を強化するために視覚的な注意を払っている。 これらの深部分岐を PRM モジュールと早期適応ブロックと統合することにより、4つのベンチマークデータセットの広範な数値的および視覚的評価を通じて、元の PRM ベースのスキームよりも効果的であることが証明された。 提案手法は, RMSE評価基準において, 12.6%のマージンで大幅に改善された。 また、クロスデータセット評価において最先端の手法よりも優れている。

The paper focuses on improving the recent plug-and-play patch rescaling module (PRM) based approaches for crowd counting. In order to make full use of the PRM potential and obtain more reliable and accurate results for challenging images with crowd-variation, large perspective, extreme occlusions, and cluttered background regions, we propose a new PRM based multi-resolution and multi-task crowd counting network by exploiting the PRM module with more effectiveness and potency. The proposed model consists of three deep-layered branches with each branch generating feature maps of different resolutions. These branches perform a feature-level fusion across each other to build the vital collective knowledge to be used for the final crowd estimate. Additionally, early-stage feature maps undergo visual attention to strengthen the later-stage channels understanding of the foreground regions. The integration of these deep branches with the PRM module and the early-attended blocks proves to be more effective than the original PRM based schemes through extensive numerical and visual evaluations on four benchmark datasets. The proposed approach yields a significant improvement by a margin of 12.6% in terms of the RMSE evaluation criterion. It also outperforms state-of-the-art methods in cross-dataset evaluations.
翻訳日:2021-12-20 16:32:17 公開日:2021-12-17
# (参考訳) 光フィールドニューラルレンダリング [全文訳有]

Light Field Neural Rendering ( http://arxiv.org/abs/2112.09687v1 )

ライセンス: CC BY 4.0
Mohammed Suhail, Carlos Esteves, Leonid Sigal, Ameesh Makadia(参考訳) 新しいビュー合成のための古典的な光フィールドレンダリングは、反射、屈折、透過といったビュー依存の効果を正確に再現できるが、シーンの濃密なビューサンプリングを必要とする。 幾何再構成に基づく手法はスパースビューのみを必要とするが、非ランベルト効果を正確にモデル化することはできない。 強みを結合し,これら2つの方向の限界を緩和するモデルを提案する。 光場を4次元的に表現することで、我々のモデルはビュー依存効果を正確に表現することを学ぶ。 トレーニングと推論の間に幾何学的制約を課すことにより、シーン幾何学はスパースビューから暗黙的に学習される。 具体的には,まずエピポーラ線に沿って特徴を集約し,次に参照ビューに沿って特徴を集約し,対象光線の色を生成する2段階トランスフォーマーモデルを提案する。 我々のモデルは、複数の前方向きデータセットと360{\deg}データセットで最先端のパフォーマンスを達成し、ビュー依存の激しいシーンでは大きなマージンを持つ。

Classical light field rendering for novel view synthesis can accurately reproduce view-dependent effects such as reflection, refraction, and translucency, but requires a dense view sampling of the scene. Methods based on geometric reconstruction need only sparse views, but cannot accurately model non-Lambertian effects. We introduce a model that combines the strengths and mitigates the limitations of these two directions. By operating on a four-dimensional representation of the light field, our model learns to represent view-dependent effects accurately. By enforcing geometric constraints during training and inference, the scene geometry is implicitly learned from a sparse set of views. Concretely, we introduce a two-stage transformer-based model that first aggregates features along epipolar lines, then aggregates features along reference views to produce the color of a target ray. Our model outperforms the state-of-the-art on multiple forward-facing and 360{\deg} datasets, with larger margins on scenes with severe view-dependent variations.
翻訳日:2021-12-20 16:31:08 公開日:2021-12-17
# Colloquium: 量子ドットデバイス制御の自動化の進歩

Colloquium: Advances in automation of quantum dot devices control ( http://arxiv.org/abs/2112.09362v1 )

ライセンス: Link先を確認
Justyna P. Zwolak and Jacob M. Taylor(参考訳) 量子ドット配列(qds)は、スケーラブルで結合された量子ビットシステムを実現し、量子コンピュータの基本構成要素として機能する有望な候補システムである。 このような半導体量子システムでは、デバイスは何十もの個別の静電電圧と動的電圧を持ち、システムを単一電子系にローカライズし、良好な量子ビット動作を実現するために慎重に設定する必要がある。 所要点の位置と電荷をゲート電圧にマッピングすることは、古典的な制御の問題となる。 QD量子ビットの増加に伴い、関連するパラメータ空間は十分に増大し、ヒューリスティックな制御が不可能になる。 近年,スクリプトベースのアルゴリズムと機械学習(ML)技術を組み合わせたデバイス制御を自動化する取り組みが盛んに行われている。 本稿では,2次元電子ガス中に生成するシリコンおよびgaasベースのqdsに着目し,qdデバイス制御の自動化の最近の進歩について概観する。 物理に基づくモデリングと現代の数値最適化とMLを組み合わせることで、効率的でスケーラブルな制御が得られることが証明されている。 コンピュータ科学とMLとの理論的、計算的、実験的取り組みのさらなる統合は、量子コンピューティングのための半導体やその他のプラットフォームの発展に大きな可能性を秘めている。

Arrays of quantum dots (QDs) are a promising candidate system to realize scalable, coupled qubits systems and serve as a fundamental building block for quantum computers. In such semiconductor quantum systems, devices now have tens of individual electrostatic and dynamical voltages that must be carefully set to localize the system into the single-electron regime and to realize good qubit operational performance. The mapping of requisite dot locations and charges to gate voltages presents a challenging classical control problem. With an increasing number of QD qubits, the relevant parameter space grows sufficiently to make heuristic control unfeasible. In recent years, there has been a considerable effort to automate device control that combines script-based algorithms with machine learning (ML) techniques. In this Colloquium, we present a comprehensive overview of the recent progress in the automation of QD device control, with a particular emphasis on silicon- and GaAs-based QDs formed in two-dimensional electron gases. Combining physics-based modeling with modern numerical optimization and ML has proven quite effective in yielding efficient, scalable control. Further integration of theoretical, computational, and experimental efforts with computer science and ML holds tremendous potential in advancing semiconductor and other platforms for quantum computing.
翻訳日:2021-12-20 16:12:21 公開日:2021-12-17
# 2段階スパンラベリングによる中国語単語分割と音声タギング

Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage Span Labeling ( http://arxiv.org/abs/2112.09488v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Linh-Bao Vo, Ngoc-Linh Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 計算言語学と自然言語処理の応用において,中国語単語の分割と部分音声のタグ付けは必須課題である。 多くの再調査者は、深層学習時代において中国語の単語セグメンテーションと音声タグ付けの需要を議論している。 それでも、曖昧さの解消と未知語の検出は、この分野では難しい課題である。 n-gram特徴のモデル化に焦点をあてた文字ベースタギングモデルに先行して,中国語の単語分割とパート・オブ・音声タギングについて検討した。 従来の研究とは違って,中国語の単語セグメント化と音声タグ付けのためのSpanSegTagというニューラルモデルを提案し,各n-gramが単語であり,音声タグが主な問題であるスパンラベルに追従する。 逐次文字の左右境界表現上のバイアフィン演算を用いてn-gramをモデル化する。 実験の結果,我々のBERTモデルであるSpanSegTagは, CTB5, CTB6, UD上での競合性能や, CTB7, CTB9ベンチマークデータセットにおいて,BERTやZENエンコーダを用いた現在の最先端手法と比較して大幅に改善されていることがわかった。

Chinese word segmentation and part-of-speech tagging are necessary tasks in terms of computational linguistics and application of natural language processing. Many re-searchers still debate the demand for Chinese word segmentation and part-of-speech tagging in the deep learning era. Nevertheless, resolving ambiguities and detecting unknown words are challenging problems in this field. Previous studies on joint Chinese word segmentation and part-of-speech tagging mainly follow the character-based tagging model focusing on modeling n-gram features. Unlike previous works, we propose a neural model named SpanSegTag for joint Chinese word segmentation and part-of-speech tagging following the span labeling in which the probability of each n-gram being the word and the part-of-speech tag is the main problem. We use the biaffine operation over the left and right boundary representations of consecutive characters to model the n-grams. Our experiments show that our BERT-based model SpanSegTag achieved competitive performances on the CTB5, CTB6, and UD, or significant improvements on CTB7 and CTB9 benchmark datasets compared with the current state-of-the-art method using BERT or ZEN encoders.
翻訳日:2021-12-20 16:11:34 公開日:2021-12-17
# 推論連鎖に基づくマルチホップ質問応答に対する逆攻撃

Reasoning Chain Based Adversarial Attack for Multi-hop Question Answering ( http://arxiv.org/abs/2112.09658v1 )

ライセンス: Link先を確認
Jiayu Ding (1), Siyuan Wang (1), Qin Chen (2), Zhongyu Wei (1) ((1) Fudan University, (2) East China Normal University)(参考訳) 近年、マルチホップQAタスクへの挑戦が目覚ましい進歩を見せている。 しかし、これらのQAモデルは入力テキストの何らかの乱れに直面して失敗する可能性があり、マルチホップ推論を行うための解釈性はまだ不明である。 従来の敵攻撃は通常、質問文全体を編集するが、これはエンティティベースのマルチホップ推論能力のテストに限定的な影響を及ぼす。 本稿では,マルチホップ推論チェーンに基づく逆攻撃手法を提案する。 クエリーエンティティから構築されたグラフの応答エンティティに始まるマルチホップ推論チェーンを定式化し、各推論ホップに質問を合わせることで、任意のホップを攻撃できるようにします。 質問を異なる推論タイプに分類し、選択した推論ホップに対応する質問の一部を逆修正し、気を散らす文を生成する。 本稿では,HotpotQAデータセット上の3つのQAモデルに対して,敵対的スキームをテストする。 提案手法は,マルチホップ推論モデルに対する推論連鎖に基づく攻撃手法の有効性と脆弱性を検証し,回答予測と事象予測の両方において有意な性能低下を示した。 我々の対戦型再訓練はこれらのモデルの性能と堅牢性をさらに向上させる。

Recent years have witnessed impressive advances in challenging multi-hop QA tasks. However, these QA models may fail when faced with some disturbance in the input text and their interpretability for conducting multi-hop reasoning remains uncertain. Previous adversarial attack works usually edit the whole question sentence, which has limited effect on testing the entity-based multi-hop inference ability. In this paper, we propose a multi-hop reasoning chain based adversarial attack method. We formulate the multi-hop reasoning chains starting from the query entity to the answer entity in the constructed graph, which allows us to align the question to each reasoning hop and thus attack any hop. We categorize the questions into different reasoning types and adversarially modify part of the question corresponding to the selected reasoning hop to generate the distracting sentence. We test our adversarial scheme on three QA models on HotpotQA dataset. The results demonstrate significant performance reduction on both answer and supporting facts prediction, verifying the effectiveness of our reasoning chain based attack method for multi-hop reasoning models and the vulnerability of them. Our adversarial re-training further improves the performance and robustness of these models.
翻訳日:2021-12-20 16:09:57 公開日:2021-12-17
# 説明, 編集, 理解: モデル説明評価のためのユーザ学習設計の再考

Explain, Edit, and Understand: Rethinking User Study Design for Evaluating Model Explanations ( http://arxiv.org/abs/2112.09669v1 )

ライセンス: Link先を確認
Siddhant Arora, Danish Pruthi, Norman Sadeh, William W. Cohen, Zachary C. Lipton, Graham Neubig(参考訳) 機械学習モデルの予測を「説明」するために、研究者は重要と思われる特徴に予測を帰属させる数百のテクニックを提案している。 これらの属性は、しばしば人間のモデルの「理解」を改善する可能性を秘めていると主張されるが、驚くべきことにこの願望に対する進歩をはっきりと評価する研究はほとんどない。 本稿では,実際のホテルレビューと偽のホテルレビューを区別するために訓練された偽装検出モデルと,参加者が相互作用するクラウドソーシング研究を行う。 彼らは、新しいレビューでモデルをシミュレートし、最初に予測されたクラスの確率を下げる目的でレビューを編集することの両方に挑戦する。 操作が成功すると、逆の例になる。 トレーニング(テストではなく)フェーズでは、サリエンスを伝えるために入力スパンが強調表示される。 評価の結果, 単語の線形化モデルでは, 学習中の特徴係数にアクセスした参加者は, 非説明制御と比較して, テストフェーズにおけるモデルの信頼性を低下させることができることがわかった。 BERTベースの分類器では、一般的な局所的な説明は、非説明の場合よりもモデルの信頼性を低下させる能力を向上しない。 興味深いことに、BERTモデルの説明が、BERTモデルを模倣するために訓練された線形モデルの(グローバルな)属性によって与えられる場合、モデルは効果的に操作できる。

In attempts to "explain" predictions of machine learning models, researchers have proposed hundreds of techniques for attributing predictions to features that are deemed important. While these attributions are often claimed to hold the potential to improve human "understanding" of the models, surprisingly little work explicitly evaluates progress towards this aspiration. In this paper, we conduct a crowdsourcing study, where participants interact with deception detection models that have been trained to distinguish between genuine and fake hotel reviews. They are challenged both to simulate the model on fresh reviews, and to edit reviews with the goal of lowering the probability of the originally predicted class. Successful manipulations would lead to an adversarial example. During the training (but not the test) phase, input spans are highlighted to communicate salience. Through our evaluation, we observe that for a linear bag-of-words model, participants with access to the feature coefficients during training are able to cause a larger reduction in model confidence in the testing phase when compared to the no-explanation control. For the BERT-based classifier, popular local explanations do not improve their ability to reduce the model confidence over the no-explanation case. Remarkably, when the explanation for the BERT model is given by the (global) attributions of a linear model trained to imitate the BERT model, people can effectively manipulate the model.
翻訳日:2021-12-20 16:09:39 公開日:2021-12-17
# cgspan: クローズドグラフベースのサブ構造パターンマイニング

cgSpan: Closed Graph-Based Substructure Pattern Mining ( http://arxiv.org/abs/2112.09573v1 )

ライセンス: Link先を確認
Zevin Shaul, Sheikh Naaz(参考訳) gSpanは頻繁な部分グラフをマイニングする一般的なアルゴリズムである。 cgSpan(グラフベースの部分構造パターンマイニング)は、閉部分グラフのみをマイニングするgSpan拡張である。 グラフデータベースに部分グラフ g が閉じている場合、g と等価な g の頻繁な上グラフが存在しない。 cgSpanは、gSpanプルーニングメソッドにEarly Terminationプルーニングメソッドを追加し、元のgSpanステップは変更されていない。 cgSpanはまた、Early Terminationを適用しないケースを検出し、処理する。 我々の知る限りでは、cgSpanはクローズドグラフマイニングのための最初の公開実装である。

gSpan is a popular algorithm for mining frequent subgraphs. cgSpan (closed graph-based substructure pattern mining) is a gSpan extension that only mines closed subgraphs. A subgraph g is closed in the graphs database if there is no proper frequent supergraph of g that has equivalent occurrence with g. cgSpan adds the Early Termination pruning method to the gSpan pruning methods, while leaving the original gSpan steps unchanged. cgSpan also detects and handles cases in which Early Termination should not be applied. To the best of our knowledge, cgSpan is the first publicly available implementation for closed graphs mining
翻訳日:2021-12-20 16:09:18 公開日:2021-12-17
# 全光子偏光時間イメージング

All-photon Polarimetric Time-of-Flight Imaging ( http://arxiv.org/abs/2112.09278v1 )

ライセンス: Link先を確認
Seung-Hwan Baek, Felix Heide(参考訳) time-of(tof)センサーは、自動運転、ロボティクス、拡張現実など、さまざまな応用に寄与するイメージングモードを提供する。 従来のtofイメージング手法では、光パルスをシーンに送信し、時間的遅延なくシーン面から直接反射される第1の光子のtofを測定することで深度を推定する。 したがって、この最初の応答に続く全ての光子は、通常望ましくないノイズと見なされる。 本稿では,第一・後期光子の時間的偏光解析を組み込んだ全光子tofイメージング法を提案する。 そこで本研究では, 表面反射光と地下反射の時間的偏光変化を利用した新しい時間的偏光反射モデル, 効率的な捕捉法, 再構成法を提案する。 提案する全光子ポラリメトリックtofイメージング法では,システムで撮影された全ての光子を利用してシーンの深さ,表面正規値,材料パラメータを取得することができるが,従来のtofイメージングでは第1の光子から粗い深さのみが得られる。 本手法をシミュレーションおよび試作機で実験的に検証する。

Time-of-flight (ToF) sensors provide an imaging modality fueling diverse applications, including LiDAR in autonomous driving, robotics, and augmented reality. Conventional ToF imaging methods estimate the depth by sending pulses of light into a scene and measuring the ToF of the first-arriving photons directly reflected from a scene surface without any temporal delay. As such, all photons following this first response are typically considered as unwanted noise. In this paper, we depart from the principle of using first-arriving photons and propose an all-photon ToF imaging method by incorporating the temporal-polarimetri c analysis of first- and late-arriving photons, which possess rich scene information about its geometry and material. To this end, we propose a novel temporal-polarimetri c reflectance model, an efficient capture method, and a reconstruction method that exploits the temporal-polarimetri c changes of light reflected by the surface and sub-surface reflection. The proposed all-photon polarimetric ToF imaging method allows for acquiring depth, surface normals, and material parameters of a scene by utilizing all photons captured by the system, whereas conventional ToF imaging only obtains coarse depth from the first-arriving photons. We validate our method in simulation and experimentally with a prototype.
翻訳日:2021-12-20 16:06:30 公開日:2021-12-17
# 共有自動運転のための人車協調視覚認識

Human-Vehicle Cooperative Visual Perception for Shared Autonomous Driving ( http://arxiv.org/abs/2112.09298v1 )

ライセンス: Link先を確認
Yiyue Zhao, Cailin Lei, Yu Shen, Yuchuan Du, Qijun Chen(参考訳) 環境認識などの重要な技術の発展に伴い、自動運転車の自動化レベルが向上している。 しかし、高度に自律的な運転に達する前には、人車共有運転の安全性を確保するためには、手動運転が運転プロセスに参加する必要がある。 既存の自動車協同運転は自動車工学と運転者の行動に焦点を当てており、視覚認知の分野での研究はほとんどない。 複雑な道路交通の衝突シナリオにおける性能の悪さから、協調的な視覚認知をさらに研究する必要がある。 また、自律運転知覚システムは、手動運転の特徴を正確に理解することができない。 そこで本稿では,この背景に基づいて,複雑な道路交通シナリオに対するトランスファー学習法と画像融合アルゴリズムを用いて,共有運転の視覚認知能力を高めるための車両協調視覚知覚手法を直接提案する。 移動学習に基づいて、物体検出のmAPは75.52%に達し、視覚融合の基礎となる。 また,この融合実験により,人間と車両の協調視覚知覚は最もリスクの高いゾーンを反映し,衝突対象の軌道をより正確に予測できることが明らかとなった。 本研究は,実世界の複雑な交通衝突シナリオにおける共有運転と実験のための協調視覚知覚ソリューションの先駆者であり,自律走行車の今後の計画・制御・安全性向上を支援する。

With the development of key technologies like environment perception, the automation level of autonomous vehicles has been increasing. However, before reaching highly autonomous driving, manual driving still needs to participate in the driving process to ensure the safety of human-vehicle shared driving. The existing human-vehicle cooperative driving focuses on auto engineering and drivers' behaviors, with few research studies in the field of visual perception. Due to the bad performance in the complex road traffic conflict scenarios, cooperative visual perception needs to be studied further. In addition, the autonomous driving perception system cannot correctly understand the characteristics of manual driving. Based on the background above, this paper directly proposes a human-vehicle cooperative visual perception method to enhance the visual perception ability of shared autonomous driving based on the transfer learning method and the image fusion algorithm for the complex road traffic scenarios. Based on transfer learning, the mAP of object detection reaches 75.52% and lays a solid foundation for visual fusion. And the fusion experiment further reveals that human-vehicle cooperative visual perception reflects the riskiest zone and predicts the conflict object's trajectory more precisely. This study pioneers a cooperative visual perception solution for shared autonomous driving and experiments in real-world complex traffic conflict scenarios, which can better support the following planning and controlling and improve the safety of autonomous vehicles.
翻訳日:2021-12-20 16:05:47 公開日:2021-12-17
# 幾何認識暗黙による点雲上の領域適応

Domain Adaptation on Point Clouds via Geometry-Aware Implicits ( http://arxiv.org/abs/2112.09343v1 )

ライセンス: Link先を確認
Yuefan Shen and Yanchao Yang and Mi Yan and He Wang and Youyi Zheng and Leonidas Guibas(参考訳) 一般的な幾何学表現として、ポイントクラウドは3dビジョンで多くの注目を集め、自動運転とロボティクスの多くの応用につながった。 ポイントクラウドで学ぶ上で重要な未解決の問題は、同じ物体の点雲が異なる手順で生成されたり、異なるセンサーで捉えられたりすると、大きな幾何学的なバリエーションを持つ可能性があることである。 これらの矛盾は、あるドメインでトレーニングされたニューラルネットワークが他のドメインを一般化できないようなドメインギャップを引き起こす。 ドメインのギャップを減らす典型的なテクニックは、機能空間内のポイントクラウドが整えるように、逆のトレーニングを実行することです。 しかし、逆行訓練は、容易に退化した局所性ミニマに陥り、負の適応が生じる。 本稿では,一ショットで2つの重要な役割を担う幾何認識暗黙を学習する自己教師型タスクを用いて,点雲上での教師なしドメイン適応の簡易かつ効果的な手法を提案する。 まず、ポイントクラウド内の幾何学的情報は、下流タスクの暗黙の表現を通して保存される。 さらに重要なことに、ドメイン固有のバリエーションは暗黙の空間で効果的に学習することができる。 また,形状モデルの欠如により任意の点雲に対して符号なし距離場を計算する適応戦略を提案する。 タスク損失と組み合わせることで、敵のドメインアライメントとより複雑な自己管理タスクに依存する最先端の非教師なしドメイン適応手法より優れている。 提案手法はPointDA-10とGraspNetの両方のデータセットで評価される。 コードとトレーニングされたモデルは一般公開される。

As a popular geometric representation, point clouds have attracted much attention in 3D vision, leading to many applications in autonomous driving and robotics. One important yet unsolved issue for learning on point cloud is that point clouds of the same object can have significant geometric variations if generated using different procedures or captured using different sensors. These inconsistencies induce domain gaps such that neural networks trained on one domain may fail to generalize on others. A typical technique to reduce the domain gap is to perform adversarial training so that point clouds in the feature space can align. However, adversarial training is easy to fall into degenerated local minima, resulting in negative adaptation gains. Here we propose a simple yet effective method for unsupervised domain adaptation on point clouds by employing a self-supervised task of learning geometry-aware implicits, which plays two critical roles in one shot. First, the geometric information in the point clouds is preserved through the implicit representations for downstream tasks. More importantly, the domain-specific variations can be effectively learned away in the implicit space. We also propose an adaptive strategy to compute unsigned distance fields for arbitrary point clouds due to the lack of shape models in practice. When combined with a task loss, the proposed outperforms state-of-the-art unsupervised domain adaptation methods that rely on adversarial domain alignment and more complicated self-supervised tasks. Our method is evaluated on both PointDA-10 and GraspNet datasets. The code and trained models will be publicly available.
翻訳日:2021-12-20 16:05:25 公開日:2021-12-17
# 医用画像分類とセグメンテーションのための統一2次元および3次元事前訓練

Unified 2D and 3D Pre-training for Medical Image classification and Segmentation ( http://arxiv.org/abs/2112.09356v1 )

ライセンス: Link先を確認
Yutong Xie, Jianpeng Zhang, Yong Xia, Qi Wu(参考訳) 自己教師付き学習(SSL)は、ラベルのないデータを活用するための大きな機会を開く。 アノテーションの欠如で一般的に知られている医用画像解析には不可欠である。 しかし、SSLで可能な限り多くの未ラベルの医療画像を利用しようとすると、次元障壁を破り(2D画像と3D画像の両方を共同で使用できるようにするため)、必須となる。 本稿では,多次元のラベルのない膨大な医療データを活用し,リッチ表現を学習することを目的とした,学生・教師パラダイムに基づくusst(universal self-supervised transformer)フレームワークを提案する。 これを実現するために我々は,切替可能なパッチ埋め込み(spe)層とトランスフォーマー層からなるバックボーンとしてピラミッドトランスフォーマーu-net(ptu)を設計した。 SPE層は入力寸法に応じて2Dまたは3Dパッチの埋め込みに切り替える。 その後、画像は元の寸法に関係なくシーケンスに変換される。 Transformer層は、シーケンス・ツー・シーケンス方式で長期依存関係をモデル化し、USSTが2D画像と3D画像の両方から表現を学習できるようにする。 1) \textbf{more effective} - より多様なデータから表現を学習でき、(2) \textbf{more versatile} - 様々な下流タスクに転送できる。 その結果、USSTは、6つの2D/3D医療画像分類とセグメンテーションタスクに対して有望な結果をもたらし、教師付きImageNet事前学習と高度なSSL処理を著しく上回った。

Self-supervised learning (SSL) opens up huge opportunities for better utilizing unlabeled data. It is essential for medical image analysis that is generally known for its lack of annotations. However, when we attempt to use as many as possible unlabeled medical images in SSL, breaking the dimension barrier (\ie, making it possible to jointly use both 2D and 3D images) becomes a must. In this paper, we propose a Universal Self-Supervised Transformer (USST) framework based on the student-teacher paradigm, aiming to leverage a huge of unlabeled medical data with multiple dimensions to learn rich representations. To achieve this, we design a Pyramid Transformer U-Net (PTU) as the backbone, which is composed of switchable patch embedding (SPE) layers and Transformer layers. The SPE layer switches to either 2D or 3D patch embedding depending on the input dimension. After that, the images are converted to a sequence regardless of their original dimensions. The Transformer layer then models the long-term dependencies in a sequence-to-sequence manner, thus enabling USST to learn representations from both 2D and 3D images. USST has two obvious merits compared to current dimension-specific SSL: (1) \textbf{more effective} - can learn representations from more and diverse data; and (2) \textbf{more versatile} - can be transferred to various downstream tasks. The results show that USST provides promising results on six 2D/3D medical image classification and segmentation tasks, outperforming the supervised ImageNet pre-training and advanced SSL counterparts substantially.
翻訳日:2021-12-20 16:04:58 公開日:2021-12-17
# superstylenet:superp ixelベースのスタイルエンコーダによるディープイメージ合成

SuperStyleNet: Deep Image Synthesis with Superpixel Based Style Encoder ( http://arxiv.org/abs/2112.09367v1 )

ライセンス: Link先を確認
Jonghyun Kim, Gen Li, Cheolkon Jung, Joongkyu Kim(参考訳) 既存の画像合成法では、畳み込み層とプール層をベースとしたスタイルエンコーダを用いて入力画像からスタイルコードを生成する。 しかし、エンコードされたベクトルは、そのようなダウンスケールの手順によって、小さなオブジェクトが「洗い流される」傾向があるため、対応する画像の局所的な情報を含む必要はない。 本稿では,superstylenetと呼ばれるスーパーピクセルベースのエンコーダを用いた深部画像合成を提案する。 まず,スーパーピクセルをベースとしたオリジナル画像からスタイルコードを直接抽出し,局所オブジェクトを考察する。 第2に,図形解析に基づくベクトル化スタイル符号の空間関係を復元する。 そこで,提案するネットワークは,スタイルコードを意味ラベルにマッピングすることで高品質な画像合成を実現する。 実験の結果,提案手法は視覚的品質と定量的測定において最先端の手法よりも優れていた。 さらに,スタイルコードを調整することで,精巧な空間スタイル編集を実現する。

Existing methods for image synthesis utilized a style encoder based on stacks of convolutions and pooling layers to generate style codes from input images. However, the encoded vectors do not necessarily contain local information of the corresponding images since small-scale objects are tended to "wash away" through such downscaling procedures. In this paper, we propose deep image synthesis with superpixel based style encoder, named as SuperStyleNet. First, we directly extract the style codes from the original image based on superpixels to consider local objects. Second, we recover spatial relationships in vectorized style codes based on graphical analysis. Thus, the proposed network achieves high-quality image synthesis by mapping the style codes into semantic labels. Experimental results show that the proposed method outperforms state-of-the-art ones in terms of visual quality and quantitative measurements. Furthermore, we achieve elaborate spatial style editing by adjusting style codes.
翻訳日:2021-12-20 16:04:29 公開日:2021-12-17
# 拡張フレームとイベントベースシミュレータとイベントベースビデオ補間ネットワーク

Enhanced Frame and Event-Based Simulator and Event-Based Video Interpolation Network ( http://arxiv.org/abs/2112.09379v1 )

ライセンス: Link先を確認
Adam Radomski, Andreas Georgiou, Thomas Debrunner, Chenghan Li, Luca Longinotti, Minwon Seo, Moosung Kwak, Chang-Woo Shin, Paul K. J. Park, Hyunsurk Eric Ryu, Kynan Eng(参考訳) 高速ニューロモルフィックなイベントベースの視覚センサ(dynamic vision sensor, dvs)と従来のフレームベースのセンサーを組み合わせることで、例えば光学フローを用いた固定モーション近似に依存する従来の方法よりも高品質なフレーム間補間を可能にする。 本研究では,任意の数のセンサを一定オフセットに配置して,カメラリグで記録された実写的なシーンを再現する,高度なイベントシミュレータを提案する。 リアルな画質低減効果を持つ新しいフレームベースのイメージセンサモデルと、より正確な特性を持つ拡張されたdvsモデルが含まれている。 我々はシミュレーターを用いて、高fpsビデオのエンドツーエンド再生用に設計された新しい再構成モデルを訓練する。 従来の手法とは異なり、我々の手法ではフレームとDVSカメラは同じ光学、位置、カメラの解像度を持つ必要はない。 また、センサーから一定の距離の物体に限ったものではない。 シミュレーションによって生成されたデータは、新しいモデルのトレーニングに利用され、アートの状況と同等あるいはそれ以上の品質の公開データセットで再構成されたイメージにつながります。 また,実際のセンサで記録されたデータに一般化したセンサを示す。

Fast neuromorphic event-based vision sensors (Dynamic Vision Sensor, DVS) can be combined with slower conventional frame-based sensors to enable higher-quality inter-frame interpolation than traditional methods relying on fixed motion approximations using e.g. optical flow. In this work we present a new, advanced event simulator that can produce realistic scenes recorded by a camera rig with an arbitrary number of sensors located at fixed offsets. It includes a new configurable frame-based image sensor model with realistic image quality reduction effects, and an extended DVS model with more accurate characteristics. We use our simulator to train a novel reconstruction model designed for end-to-end reconstruction of high-fps video. Unlike previously published methods, our method does not require the frame and DVS cameras to have the same optics, positions, or camera resolutions. It is also not limited to objects a fixed distance from the sensor. We show that data generated by our simulator can be used to train our new model, leading to reconstructed images on public datasets of equivalent or better quality than the state of the art. We also show our sensor generalizing to data recorded by real sensors.
翻訳日:2021-12-20 16:04:17 公開日:2021-12-17
# 能動生活と支援生活のための視覚プライバシー保護技術のレビュー

A Review on Visual Privacy Preservation Techniques for Active and Assisted Living ( http://arxiv.org/abs/2112.09422v1 )

ライセンス: Link先を確認
Siddharth Ravi, Pau Climent-P\'erez, Francisco Florez-Revuelta(参考訳) 本稿では,視覚的プライバシ保護技術の現状を概観し,アクティブ・アシスト生活(AAL)分野に適用可能な技術に特に注目する。 最先端の視覚的プライバシ保護方法を分類できる新しい分類法を導入する。 分類学のカテゴリーである知覚的難読化法が強調される。 これらは、ビデオベースのAAL監視のシナリオを考える際に特に重要となる、視覚的プライバシ保護技術のカテゴリである。 機械学習モデルに対する難読化も検討されている。 設計によるプライバシの異なるレベルの高レベル分類スキームは、視覚プライバシ保存技法の分類法に関連付けられている。 最後に、この分野に存在するオープンな質問に注目し、視覚プライバシの分野における今後の研究のために、読者にエキサイティングな方法を紹介します。

This paper reviews the state of the art in visual privacy protection techniques, with particular attention paid to techniques applicable to the field of active and assisted living (AAL). A novel taxonomy with which state-of-the-art visual privacy protection methods can be classified is introduced. Perceptual obfuscation methods, a category in the taxonomy, is highlighted. These are a category of visual privacy preservation techniques particularly relevant when considering scenarios that come under video-based AAL monitoring. Obfuscation against machine learning models is also explored. A high-level classification scheme of the different levels of privacy by design is connected to the proposed taxonomy of visual privacy preservation techniques. Finally, we note open questions that exist in the field and introduce the reader to some exciting avenues for future research in the area of visual privacy.
翻訳日:2021-12-20 16:03:57 公開日:2021-12-17
# siamtrans:事前訓練されたsiameseトランスフォーマーによるゼロショットマルチフレーム画像復元

SiamTrans: Zero-Shot Multi-Frame Image Restoration with Pre-Trained Siamese Transformers ( http://arxiv.org/abs/2112.09426v1 )

ライセンス: Link先を確認
Lin Liu, Shanxin Yuan, Jianzhuang Liu, Xin Guo, Youliang Yan, Qi Tian(参考訳) 本研究では, 連続するフレームに異なる不要な閉塞要素(雨, 雪, モアレパターンなど)を除去するゼロショット多フレーム画像復元手法を提案する。 トランスフォーマープリトレーニング、ゼロショット修復、ハードパッチの改良の3段階がある。 事前学習されたトランスフォーマを使用して,本モデルでは,実画像情報と閉塞要素の動作差を推定できる。 ゼロショット画像復元のために、シャムトランスと呼ばれる新しいモデルを設計し、シャムトランス、エンコーダ、デコーダによって構築する。 各トランスは時間的注意層と複数の自己注意層を有し、複数のフレームの時間的情報と空間的情報の両方をキャプチャする。 siamtransは、事前訓練された(自己監督)タスクのみで、3つの異なる低レベルのビジョンタスク(デレーディング、デモレーディング、デソーシング)でテストされる。 関連手法と比較すると,教師付き学習よりも優れた成績を得られる。

We propose a novel zero-shot multi-frame image restoration method for removing unwanted obstruction elements (such as rains, snow, and moire patterns) that vary in successive frames. It has three stages: transformer pre-training, zero-shot restoration, and hard patch refinement. Using the pre-trained transformers, our model is able to tell the motion difference between the true image information and the obstructing elements. For zero-shot image restoration, we design a novel model, termed SiamTrans, which is constructed by Siamese transformers, encoders, and decoders. Each transformer has a temporal attention layer and several self-attention layers, to capture both temporal and spatial information of multiple frames. Only pre-trained (self-supervised) on the denoising task, SiamTrans is tested on three different low-level vision tasks (deraining, demoireing, and desnowing). Compared with related methods, ours achieves the best performances, even outperforming those with supervised learning.
翻訳日:2021-12-20 16:02:58 公開日:2021-12-17
# 3次元スパース畳み込みネットワークのダイナミックスアウェア逆攻撃

Dynamics-aware Adversarial Attack of 3D Sparse Convolution Network ( http://arxiv.org/abs/2112.09428v1 )

ライセンス: Link先を確認
An Tao and Yueqi Duan and He Wang and Ziyi Wu and Pengliang Ji and Haowen Sun and Jie Zhou and Jiwen Lu(参考訳) 本稿では,ディープニューラルネットワークにおけるダイナミクス・アウェア・アドバーサリー・アタック問題について検討する。 既存の攻撃アルゴリズムの多くは、基本的な前提の下で設計されている -- ネットワークアーキテクチャは攻撃プロセスを通じて固定されている。 しかし、この仮定は近年提案されている3次元スパース畳み込みネットワークなど、計算効率を向上させるために入力依存の実行を含む多くのネットワークには当てはまらない。 結果として、遅延勾配の深刻な問題が発生し、アーキテクチャ変更後の現在のステップでの学習された攻撃が非効率になる。 この問題に対処するため,本研究ではリード勾配法(lgm)を提案し,遅延勾配の有意な影響を示す。 より具体的には、ネットワークアーキテクチャの潜在的な動的変化を認識するために勾配を再定式化し、ネットワークアーキテクチャが動的に変化するときの動的なメソッドよりも、学習した攻撃が次のステップを「リード」するようにします。 各種データセットに対する大規模な実験により,LGMはセマンティックセグメンテーションと分類において優れた性能を発揮することが示された。 動的無意識の手法と比較して、LGMはScanNetとS3DISデータセットで平均20%低いmIoUを達成する。 LGMは最近のクラウド攻撃よりも優れています。

In this paper, we investigate the dynamics-aware adversarial attack problem in deep neural networks. Most existing adversarial attack algorithms are designed under a basic assumption -- the network architecture is fixed throughout the attack process. However, this assumption does not hold for many recently proposed networks, e.g. 3D sparse convolution network, which contains input-dependent execution to improve computational efficiency. It results in a serious issue of lagged gradient, making the learned attack at the current step ineffective due to the architecture changes afterward. To address this issue, we propose a Leaded Gradient Method (LGM) and show the significant effects of the lagged gradient. More specifically, we re-formulate the gradients to be aware of the potential dynamic changes of network architectures, so that the learned attack better "leads" the next step than the dynamics-unaware methods when network architecture changes dynamically. Extensive experiments on various datasets show that our LGM achieves impressive performance on semantic segmentation and classification. Compared with the dynamic-unaware methods, LGM achieves about 20% lower mIoU averagely on the ScanNet and S3DIS datasets. LGM also outperforms the recent point cloud attacks.
翻訳日:2021-12-20 16:02:41 公開日:2021-12-17
# 行動認識のためのヒューマン・オブジェクト相互作用コンテキストの蒸留

Distillation of Human-Object Interaction Contexts for Action Recognition ( http://arxiv.org/abs/2112.09448v1 )

ライセンス: Link先を確認
Muna Almushyti and Frederick W. Li(参考訳) 空間的時間的関係のモデル化は、特に人間が物体と相互作用している場合において、人間の行動を認識するために不可欠である。 既存のアクション認識モデルはシーンの視覚的な手がかりを学習することに集中しているが、人間とオブジェクトの関係やインタラクションを学習することで得られる、情報的な細かな特徴を無視している。 本稿では,局所的およびグローバル的文脈の相互作用を利用して,人間と対象の関係を学習する。 そこで我々はGlobal-Local Interaction Distillation Network (GLIDN)を提案する。 glidnは人間とオブジェクトをグラフノードにエンコードし、グラフアテンションネットワークを介してローカルとグローバルの関係を学ぶ。 局所コンテキストグラフは、特定の時間ステップで共起を捉えて、フレームレベルで人間とオブジェクトの関係を学習する。 大域関係グラフは、人間と物体の相互作用の映像レベルに基づいて構築され、それらの長期関係をビデオシーケンスを通して識別する。 さらに重要なことは、これらのグラフからの知識を、人間と物体の相互作用(HOI)認識を改善するために、どのように蒸留するかを検討することである。 シャーレードとcad-120データセットを含む2つのデータセットについて包括的実験を行い,本モデルの評価を行った。 私たちはベースラインや他のアプローチよりも優れた結果を得ました。

Modeling spatial-temporal relations is imperative for recognizing human actions, especially when a human is interacting with objects, while multiple objects appear around the human differently over time. Most existing action recognition models focus on learning overall visual cues of a scene but disregard informative fine-grained features, which can be captured by learning human-object relationships and interactions. In this paper, we learn human-object relationships by exploiting the interaction of their local and global contexts. We hence propose the Global-Local Interaction Distillation Network (GLIDN), learning human and object interactions through space and time via knowledge distillation for fine-grained scene understanding. GLIDN encodes humans and objects into graph nodes and learns local and global relations via graph attention network. The local context graphs learn the relation between humans and objects at a frame level by capturing their co-occurrence at a specific time step. The global relation graph is constructed based on the video-level of human and object interactions, identifying their long-term relations throughout a video sequence. More importantly, we investigate how knowledge from these graphs can be distilled to their counterparts for improving human-object interaction (HOI) recognition. We evaluate our model by conducting comprehensive experiments on two datasets including Charades and CAD-120 datasets. We have achieved better results than the baselines and counterpart approaches.
翻訳日:2021-12-20 16:02:21 公開日:2021-12-17
# ディープメトリックラーニングによる視覚マイクロフォスシル識別

Visual Microfossil Identificationvia Deep Metric Learning ( http://arxiv.org/abs/2112.09490v1 )

ライセンス: Link先を確認
Tayfun Karaderi, Tilo Burghardt, Allison Y. Hsiang, Jacob Ramaer, Daniela N. Schmidt(参考訳) 顕微鏡画像上におけるプランクティック・フォアミニファー貝殻の分類法として,初めて深度計測学習を適用した。 この種認識タスクは、過去の気候を再構築するための重要な情報源および科学的柱である。 文献中のすべてのforaminifer cnn認識パイプラインは、人間の専門家の視覚化オプションがなく、オープンセット問題に適用できないブラックボックス分類器を生成する。 ここでは,これらのパイプラインに対して計量学習をベンチマークし,表現型プランクティック・フォアミニファー・モルフォロジー空間を初めて科学的に可視化し,トレーニング中に見つからない種をクラスタリングするためにメートル法学習を用いることを実証する。 この領域では、メトリクス学習がCNNベースの最先端ベンチマークを全て上回ることを示す。 本稿は,35種の現生プラクティック・フォアミニフェラ種からなるEndless Forams公立図書館の34,640名の専門家による注釈画像に対するアプローチを評価する。 このデータによる結果は、保持されていないテストデータで専門家ラベルを再現する場合の92%の精度(0.84 f1-score)、クラスタリング種が訓練中に遭遇しない場合の66.5%の精度(0.70 f1-score)を示す。 我々は,この領域においてメトリック学習は極めて効果的であり,マイクロフォスシル識別のエキスパート・イン・ザ・ループ自動化のための重要なツールである,と結論づける。 本論文では、鍵コード、ネットワーク重み、データ分割を完全な再現性のために公開する。

We apply deep metric learning for the first time to the prob-lem of classifying planktic foraminifer shells on microscopic images. This species recognition task is an important information source and scientific pillar for reconstructing past climates. All foraminifer CNN recognition pipelines in the literature produce black-box classifiers that lack visualisation options for human experts and cannot be applied to open set problems. Here, we benchmark metric learning against these pipelines, produce the first scientific visualisation of the phenotypic planktic foraminifer morphology space, and demonstrate that metric learning can be used to cluster species unseen during training. We show that metric learning out-performs all published CNN-based state-of-the-art benchmarks in this domain. We evaluate our approach on the 34,640 expert-annotated images of the Endless Forams public library of 35 modern planktic foraminifera species. Our results on this data show leading 92% accuracy (at 0.84 F1-score) in reproducing expert labels on withheld test data, and 66.5% accuracy (at 0.70 F1-score) when clustering species never encountered in training. We conclude that metric learning is highly effective for this domain and serves as an important tool towards expert-in-the-loop automation of microfossil identification. Key code, network weights, and data splits are published with this paper for full reproducibility.
翻訳日:2021-12-20 16:01:58 公開日:2021-12-17
# 3次元スキャンによるディープラーニングに基づく6次元ビンポーズ推定

Towards Deep Learning-based 6D Bin Pose Estimation in 3D Scans ( http://arxiv.org/abs/2112.09598v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Gajdo\v{s}ech, Viktor Kocur, Martin Stuchl\'ik, Luk\'a\v{s} Hudec, Martin Madaras(参考訳) 自動化されたロボットシステムは可能な限り堅牢で、一般的にはフェールセーフでなければならない。 深層学習に基づく手法は、3Dスキャンと画像処理タスクへのアプローチの標準となっているが、このデータ処理の業界標準はまだ分析ベースである。 本稿では, 分析手法はより堅牢で, テスト, 更新, メンテナンスが困難であると主張している。 本稿では3次元スキャンにおけるビンの6次元ポーズ推定の特定のタスクに焦点を当てる。 そこで本研究では, 高精度なアノテーションを用いた構造化光スキャナーにより, 合成データと実スキャンからなる高品質なデータセットを提案する。 さらに,6次元ビンポーズ推定法,産業標準としての分析法,ベースラインデータ駆動方式の2つの異なる手法を提案する。 両者のアプローチは相互評価され,実スキャンのトレーニングを合成データで強化することで,提案するデータ駆動ニューラルモデルが改善されることを示す。 提案手法は,今後拡張する計画である比較的小さな初期データセットに基づいて訓練され,評価されるので,予備的である。

An automated robotic system needs to be as robust as possible and fail-safe in general while having relatively high precision and repeatability. Although deep learning-based methods are becoming research standard on how to approach 3D scan and image processing tasks, the industry standard for processing this data is still analytically-based. Our paper claims that analytical methods are less robust and harder for testing, updating, and maintaining. This paper focuses on a specific task of 6D pose estimation of a bin in 3D scans. Therefore, we present a high-quality dataset composed of synthetic data and real scans captured by a structured-light scanner with precise annotations. Additionally, we propose two different methods for 6D bin pose estimation, an analytical method as the industrial standard and a baseline data-driven method. Both approaches are cross-evaluated, and our experiments show that augmenting the training on real scans with synthetic data improves our proposed data-driven neural model. This position paper is preliminary, as proposed methods are trained and evaluated on a relatively small initial dataset which we plan to extend in the future.
翻訳日:2021-12-20 16:01:34 公開日:2021-12-17
# スキー選手による軌道の映像的再構成

Video-Based Reconstruction of the Trajectories Performed by Skiers ( http://arxiv.org/abs/2112.09647v1 )

ライセンス: Link先を確認
Matteo Dunnhofer, Alberto Zurini, Maurizio Dunnhofer, Christian Micheloni(参考訳) 軌道は異なるスキー分野において基本的なものである。 このような曲線を解析可能なツールは、トレーニング活動を強化し、放送内容を強化することができる。 しかし、現在利用可能なソリューションは、ジオローカライズされたセンサーとサーフェスモデルに基づいている。 本稿では,競技選手が競技中に横断する点のシーケンスをビデオベースで再構成する手法を提案する。 我々のプロトタイプは、アスリートの動きを再現し、カメラの視点でそれを視覚化するためのディープラーニングベースのアルゴリズムのパイプラインで構成されています。 これは、カメラのキャリブレーションなしで野生の様々なスキー競技で達成される。 私たちは、アルペンスキーやスキージャンプのプロの競技会の放送やスマートフォンで撮影されたビデオでソリューションをテストしました。 定性的な結果が我々の解決策の可能性を示している。

Trajectories are fundamental in different skiing disciplines. Tools enabling the analysis of such curves can enhance the training activity and enrich the broadcasting contents. However, the solutions currently available are based on geo-localized sensors and surface models. In this short paper, we propose a video-based approach to reconstruct the sequence of points traversed by an athlete during its performance. Our prototype is constituted by a pipeline of deep learning-based algorithms to reconstruct the athlete's motion and to visualize it according to the camera perspective. This is achieved for different skiing disciplines in the wild without any camera calibration. We tested our solution on broadcast and smartphone-captured videos of alpine skiing and ski jumping professional competitions. The qualitative results achieved show the potential of our solution.
翻訳日:2021-12-20 16:01:15 公開日:2021-12-17
# パッチワープによるニューラル暗黙表面形状の改善

Improving neural implicit surfaces geometry with patch warping ( http://arxiv.org/abs/2112.09648v1 )

ライセンス: Link先を確認
Fran\c{c}ois Darmon, B\'en\'edicte Bascle, Jean-Cl\'ement Devaux, Pascal Monasse, Mathieu Aubry(参考訳) 神経暗黙的表面はマルチビュー3d再構成の重要な技術となっているが、精度は限られている。 本稿では,ニューラルネットワークを用いた高頻度テクスチャの学習と描画が困難であることから,この問題を論じる。 そこで本研究では,標準のニューラルレンダリング最適化に,異なるビューにまたがる直接的フォトコンシスタンス項を追加することを提案する。 直感的には、暗黙の幾何学を最適化し、相互に一貫した方法で視点をゆがめる。 2つの要素がそのようなアプローチの成功の鍵であることを実証する。 (i)各線に沿った3d点の占有率と正規値の予測を用いてパッチ全体を反動させ、その類似性をロバストな構造類似性(ssim)で測定する。 (ii)不正確なワープがあまり重要でないように視認性や咬合を扱いながら、可能な限り完全な再構築を奨励する。 我々は、標準的なDTUおよびEPFLベンチマークでNeuralWarpと呼ばれるアプローチを評価し、両方のデータセットにおいて、教師なしの暗黙的表面再構成の状態を20%以上向上させることを示す。

Neural implicit surfaces have become an important technique for multi-view 3D reconstruction but their accuracy remains limited. In this paper, we argue that this comes from the difficulty to learn and render high frequency textures with neural networks. We thus propose to add to the standard neural rendering optimization a direct photo-consistency term across the different views. Intuitively, we optimize the implicit geometry so that it warps views on each other in a consistent way. We demonstrate that two elements are key to the success of such an approach: (i) warping entire patches, using the predicted occupancy and normals of the 3D points along each ray, and measuring their similarity with a robust structural similarity (SSIM); (ii) handling visibility and occlusion in such a way that incorrect warps are not given too much importance while encouraging a reconstruction as complete as possible. We evaluate our approach, dubbed NeuralWarp, on the standard DTU and EPFL benchmarks and show it outperforms state of the art unsupervised implicit surfaces reconstructions by over 20% on both datasets.
翻訳日:2021-12-20 16:01:06 公開日:2021-12-17
# exemplar transformer を用いた効率的な視覚追跡

Efficient Visual Tracking with Exemplar Transformers ( http://arxiv.org/abs/2112.09686v1 )

ライセンス: Link先を確認
Philippe Blatter, Menelaos Kanakis, Martin Danelljan, Luc Van Gool(参考訳) より複雑で強力なニューラルネットワークモデルの設計は、視覚オブジェクト追跡の最先端を著しく前進させた。 これらの進歩は、より深いネットワーク、あるいはトランスフォーマーのような新しいビルディングブロックの導入に起因する可能性がある。 しかし、トラッキング性能の向上を追求する中で、効率的なトラッキングアーキテクチャは驚くほど注目されていない。 本稿では,リアルタイム物体追跡のための効率的な変換器であるExemplar Transformerを紹介する。 Exemplar Transformerレイヤを組み込んだビジュアルトラッカーであるE.T.Trackは、CPU上で47fpsで動作する。 これは他のトランスフォーマーベースのモデルよりも最大8倍高速で、リアルタイムトランスフォーマーベースのトラッカーとしては唯一のものである。 標準CPU上でリアルタイムに動作可能な軽量トラッカーと比較して、E.T.TrackはLaSOT, OTB-100, NFS, TrackingNet, VOT-ST2020データセット上の他のすべてのメソッドを一貫して上回っている。 コードは近くhttps://github.com/v isionml/pytrackingでリリースされる。

The design of more complex and powerful neural network models has significantly advanced the state-of-the-art in visual object tracking. These advances can be attributed to deeper networks, or to the introduction of new building blocks, such as transformers. However, in the pursuit of increased tracking performance, efficient tracking architectures have received surprisingly little attention. In this paper, we introduce the Exemplar Transformer, an efficient transformer for real-time visual object tracking. E.T.Track, our visual tracker that incorporates Exemplar Transformer layers, runs at 47 fps on a CPU. This is up to 8 times faster than other transformer-based models, making it the only real-time transformer-based tracker. When compared to lightweight trackers that can operate in real-time on standard CPUs, E.T.Track consistently outperforms all other methods on the LaSOT, OTB-100, NFS, TrackingNet and VOT-ST2020 datasets. The code will soon be released on https://github.com/v isionml/pytracking.
翻訳日:2021-12-20 15:59:45 公開日:2021-12-17
# 半教師付き動作認識のためのクロスモデル擬似ラベル

Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition ( http://arxiv.org/abs/2112.09690v1 )

ライセンス: Link先を確認
Yinghao Xu, Fangyun Wei, Xiao Sun, Ceyuan Yang, Yujun Shen, Bo Dai, Bolei Zhou, Stephen Lin(参考訳) 半教師付きアクション認識は、データアノテーションのコストが高いため、難しいが重要なタスクである。 この問題に対する一般的なアプローチは、ラベルのないデータを擬似ラベルで割り当て、トレーニングにおける追加の監督として使用することである。 最近の研究では、擬似ラベルはラベル付きデータ上でモデルを訓練し、モデルから自信ある予測を用いて自身を教えることによって得られる。 本研究では,Cross-Model Pseudo-Labeling (CMPL) と呼ばれる,より効果的な擬似ラベル方式を提案する。 具体的には,プライマリバックボーンに加えて,軽量な補助ネットワークを導入し,相互に擬似ラベルの予測を依頼する。 構造バイアスが異なるため、これらの2つのモデルは、同じビデオクリップから相補的な表現を学習する傾向にある。 したがって、各モデルは、相互モデルの予測を監督として利用することで、そのモデルの利点を享受できる。 異なるデータ分割プロトコルに関する実験は、既存の代替案よりもフレームワークの大幅な改善を示しています。 例えば、CMPLは、RGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101で17.6\%と25.1\%のTop-1精度を達成し、ベースラインモデルであるFixMatchをそれぞれ9.0\%と10.3\%で上回る。

Semi-supervised action recognition is a challenging but important task due to the high cost of data annotation. A common approach to this problem is to assign unlabeled data with pseudo-labels, which are then used as additional supervision in training. Typically in recent work, the pseudo-labels are obtained by training a model on the labeled data, and then using confident predictions from the model to teach itself. In this work, we propose a more effective pseudo-labeling scheme, called Cross-Model Pseudo-Labeling (CMPL). Concretely, we introduce a lightweight auxiliary network in addition to the primary backbone, and ask them to predict pseudo-labels for each other. We observe that, due to their different structural biases, these two models tend to learn complementary representations from the same video clips. Each model can thus benefit from its counterpart by utilizing cross-model predictions as supervision. Experiments on different data partition protocols demonstrate the significant improvement of our framework over existing alternatives. For example, CMPL achieves $17.6\%$ and $25.1\%$ Top-1 accuracy on Kinetics-400 and UCF-101 using only the RGB modality and $1\%$ labeled data, outperforming our baseline model, FixMatch, by $9.0\%$ and $10.3\%$, respectively.
翻訳日:2021-12-20 15:59:29 公開日:2021-12-17
# Top-k$ Masking によるパス検索のためのスパース表現

Sparsifying Sparse Representations for Passage Retrieval by Top-$k$ Masking ( http://arxiv.org/abs/2112.09628v1 )

ライセンス: Link先を確認
Jheng-Hong Yang, Xueguang Ma, Jimmy Lin(参考訳) 疎語彙表現学習は、DeepImpact、uniCOIL、SPLADEといった近年のモデルにおいて、パス検索の有効性を向上する上で大きな進歩を示している。 本稿では,スパルサリティ制御のためのトップ$k$マスキングスキームと,非マスキング表現を模倣するためにマスキング表現をコックスする自己学習手法を導入することで,パス検索の語彙表現をスパーサライズするための単純かつ効果的なアプローチについて述べる。 我々のモデルの基本実装は、より洗練されたアプローチと競合し、有効性と効率のバランスが良い。 本手法の単純さは,経路探索のための語彙表現学習における今後の探索の扉を開く。

Sparse lexical representation learning has demonstrated much progress in improving passage retrieval effectiveness in recent models such as DeepImpact, uniCOIL, and SPLADE. This paper describes a straightforward yet effective approach for sparsifying lexical representations for passage retrieval, building on SPLADE by introducing a top-$k$ masking scheme to control sparsity and a self-learning method to coax masked representations to mimic unmasked representations. A basic implementation of our model is competitive with more sophisticated approaches and achieves a good balance between effectiveness and efficiency. The simplicity of our methods opens the door for future explorations in lexical representation learning for passage retrieval.
翻訳日:2021-12-20 15:59:05 公開日:2021-12-17
# DNA: 動的ネットワーク拡張

DNA: Dynamic Network Augmentation ( http://arxiv.org/abs/2112.09277v1 )

ライセンス: Link先を確認
Scott Mahan, Tim Doster, Henry Kvinge(参考訳) 多くの分類問題では、非意味変換の範囲に頑健な分類器が求められている。 例えば、人間は、向きに関係なく写真の中の犬を識別し、その姿を示すことができる。 この種の不変性は、機械学習モデルの精度と一般化を著しく向上させることができるという証拠がかなりある。 モデル幾何学的不変性を教える一般的なテクニックは、変換された入力でトレーニングデータを増強することである。 しかし、与えられた分類タスクに対してどの不変性が望ましいかは必ずしも分かっていない。 効果的なデータ拡張ポリシーを決定するには、ドメインの専門知識や広範なデータ前処理が必要です。 最近のautoaugmentのような取り組みは、拡張処理を自動化するためにデータ拡張ポリシーのパラメータ化された検索空間を最適化する。 オートオーグメントと類似の手法は、いくつかの一般的なデータセットで最先端の分類精度を達成するが、それらは1つのデータ拡張ポリシーを学ぶことに限定される。 しばしば異なるクラスや特徴が異なる幾何学的不変性を求める。 入力条件拡張ポリシーを学習する動的ネットワーク拡張(DNA)を導入する。 このモデルの拡張パラメータはニューラルネットワークの出力であり、ネットワークの重み付けが更新されると暗黙的に学習される。 我々のモデルは動的拡張ポリシーを可能にし、入力特徴に条件付き幾何変換を持つデータに対してうまく機能する。

In many classification problems, we want a classifier that is robust to a range of non-semantic transformations. For example, a human can identify a dog in a picture regardless of the orientation and pose in which it appears. There is substantial evidence that this kind of invariance can significantly improve the accuracy and generalization of machine learning models. A common technique to teach a model geometric invariances is to augment training data with transformed inputs. However, which invariances are desired for a given classification task is not always known. Determining an effective data augmentation policy can require domain expertise or extensive data pre-processing. Recent efforts like AutoAugment optimize over a parameterized search space of data augmentation policies to automate the augmentation process. While AutoAugment and similar methods achieve state-of-the-art classification accuracy on several common datasets, they are limited to learning one data augmentation policy. Often times different classes or features call for different geometric invariances. We introduce Dynamic Network Augmentation (DNA), which learns input-conditional augmentation policies. Augmentation parameters in our model are outputs of a neural network and are implicitly learned as the network weights are updated. Our model allows for dynamic augmentation policies and performs well on data with geometric transformations conditional on input features.
翻訳日:2021-12-20 15:57:49 公開日:2021-12-17
# 特徴抽出と分類アルゴリズムは、どちらがより不可欠か? 振動信号診断の具体的課題に関する実験的検討

Feature extraction and classification algorithm, which one is more essential? An experimental study on a specific task of vibration signal diagnosis ( http://arxiv.org/abs/2112.09389v1 )

ライセンス: Link先を確認
Qiang Liu (1), Jiade Zhang (2), Jingna Liu (3) and Zhi Yang (1)(参考訳) 機械学習の開発により、データ駆動モデルが振動信号障害診断に広く使われている。 ほとんどのデータ駆動機械学習アルゴリズムは、よく設計された特徴に基づいて構築されているが、機能抽出は通常、事前に完了する必要がある。 ディープラーニング時代には,特徴抽出と分類学習を同時に行うことにより,エンドツーエンド学習システムを実現する。 本稿では,学習システムにおける振動信号診断の特定のタスクにおいて,特徴抽出と分類アルゴリズムの2つの重要な要素のうちの1つが重要であるかを検討する。 良く知られたガウスモデルと統計特性に基づく振動信号の特徴抽出について考察した。 また,いくつかの分類アルゴリズムを選択し,特徴抽出と分類アルゴリズムが予測性能に与える影響を実験的に検証した。

With the development of machine learning, a data-driven model has been widely used in vibration signal fault diagnosis. Most data-driven machine learning algorithms are built based on well-designed features, but feature extraction is usually required to be completed in advance. In the deep learning era, feature extraction and classifier learning are conducted simultaneously, which will lead to an end-to-end learning system. This paper explores which one of the two key factors, i.e., feature extraction and classification algorithm, is more essential for a specific task of vibration signal diagnosis during a learning system is generated. Feature extractions from vibration signal based on both well-known Gaussian model and statistical characteristics are discussed, respectively. And several classification algorithms are selected to experimentally validate the comparative impact of both feature extraction and classification algorithm on prediction performance.
翻訳日:2021-12-20 15:56:34 公開日:2021-12-17
# Markov Chain Aggregationによる半スーパービジョンクラスタリング

Semi-Supervised Clustering via Markov Chain Aggregation ( http://arxiv.org/abs/2112.09397v1 )

ライセンス: Link先を確認
Sophie Steger and Bernhard C. Geiger and Marek Smieja(参考訳) 半教師付きクラスタリングの問題をマルコフ連鎖の状態空間を分割するタスクという制約付きマルコフ集約に結びつける。 我々は,データセット内のすべてのデータポイントをマルコフ連鎖の状態空間の要素として考慮し,対応するデータポイント間の類似性を通じて状態間の遷移確率を定義し,半スーパービジョン情報をハーディガン型アルゴリズムにハード制約として組み込むことにより,この接続を実現する。 導入された制約付きマルコフクラスタリング(CoMaC)は、(教師なし)マルコフ集約のための最近の情報理論フレームワークを半教師付きケースに拡張したものである。 パラメータ設定のためのCoMaCを確立することで、教師なしクラスタリングのための2つの以前の情報理論の目的をさらに一般化する。 以上の結果から,CoMaCは最先端技術と競合していることがわかった。 さらに,本手法は,ラベル付きデータが少ない半教師付き設定では特に魅力的である非教師付き設定よりも,ハイパーパラメータ設定に敏感である。

We connect the problem of semi-supervised clustering to constrained Markov aggregation, i.e., the task of partitioning the state space of a Markov chain. We achieve this connection by considering every data point in the dataset as an element of the Markov chain's state space, by defining the transition probabilities between states via similarities between corresponding data points, and by incorporating semi-supervision information as hard constraints in a Hartigan-style algorithm. The introduced Constrained Markov Clustering (CoMaC) is an extension of a recent information-theoreti c framework for (unsupervised) Markov aggregation to the semi-supervised case. Instantiating CoMaC for certain parameter settings further generalizes two previous information-theoreti c objectives for unsupervised clustering. Our results indicate that CoMaC is competitive with the state-of-the-art. Furthermore, our approach is less sensitive to hyperparameter settings than the unsupervised counterpart, which is especially attractive in the semi-supervised setting characterized by little labeled data.
翻訳日:2021-12-20 15:56:22 公開日:2021-12-17
# 機械学習におけるデータの質

Quality of Data in Machine Learning ( http://arxiv.org/abs/2112.09400v1 )

ライセンス: Link先を確認
Antti Kariluoto, Arto P\"arn\"anen, Joni Kultanen, Jukka Soininen, Pekka Abrahamsson(参考訳) 学習すべきデータが増えると、機械学習モデルがパフォーマンスを改善するという一般的な仮定が存在する。 本研究では,新しい職業学生データを用いて経験実験を行い,ジレンマを明らかにすることを目的とした。 実験では、異なる機械学習アルゴリズムを比較し、モデルのトレーニングとテストに利用可能なデータ数と機能の組み合わせを変化させた。 実験により,データ記録やサンプル周波数の増加は,モデルアキュラティや性能の大幅な向上には至らないが,アンサンブルモデルではアキュラティのばらつきが減少することが明らかとなった。 同様の現象がモデルの入力機能数を増加させながら観測された。 この研究は、開始前提に反論し、この場合のデータの重要性は、データの量ではなく、データの品質にあることを述べ続けている。

A common assumption exists according to which machine learning models improve their performance when they have more data to learn from. In this study, the authors wished to clarify the dilemma by performing an empirical experiment utilizing novel vocational student data. The experiment compared different machine learning algorithms while varying the number of data and feature combinations available for training and testing the models. The experiment revealed that the increase of data records or their sample frequency does not immediately lead to significant increases in the model accuracies or performance, however the variance of accuracies does diminish in the case of ensemble models. Similar phenomenon was witnessed while increasing the number of input features for the models. The study refutes the starting assumption and continues to state that in this case the significance in data lies in the quality of the data instead of the quantity of the data.
翻訳日:2021-12-20 15:56:05 公開日:2021-12-17
# ActKnow:低データレジームにおける質問応答のための能動的外部知識注入学習

ActKnow: Active External Knowledge Infusion Learning for Question Answering in Low Data Regime ( http://arxiv.org/abs/2112.09423v1 )

ライセンス: Link先を確認
K. M. Annervaz, Pritam Kumar Nath, Ambedkar Dukkipati(参考訳) ディープラーニングモデルでは、さまざまな自然言語処理タスクでベンチマーク結果が設定されている。 しかし、これらのモデルには膨大なトレーニングデータが必要であり、多くの実用的な問題では実現不可能である。 ドメイン適応やスナップショット学習といった様々な手法がこの問題に対処する一方で,低データ体制の問題を解決するための学習に外部知識を積極的に注入する新たな手法を導入する。 本稿では,知識グラフ(KG)に基づく「オンデマンド」から質問応答学習に積極的に知識を注入するActKnowという手法を提案する。 概念ネットから世界知識を注入することにより、低データ構造におけるRoBERTaのような純粋テキストベースのトランスフォーマーモデルよりもARC Challenge-setベンチマークが大幅に改善されたことを示す。 例えば、たった20%のトレーニング例を使用して、ARC-challengeとOpenBookQAの精度をそれぞれ4%改善したことを示す。

Deep learning models have set benchmark results in various Natural Language Processing tasks. However, these models require an enormous amount of training data, which is infeasible in many practical problems. While various techniques like domain adaptation, fewshot learning techniques address this problem, we introduce a new technique of actively infusing external knowledge into learning to solve low data regime problems. We propose a technique called ActKnow that actively infuses knowledge from Knowledge Graphs (KG) based "on-demand" into learning for Question Answering (QA). By infusing world knowledge from Concept-Net, we show significant improvements on the ARC Challenge-set benchmark over purely text-based transformer models like RoBERTa in the low data regime. For example, by using only 20% training examples, we demonstrate a 4% improvement in the accuracy for both ARC-challenge and OpenBookQA, respectively.
翻訳日:2021-12-20 15:55:52 公開日:2021-12-17
# 無機材料生成のための結合型vae

A Binded VAE for Inorganic Material Generation ( http://arxiv.org/abs/2112.09570v1 )

ライセンス: Link先を確認
Fouad Oubari, Antoine de Mathelin, Rodrigue D\'ecatoire, Mathilde Mougeot(参考訳) 望ましい性質を持つ新しい工業材料を設計することは、非常に高価で時間がかかります。 主な困難は、現実的な物質に対応する化合物を生成することである。 実際、成分の比率のベクトルとしての化合物の記述は、離散的特徴と厳しいスパーシティによって特徴づけられる。 さらに、視覚的検証やfid、インセプションスコアといった従来の生成モデル検証プロセスは、画像用に調整されており、このコンテキストでは使用できない。 これらの問題に対処するため,我々は分離データセット生成に特化したバインド・ベイモデルを開発した。 化合物生成問題に適応した新しい指標でモデルを検証した。 ゴム複合設計の真の課題として,提案手法が材料設計最適化の新しい視点を開く標準生成モデルよりも優れていることを示す。

Designing new industrial materials with desired properties can be very expensive and time consuming. The main difficulty is to generate compounds that correspond to realistic materials. Indeed, the description of compounds as vectors of components' proportions is characterized by discrete features and a severe sparsity. Furthermore, traditional generative model validation processes as visual verification, FID and Inception scores are tailored for images and cannot then be used as such in this context. To tackle these issues, we develop an original Binded-VAE model dedicated to the generation of discrete datasets with high sparsity. We validate the model with novel metrics adapted to the problem of compounds generation. We show on a real issue of rubber compound design that the proposed approach outperforms the standard generative models which opens new perspectives for material design optimization.
翻訳日:2021-12-20 15:55:40 公開日:2021-12-17
# 確率分布モデルによるオイルスパイルSAR画像分割

Oil Spill SAR Image Segmentation via Probability Distribution Modelling ( http://arxiv.org/abs/2112.09638v1 )

ライセンス: Link先を確認
Fang Chen, Aihua Zhang, Heiko Balzter, Peng Ren and Huiyu Zhou(参考訳) 合成開口レーダ(SAR)画像における海洋油流出のセグメンテーションは、SAR画像の複雑さと不規則性のために難しい課題である。 本研究では,SAR画像の分布表現について検討し,SAR画像の海洋油流出識別に有効なセグメンテーション手法を提案する。 そこで本研究では,SAR画像の特徴を適切にモデル化した油流出SAR画像の確率分布表現を実現するために,SAR撮像機構を再検討する。 次に, この分布表現を利用してセグメンテーションエネルギー関数を定式化し, 油流出特性を組み込んで油流出セグメンテーションを導出する。 さらに、油流出セグメンテーションモデルは、油流出輪郭正規化項と、セグメンテーションエネルギー汎関数の表現力を高める更新されたレベルセット正規化項とを含む。 sar画像表現と原油流出分節化の同期化により,提案手法は油流出分節化の有効な枠組みを確立する。 各種海洋油流出SAR画像のセグメンテーションにおけるセグメンテーションフレームワークの有効性を実験的に評価した。

Segmentation of marine oil spills in Synthetic Aperture Radar (SAR) images is a challenging task because of the complexity and irregularities in SAR images. In this work, we aim to develop an effective segmentation method which addresses marine oil spill identification in SAR images by investigating the distribution representation of SAR images. To seek effective oil spill segmentation, we revisit the SAR imaging mechanism in order to attain the probability distribution representation of oil spill SAR images, in which the characteristics of SAR images are properly modelled. We then exploit the distribution representation to formulate the segmentation energy functional, by which oil spill characteristics are incorporated to guide oil spill segmentation. Moreover, the oil spill segmentation model contains the oil spill contour regularisation term and the updated level set regularisation term which enhance the representational power of the segmentation energy functional. Benefiting from the synchronisation of SAR image representation and oil spill segmentation, our proposed method establishes an effective oil spill segmentation framework. Experimental evaluations demonstrate the effectiveness of our proposed segmentation framework for different types of marine oil spill SAR image segmentation.
翻訳日:2021-12-20 15:55:28 公開日:2021-12-17
# 予測監視のためのリカレントニューラルネットワークにおけるグラフ畳み込みネットワーク

Embedding Graph Convolutional Networks in Recurrent Neural Networks for Predictive Monitoring ( http://arxiv.org/abs/2112.09641v1 )

ライセンス: Link先を確認
Efr\'en Rama-Maneiro, Juan C. Vidal, Manuel Lama(参考訳) ビジネスプロセスの予測的モニタリングはプロセスマイニングのサブフィールドであり、特に次のイベントの特性や次のイベントのシーケンスを予測することを目的としています。 リカレントニューラルネットワークや畳み込みニューラルネットワークなど、ディープラーニングに基づく複数のアプローチが提案されているが、プロセスモデルで利用可能な構造情報を実際に活用することはない。 本稿では,プロセスモデルから直接情報を利用するグラフ畳み込みネットワークとリカレントニューラルネットワークに基づくアプローチを提案する。 実生活のイベントログに関する実験的評価は、我々のアプローチがより一貫性があり、現在の最先端のアプローチよりも優れています。

Predictive monitoring of business processes is a subfield of process mining that aims to predict, among other things, the characteristics of the next event or the sequence of next events. Although multiple approaches based on deep learning have been proposed, mainly recurrent neural networks and convolutional neural networks, none of them really exploit the structural information available in process models. This paper proposes an approach based on graph convolutional networks and recurrent neural networks that uses information directly from the process model. An experimental evaluation on real-life event logs shows that our approach is more consistent and outperforms the current state-of-the-art approaches.
翻訳日:2021-12-20 15:55:08 公開日:2021-12-17
# 人工知能規制景観のジレンマ

Dilemma of the Artificial Intelligence Regulatory Landscape ( http://arxiv.org/abs/2112.09325v1 )

ライセンス: Link先を確認
Weiyue Wu, Shaoshan Liu(参考訳) 自動運転分野のスタートアップ企業として、当社は幅広い規制要件に対処して4年間苦しい経験を積んできました。 コンプライアンスに全予算の13%を費やすソフトウェア業界標準と比較して、コンプライアンスに予算の42%を費やすことを余儀なくされました。 私たちの状況はそれだけではありませんし、ある意味では、人工知能(AI)規制の状況のジレンマを反映しています。 根本原因は、立法および執行部門におけるAIの専門知識の欠如であり、業界が従うための標準化の欠如につながっている。 本稿では、我々は、AIを適切に規制するFDAライクな機関の設立を初めて経験し、提唱する。

As a startup company in the autonomous driving space, we have undergone four years of painful experiences dealing with a broad spectrum of regulatory requirements. Compared to the software industry norm, which spends 13% of their overall budget on compliances, we were forced to spend 42% of our budget on compliances. Our situation is not alone and, in a way, reflects the dilemma of the artificial intelligence (AI) regulatory landscape. The root cause is the lack of AI expertise in the legislative and executive branches, leading to a lack of standardization for the industry to follow. In this article, we share our first-hand experiences and advocate for the establishment of an FDA-like agency to regulate AI properly.
翻訳日:2021-12-20 15:53:46 公開日:2021-12-17
# オートエンコーダによる画像塗装と予測画素の選択

Image Inpainting Using AutoEncoder and Guided Selection of Predicted Pixels ( http://arxiv.org/abs/2112.09262v1 )

ライセンス: Link先を確認
Mohammad H. Givkashi, Mahshid Hadipour, Arezoo PariZanganeh, Zahra Nabizadeh, Nader Karimi, Shadrokh Samavi(参考訳) 画像インペインティングは、歪んだデジタル画像を強化する効果的な方法である。 異なる塗装法は、隣接するピクセルの情報を用いて、欠落したピクセルの値を予測する。 近年, 深層ニューラルネットワークを用いて画像の構造的, 意味的詳細を学習している。 本稿では,画像インペイントのためのネットワークを提案する。 u-netと同様、このネットワークは画像から様々な特徴を抽出し、より良い結果をもたらす。 出力画像の復元画素に損傷画素を置き換え,最終的な結果を改善した。 本手法は従来の手法と比較して高品質な結果が得られることを示す。

Image inpainting is an effective method to enhance distorted digital images. Different inpainting methods use the information of neighboring pixels to predict the value of missing pixels. Recently deep neural networks have been used to learn structural and semantic details of images for inpainting purposes. In this paper, we propose a network for image inpainting. This network, similar to U-Net, extracts various features from images, leading to better results. We improved the final results by replacing the damaged pixels with the recovered pixels of the output images. Our experimental results show that this method produces high-quality results compare to the traditional methods.
翻訳日:2021-12-20 15:50:51 公開日:2021-12-17
# 変換器によるエンドツーエンド画像圧縮と解析に向けて

Towards End-to-End Image Compression and Analysis with Transformers ( http://arxiv.org/abs/2112.09300v1 )

ライセンス: Link先を確認
Yuanchao Bai, Xu Yang, Xianming Liu, Junjun Jiang, Yaowei Wang, Xiangyang Ji, Wen Gao(参考訳) 本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。 画像コーデックの直後に既存のTransformerベースの画像分類モデルを配置するのではなく、ViTモデルを再設計し、圧縮された特徴から画像分類を行い、Transformerの長期情報による画像圧縮を容易にすることを目指している。 具体的には,まずvitモデルのpatify stem(画像分割と埋め込み)を畳み込みニューラルネットワークによってモデル化された軽量画像エンコーダに置き換える。 画像エンコーダによって生成された圧縮特徴を畳み込みインダクティブバイアスを注入し、画像再構成をバイパスして画像分類用トランスに供給する。 一方, 圧縮された特徴をトランスフォーマーの中間特徴と融合させる機能集約モジュールを提案し, 画像再構成のためのデコンボリューショナルニューラルネットワークに集約された特徴を供給した。 集約された特徴は、変圧器の自己着脱機構から長期情報を取得し、圧縮性能を向上させることができる。 速度歪み精度最適化の問題は、最終的に2段階のトレーニング戦略によって解決される。 画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。

We propose an end-to-end image compression and analysis model with Transformers, targeting to the cloud-based image classification application. Instead of placing an existing Transformer-based image classification model directly after an image codec, we aim to redesign the Vision Transformer (ViT) model to perform image classification from the compressed features and facilitate image compression with the long-term information from the Transformer. Specifically, we first replace the patchify stem (i.e., image splitting and embedding) of the ViT model with a lightweight image encoder modelled by a convolutional neural network. The compressed features generated by the image encoder are injected convolutional inductive bias and are fed to the Transformer for image classification bypassing image reconstruction. Meanwhile, we propose a feature aggregation module to fuse the compressed features with the selected intermediate features of the Transformer, and feed the aggregated features to a deconvolutional neural network for image reconstruction. The aggregated features can obtain the long-term information from the self-attention mechanism of the Transformer and improve the compression performance. The rate-distortion-accu racy optimization problem is finally solved by a two-step training strategy. Experimental results demonstrate the effectiveness of the proposed model in both the image compression and the classification tasks.
翻訳日:2021-12-20 15:50:42 公開日:2021-12-17
# Cinderellaの靴はSoundaryaに合わない:インドの顔の顔処理ツールの監査

Cinderella's shoe won't fit Soundarya: An audit of facial processing tools on Indian faces ( http://arxiv.org/abs/2112.09326v1 )

ライセンス: Link先を確認
Gaurav Jain, Smriti Parsheera(参考訳) インドにおける顔処理システムの採用の増加は、プライバシー、透明性、説明責任、手続き上の保護の欠如といった懸念に悩まされている。 同時に、これらの技術がインドの133億人超の人口の多様な特徴、特徴、肌の色に与える影響についてはほとんどわかっていません。 本論文では,インドの顔のデータセット上での4つの商用顔処理ツールの顔検出と顔解析機能をテストする。 このツールは、顔検出と性別と年齢の分類関数における様々なエラー率を表示する。 インド女性の顔の性別分類誤差は、男性に比べて一貫して高く、最も高い女性誤差率は14.68%である。 場合によっては、他の国籍の女性に対する以前の研究よりはるかに高い誤差率である。 年齢分類の誤差も高い。 実際の年齢から10年後の許容誤差の差を考慮に入れながらも、年齢予測の失敗は14.3%から42.2%の範囲にある。 これらの知見は、特に特定の人口集団において、顔処理ツールの精度が限られており、そのようなシステムを採用する前により批判的な思考が必要であることを示唆している。

The increasing adoption of facial processing systems in India is fraught with concerns of privacy, transparency, accountability, and missing procedural safeguards. At the same time, we also know very little about how these technologies perform on the diverse features, characteristics, and skin tones of India's 1.34 billion-plus population. In this paper, we test the face detection and facial analysis functions of four commercial facial processing tools on a dataset of Indian faces. The tools display varying error rates in the face detection and gender and age classification functions. The gender classification error rate for Indian female faces is consistently higher compared to that of males -- the highest female error rate being 14.68%. In some cases, this error rate is much higher than that shown by previous studies for females of other nationalities. Age classification errors are also high. Despite taking into account an acceptable error margin of plus or minus 10 years from a person's actual age, age prediction failures are in the range of 14.3% to 42.2%. These findings point to the limited accuracy of facial processing tools, particularly for certain demographic groups, and the need for more critical thinking before adopting such systems.
翻訳日:2021-12-20 15:50:21 公開日:2021-12-17
# 階層的双方向ビデオ圧縮を学習したエンドツーエンド速度歪みの最適化

End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional Video Compression ( http://arxiv.org/abs/2112.09529v1 )

ライセンス: Link先を確認
M.Ak{\i}n Y{\i}lmaz, A.Murat Tekalp(参考訳) 従来のビデオ圧縮(vc)法は、動き補償変換符号化に基づいており、エンドツーエンド最適化問題の組合せ性により、動き推定、モード及び量子化パラメータ選択、エントロピー符号化のステップを個別に最適化する。 学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。 学習VCにおけるほとんどの研究は、連続したフレームのペアの平均的なR-D損失に基づいて、シーケンシャルなビデオコーデックのエンドツーエンドの最適化を考える。 従来のvcでは、階層的で双方向のコーディングが、過去と将来の参照フレームの両方を使用できるため、シーケンシャルな圧縮よりも優れています。 本稿では,階層型動き補償予測とエンドツーエンド最適化の利点を組み合わせた,階層型双方向ビデオコーデック(LHBDC)を提案する。 実験の結果,PSNR と MS-SSIM のいずれにおいても,これまでに学習VC スキームで報告された最良の R-D 結果が得られた。 従来のビデオコーデックと比較すると,PSNR と MS-SSIM の x265 および SVT-HEVC エンコーダ ("非常に遅い" プリセット) および MS-SSIM の HM 16.23 参照ソフトウェアでは,エンドツーエンド最適化コーデックの R-D 性能が優れている。 本稿では,学習マスキング,フローフィールドサブサンプリング,時間的流れベクトル予測などの新しいツールによる性能向上を示すアブレーション研究を行う。 結果はhttps://github.com/m akinyilmaz/lhbdc/で再現できます。

Conventional video compression (VC) methods are based on motion compensated transform coding, and the steps of motion estimation, mode and quantization parameter selection, and entropy coding are optimized individually due to the combinatorial nature of the end-to-end optimization problem. Learned VC allows end-to-end rate-distortion (R-D) optimized training of nonlinear transform, motion and entropy model simultaneously. Most works on learned VC consider end-to-end optimization of a sequential video codec based on R-D loss averaged over pairs of successive frames. It is well-known in conventional VC that hierarchical, bi-directional coding outperforms sequential compression because of its ability to use both past and future reference frames. This paper proposes a learned hierarchical bi-directional video codec (LHBDC) that combines the benefits of hierarchical motion-compensated prediction and end-to-end optimization. Experimental results show that we achieve the best R-D results that are reported for learned VC schemes to date in both PSNR and MS-SSIM. Compared to conventional video codecs, the R-D performance of our end-to-end optimized codec outperforms those of both x265 and SVT-HEVC encoders ("veryslow" preset) in PSNR and MS-SSIM as well as HM 16.23 reference software in MS-SSIM. We present ablation studies showing performance gains due to proposed novel tools such as learned masking, flow-field subsampling, and temporal flow vector prediction. The models and instructions to reproduce our results can be found in https://github.com/m akinyilmaz/LHBDC/
翻訳日:2021-12-20 15:50:05 公開日:2021-12-17
# 複素汎関数写像 : 接バンドル間の共形リンク

Complex Functional Maps : a Conformal Link Between Tangent Bundles ( http://arxiv.org/abs/2112.09546v1 )

ライセンス: Link先を確認
Nicolas Donati (LIX), Etienne Corman (LORIA, CNRS, PIXEL), Simone Melzi (Sapienza University of Rome), Maks Ovsjanikov (LIX)(参考訳) 本稿では,曲面上の接ベクトル場間の共形写像に関数写像フレームワークを拡張した複素汎関数写像を提案する。 これらのマップの重要な特性は、その方向認識である。 より具体的には、2つの多様体の汎函数空間を連結する正規汎函数写像とは異なり、複素汎函数写像は向き付けられた接束の間のリンクを確立し、したがって接ベクトル場の堅牢かつ効率的な移動を可能にする。 まず内挿し、次に複雑な構造を持つ各形状の接束を利用することにより、結果として得られる操作は自然な方向認識となり、記述子や余分な正規化に頼ることなく、形状間の向き付けと角度保存の対応を好む。 最後に、おそらくもっと重要なことは、これらのオブジェクトが関数マップフレームワーク内でどのように実用的なアプリケーションを可能にするかを示します。 関数写像とその複素写像を共同で推定し, 方向反転対称性誤差に苦しんだパイプラインの定式化を行い, 方向保存を促進できることを示した。

In this paper, we introduce complex functional maps, which extend the functional map framework to conformal maps between tangent vector fields on surfaces. A key property of these maps is their orientation awareness. More specifically, we demonstrate that unlike regular functional maps that link functional spaces of two manifolds, our complex functional maps establish a link between oriented tangent bundles, thus permitting robust and efficient transfer of tangent vector fields. By first endowing and then exploiting the tangent bundle of each shape with a complex structure, the resulting operations become naturally orientationaware, thus favoring orientation and angle preserving correspondence across shapes, without relying on descriptors or extra regularization. Finally, and perhaps more importantly, we demonstrate how these objects enable several practical applications within the functional map framework. We show that functional maps and their complex counterparts can be estimated jointly to promote orientation preservation, regularizing pipelines that previously suffered from orientation-reversin g symmetry errors.
翻訳日:2021-12-20 15:49:37 公開日:2021-12-17
# FastSurferVINN: ディープラーニングセグメンテーションメソッドの分解能依存性の構築 -- 高解像度脳MRIのためのソリューション

FastSurferVINN: Building Resolution-Independe nce into Deep Learning Segmentation Methods -- A Solution for HighRes Brain MRI ( http://arxiv.org/abs/2112.09654v1 )

ライセンス: Link先を確認
Leonie Henschel, David K\"ugler and Martin Reuter(参考訳) 先行するニューロイメージング研究は、構造定義と形態計測を改善するために3T MRI取得の解像度を1.0mm以下に押し上げた。 しかし、高分解能(hires)設定で検証された時間集約的な自動画像分析パイプラインはごくわずかである。 一方、効率的なディープラーニングアプローチは、1つ以上の固定解像度(通常は1.0mm)をほとんどサポートしない。 さらに、標準のサブミリ秒解像度の欠如と、スキャナー、年齢、疾患、遺伝的変異を十分に網羅した多様なHiResデータの可用性の制限により、HiResネットワークをトレーニングするための未解決の課題がさらに増える。 ディープラーニングに基づくセグメンテーション、すなわち、さまざまなvoxelサイズにわたるネイティブレゾリューションでイメージをセグメンテーションする能力に解像度依存性を組み込むことは、これらの課題を克服することを約束するが、現時点ではそのようなアプローチは存在しない。 解像度非依存セグメンテーションタスクのためのVoxelsize Independent Neural Network (VINN)を導入し、このギャップを埋める。 i)0.7~1.0mmの脳セグメント化を同時に支援する最初の方法として、深層学習のための分解能独立性を確立し、実装する。 (ii)解像度で最先端の手法を著しく上回り、 3)HiResデータセットに存在するデータ不均衡問題を緩和する。 全体として、内部分解能独立性は、HiResと1.0mmMRIのセグメンテーションの両方に有益である。 我々はFastSurferVINNを厳格に検証し,形態計測による神経画像解析のための高速なツールを配布した。 さらに、VINNアーキテクチャは、より広い応用のための効率的な解像度独立セグメンテーション法である

Leading neuroimaging studies have pushed 3T MRI acquisition resolutions below 1.0 mm for improved structure definition and morphometry. Yet, only few, time-intensive automated image analysis pipelines have been validated for high-resolution (HiRes) settings. Efficient deep learning approaches, on the other hand, rarely support more than one fixed resolution (usually 1.0 mm). Furthermore, the lack of a standard submillimeter resolution as well as limited availability of diverse HiRes data with sufficient coverage of scanner, age, diseases, or genetic variance poses additional, unsolved challenges for training HiRes networks. Incorporating resolution-independe nce into deep learning-based segmentation, i.e., the ability to segment images at their native resolution across a range of different voxel sizes, promises to overcome these challenges, yet no such approach currently exists. We now fill this gap by introducing a Voxelsize Independent Neural Network (VINN) for resolution-independe nt segmentation tasks and present FastSurferVINN, which (i) establishes and implements resolution-independe nce for deep learning as the first method simultaneously supporting 0.7-1.0 mm whole brain segmentation, (ii) significantly outperforms state-of-the-art methods across resolutions, and (iii) mitigates the data imbalance problem present in HiRes datasets. Overall, internal resolution-independe nce mutually benefits both HiRes and 1.0 mm MRI segmentation. With our rigorously validated FastSurferVINN we distribute a rapid tool for morphometric neuroimage analysis. The VINN architecture, furthermore, represents an efficient resolution-independe nt segmentation method for wider application
翻訳日:2021-12-20 15:49:17 公開日:2021-12-17
# グラフニューラルネットワーク駆動型トランスを用いたニューロモルフィックカメラデノイング

Neuromorphic Camera Denoising using Graph Neural Network-driven Transformers ( http://arxiv.org/abs/2112.09685v1 )

ライセンス: Link先を確認
Yusra Alkendi, Rana Azzam, Abdulla Ayyad, Sajid Javed, Lakmal Seneviratne, and Yahya Zweiri(参考訳) ニューロモルフィックビジョン(neuromorphic vision)は、バイオインスパイアされた技術であり、コンピュータビジョンコミュニティのパラダイムシフトを引き起こし、多数のアプリケーションのためのキーエナブルとして機能している。 この技術は消費電力の削減、処理の必要性の低減、通信速度アップといった大きな利点を提供している。 しかし、ニューロモルフィックカメラはかなりの量の計測ノイズに悩まされている。 このノイズは、ニューロモルフィック事象に基づく知覚とナビゲーションアルゴリズムの性能を劣化させる。 本稿では,観測シーンにおける実対数強度の変動を表現できない事象を除去する新しいノイズフィルタアルゴリズムを提案する。 GNN-Transformerと呼ばれるグラフニューラルネットワーク駆動のトランスフォーマーアルゴリズムを用いて、生ストリーム内のすべてのアクティブなイベントピクセルを実ログ強度の変動やノイズに分類する。 GNN内では、EventConvと呼ばれるメッセージパッシングフレームワークが実行され、非同期性を維持しながら、イベント間の時空間的相関を反映する。 また,様々な照明条件下でのイベントストリームの基底真理ラベルを生成するために,Known-object Ground-Truth Labeling (KoGTL)アプローチを導入する。 KoGTLは、困難な照明条件で記録された実験からラベル付きデータセットを生成するために使用される。 これらのデータセットは、提案したアルゴリズムをトレーニングし、広範囲にテストするために使用される。 未発見のデータセットでテストすると、提案アルゴリズムは濾過精度の点で既存の手法を12%上回る。 また、照明のバリエーションと異なる動きのダイナミクスの存在下で、提案アルゴリズムの一般化能力を示すために、公開データセット上で追加試験を行う。 既存のソリューションと比較して,定性的な結果は,意味のあるシーンイベントを保存しながらノイズを除去するアルゴリズムの優れた性能を検証した。

Neuromorphic vision is a bio-inspired technology that has triggered a paradigm shift in the computer-vision community and is serving as a key-enabler for a multitude of applications. This technology has offered significant advantages including reduced power consumption, reduced processing needs, and communication speed-ups. However, neuromorphic cameras suffer from significant amounts of measurement noise. This noise deteriorates the performance of neuromorphic event-based perception and navigation algorithms. In this paper, we propose a novel noise filtration algorithm to eliminate events which do not represent real log-intensity variations in the observed scene. We employ a Graph Neural Network (GNN)-driven transformer algorithm, called GNN-Transformer, to classify every active event pixel in the raw stream into real-log intensity variation or noise. Within the GNN, a message-passing framework, called EventConv, is carried out to reflect the spatiotemporal correlation among the events, while preserving their asynchronous nature. We also introduce the Known-object Ground-Truth Labeling (KoGTL) approach for generating approximate ground truth labels of event streams under various illumination conditions. KoGTL is used to generate labeled datasets, from experiments recorded in challenging lighting conditions. These datasets are used to train and extensively test our proposed algorithm. When tested on unseen datasets, the proposed algorithm outperforms existing methods by 12% in terms of filtration accuracy. Additional tests are also conducted on publicly available datasets to demonstrate the generalization capabilities of the proposed algorithm in the presence of illumination variations and different motion dynamics. Compared to existing solutions, qualitative results verified the superior capability of the proposed algorithm to eliminate noise while preserving meaningful scene events.
翻訳日:2021-12-20 15:48:54 公開日:2021-12-17
# Decentralized Block Coordinate Descent を用いたデバイス上のE-Health分析

Personalized On-Device E-health Analytics with Decentralized Block Coordinate Descent ( http://arxiv.org/abs/2112.09341v1 )

ライセンス: Link先を確認
Guanhua Ye, Hongzhi Yin, Tong Chen, Miao Xu, Quoc Viet Hung Nguyen, and Jiangning Song(参考訳) 個人医療やパンデミックへの注目が高まり、Eヘルスの人気が高まっている。 今日では、機械学習モデルによる医療診断の強化は、eヘルス分析の多くの面で非常に効果的である。 それでも、古典的なクラウドベース/集中型eヘルスパラダイムでは、すべてのデータがサーバに集中的に格納され、モデルトレーニングが容易になる。 Decentralized Stochastic Gradient Descent (D-SGD)のような分散ソリューションを提案し、パーソナルデバイスに基づいた安全かつタイムリーな診断結果を提供する。 しかし、D-SGDのような手法は勾配の消滅の問題に悩まされ、通常は早期訓練の段階でゆっくりと進み、訓練の有効性と効率を阻害する。 さらに、既存の手法は、密度の高いデータを持つユーザーに対して偏りのあるモデルを学習する傾向があり、少数グループにeヘルス分析を提供する際の公平性を損なう。 本稿では,eヘルス分析のために分散デバイス上に分散した深層ニューラルネットワークモデルをより良く最適化する分散型ブロック座標降下(d-bcd)学習フレームワークを提案する。 3つの実世界のデータセットのベンチマーク実験は、提案したD-BCDの有効性と実用性を示し、さらにシミュレーション研究により、実生活のE-HealthシナリオにおけるD-BCDの強い適用性を示す。

Actuated by the growing attention to personal healthcare and the pandemic, the popularity of E-health is proliferating. Nowadays, enhancement on medical diagnosis via machine learning models has been highly effective in many aspects of e-health analytics. Nevertheless, in the classic cloud-based/centrali zed e-health paradigms, all the data will be centrally stored on the server to facilitate model training, which inevitably incurs privacy concerns and high time delay. Distributed solutions like Decentralized Stochastic Gradient Descent (D-SGD) are proposed to provide safe and timely diagnostic results based on personal devices. However, methods like D-SGD are subject to the gradient vanishing issue and usually proceed slowly at the early training stage, thereby impeding the effectiveness and efficiency of training. In addition, existing methods are prone to learning models that are biased towards users with dense data, compromising the fairness when providing E-health analytics for minority groups. In this paper, we propose a Decentralized Block Coordinate Descent (D-BCD) learning framework that can better optimize deep neural network-based models distributed on decentralized devices for E-health analytics. Benchmarking experiments on three real-world datasets illustrate the effectiveness and practicality of our proposed D-BCD, where additional simulation study showcases the strong applicability of D-BCD in real-life E-health scenarios.
翻訳日:2021-12-20 15:47:34 公開日:2021-12-17
# 高損失IoTネットワークにおけるパケットロス耐性分散推論のための通信指向モデル微調整

Communication-orient ed Model Fine-tuning for Packet-loss Resilient Distributed Inference under Highly Lossy IoT Networks ( http://arxiv.org/abs/2112.09407v1 )

ライセンス: Link先を確認
Sohei Itahara, Takayuki Nishio, Yusuke Koda, Koji Yamamoto(参考訳) リソース制約のあるモノのインターネット(IoT)デバイス上で、最先端のディープラーニング(ML)によって強化されたリアルタイムアプリケーションのためのテクニックとして、分散推論(DI)フレームワークが注目を集めている。 DIでは、計算タスクは、損失の多いIoTネットワークを介して、IoTデバイスからエッジサーバにオフロードされる。 しかし、一般に通信遅延と信頼性の間には通信システムレベルのトレードオフがあり、正確なDI結果を提供するには、信頼性の高い高遅延通信システムを適用する必要がある。 これにより、ML技術による通信遅延と精度のトレードオフを改善することができました。 具体的には,低遅延かつ信頼性の低い通信リンクを用いた高精度DIを実現するための通信指向モデルチューニング(COMtune)を提案する。 COMtuneでは、ドロップアウト技術の適用を通じて信頼できない通信リンクの効果をエミュレートすることで、MLモデルを微調整する。 これにより、DIシステムは信頼できない通信リンクに対して堅牢性を得ることができる。 ML実験の結果,COMtuneは低レイテンシ,低損失ネットワークで正確な予測を可能にすることがわかった。

The distributed inference (DI) framework has gained traction as a technique for real-time applications empowered by cutting-edge deep machine learning (ML) on resource-constrained Internet of things (IoT) devices. In DI, computational tasks are offloaded from the IoT device to the edge server via lossy IoT networks. However, generally, there is a communication system-level trade-off between communication latency and reliability; thus, to provide accurate DI results, a reliable and high-latency communication system is required to be adapted, which results in non-negligible end-to-end latency of the DI. This motivated us to improve the trade-off between the communication latency and accuracy by efforts on ML techniques. Specifically, we have proposed a communication-orient ed model tuning (COMtune), which aims to achieve highly accurate DI with low-latency but unreliable communication links. In COMtune, the key idea is to fine-tune the ML model by emulating the effect of unreliable communication links through the application of the dropout technique. This enables the DI system to obtain robustness against unreliable communication links. Our ML experiments revealed that COMtune enables accurate predictions with low latency and under lossy networks.
翻訳日:2021-12-20 15:47:08 公開日:2021-12-17
# 外因性グローバルマルコフ過程におけるレストレスバンディットの学習

Learning in Restless Bandits under Exogenous Global Markov Process ( http://arxiv.org/abs/2112.09484v1 )

ライセンス: Link先を確認
Tomer Gafni, Michal Yemini, Kobi Cohen(参考訳) 我々は、未知の腕力学によるレスレスマルチアームバンディット(RMAB)問題の拡張を検討し、未知の外因性グローバルマルコフ過程が各腕の報酬分布を制御している。 それぞれの世界状態の下では、各腕の報酬過程は未知のマルコフ則に従って進化し、異なる腕の間では識別されない。 毎回、プレイヤーはn$のアームからアームを選択し、有限の報酬状態からランダムな報酬を受け取る。 腕は落ち着かない、つまり、プレイヤーのアクションに関係なく局所的な状態が進化する。 RMAB設定に関する最近の研究によって動機づけられた後悔は、問題のダイナミクスを知っているプレイヤーに対する報酬損失として定義され、期待される即時値を最大化するアームに対して$t$で演奏される。 目的は、後悔を最小限に抑えるアーム選択政策を開発することである。 そこで我々は,Learning under Exogenous Markov Process (LEMP)アルゴリズムを開発した。 我々はLEMPを理論的に解析し、後悔に縛られる有限サンプルを確立する。 LEMPは時間とともに対数的後悔の順序を達成できることを示す。 さらに、LEMPを数値解析し、理論的な結果を支持するシミュレーション結果を提示し、LEMPが代替アルゴリズムを著しく上回っていることを示す。

We consider an extension to the restless multi-armed bandit (RMAB) problem with unknown arm dynamics, where an unknown exogenous global Markov process governs the rewards distribution of each arm. Under each global state, the rewards process of each arm evolves according to an unknown Markovian rule, which is non-identical among different arms. At each time, a player chooses an arm out of $N$ arms to play, and receives a random reward from a finite set of reward states. The arms are restless, that is, their local state evolves regardless of the player's actions. Motivated by recent studies on related RMAB settings, the regret is defined as the reward loss with respect to a player that knows the dynamics of the problem, and plays at each time $t$ the arm that maximizes the expected immediate value. The objective is to develop an arm-selection policy that minimizes the regret. To that end, we develop the Learning under Exogenous Markov Process (LEMP) algorithm. We analyze LEMP theoretically and establish a finite-sample bound on the regret. We show that LEMP achieves a logarithmic regret order with time. We further analyze LEMP numerically and present simulation results that support the theoretical findings and demonstrate that LEMP significantly outperforms alternative algorithms.
翻訳日:2021-12-20 15:46:50 公開日:2021-12-17
# ニューラルネットワークによる確率制御系の安定性検証

Stability Verification in Stochastic Control Systems via Neural Network Supermartingales ( http://arxiv.org/abs/2112.09495v1 )

ライセンス: Link先を確認
Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c, Krishnendu Chatterjee, Thomas A. Henzinger(参考訳) 離散時間非線形確率制御系における近距離漸近安定性を正式に検証する問題を考察する。 決定論的制御系の安定性の検証は文献で広く研究されているが、確率的制御システムの安定性の検証はオープンな問題である。 このトピックに関する既存の著作は、特殊形式の確率性のみを考慮するか、システムの制約的な仮定を行うかのどちらかであり、ニューラルネットワークポリシーを用いた学習アルゴリズムには適用できない。 本稿では, 2つの新しい側面を持つ一般非線形確率制御問題に対するアプローチを提案する。 (a) リアプノフ関数の古典的確率拡張の代わりに、a.s.~漸近安定性の証明にランク付きスーパーマーチンガル(RSMs)を用いる。 b)ニューラルネットワークRSMの学習方法を提案する。 我々は,本手法がシステムの漸近安定性を保証することを証明し,確率的リャプノフ関数が持たない安定化時間の境界を求める最初の方法を提供する。 最後に,ニューラルネットワークポリシーを用いた非線形確率強化学習環境について実験的検討を行った。

We consider the problem of formally verifying almost-sure (a.s.) asymptotic stability in discrete-time nonlinear stochastic control systems. While verifying stability in deterministic control systems is extensively studied in the literature, verifying stability in stochastic control systems is an open problem. The few existing works on this topic either consider only specialized forms of stochasticity or make restrictive assumptions on the system, rendering them inapplicable to learning algorithms with neural network policies. In this work, we present an approach for general nonlinear stochastic control problems with two novel aspects: (a) instead of classical stochastic extensions of Lyapunov functions, we use ranking supermartingales (RSMs) to certify a.s.~asymptotic stability, and (b) we present a method for learning neural network RSMs. We prove that our approach guarantees a.s.~asymptotic stability of the system and provides the first method to obtain bounds on the stabilization time, which stochastic Lyapunov functions do not. Finally, we validate our approach experimentally on a set of nonlinear stochastic reinforcement learning environments with neural network policies.
翻訳日:2021-12-20 15:46:28 公開日:2021-12-17
# ColO-RAN: プログラム可能な実験プラットフォーム上でのオープンRAN閉ループ制御のための機械学習ベースのxアプリ開発

ColO-RAN: Developing Machine Learning-based xApps for Open RAN Closed-loop Control on Programmable Experimental Platforms ( http://arxiv.org/abs/2112.09559v1 )

ライセンス: Link先を確認
Michele Polese, Leonardo Bonati, Salvatore D'Oro, Stefano Basagni, Tommaso Melodia(参考訳) オープンランによってもたらされた新たな機会にもかかわらず、mlベースのネットワーク自動化の進歩は、主に大規模なデータセットと実験的なテストインフラストラクチャが利用できないため、遅くなっている。 これにより、実際のネットワーク上でのDeep Reinforcement Learning (DRL)エージェントの開発と普及が遅くなり、インテリジェントかつ自律的なRAN制御の進歩が遅れる。 本稿では,これらの課題に対して,オープンRANにおけるDRLベースの閉ループ制御の設計,トレーニング,テスト,実験評価のための実用的なソリューションとソフトウェアパイプラインを提案する。 coo-ranは,ソフトウェア定義ラジオインザループを用いた,初の大規模o-ranテストフレームワークである。 Colosseumワイヤレスネットワークエミュレータのスケールと計算能力に基づいて、ColO-RANはO-RANコンポーネント、プログラム可能なベースステーション、および"ワイヤレスデータファクトリ"を使用した大規模ML研究を可能にする。 具体的には,drlベースのランスライシング制御,スケジューリング,オンラインモデルトレーニングのための3つのxappを設計・開発し,ソフトウォードベースステーション7,ユーザ42のセルラーネットワーク上での性能評価を行った。 最後に,屋内プログラム可能なテストベッドであるarenaにデプロイすることで,さまざまなプラットフォームへのcoro-ranの移植性を示す。 大規模評価の結果は,drlに基づく適応制御の利点と課題を浮き彫りにした。 また、無線DRLパイプラインの開発、データ分析からDRLエージェントの設計、ライブRANでのトレーニングに関連するトレードオフに関する洞察も提供する。 ColO-RANと収集した大規模なデータセットは、研究コミュニティで公開される予定である。

In spite of the new opportunities brought about by the Open RAN, advances in ML-based network automation have been slow, mainly because of the unavailability of large-scale datasets and experimental testing infrastructure. This slows down the development and widespread adoption of Deep Reinforcement Learning (DRL) agents on real networks, delaying progress in intelligent and autonomous RAN control. In this paper, we address these challenges by proposing practical solutions and software pipelines for the design, training, testing, and experimental evaluation of DRL-based closed-loop control in the Open RAN. We introduce ColO-RAN, the first publicly-available large-scale O-RAN testing framework with software-defined radios-in-the-loop. Building on the scale and computational capabilities of the Colosseum wireless network emulator, ColO-RAN enables ML research at scale using O-RAN components, programmable base stations, and a "wireless data factory". Specifically, we design and develop three exemplary xApps for DRL-based control of RAN slicing, scheduling and online model training, and evaluate their performance on a cellular network with 7 softwarized base stations and 42 users. Finally, we showcase the portability of ColO-RAN to different platforms by deploying it on Arena, an indoor programmable testbed. Extensive results from our first-of-its-kind large-scale evaluation highlight the benefits and challenges of DRL-based adaptive control. They also provide insights on the development of wireless DRL pipelines, from data analysis to the design of DRL agents, and on the tradeoffs associated to training on a live RAN. ColO-RAN and the collected large-scale dataset will be made publicly available to the research community.
翻訳日:2021-12-20 15:46:10 公開日:2021-12-17
# 多段ニューラルネットワークによるオーディオグラムの解釈

Interpreting Audiograms with Multi-stage Neural Networks ( http://arxiv.org/abs/2112.09357v1 )

ライセンス: Link先を確認
Shufan Li and Congxi Lu and Linkai Li and Jirong Duan and Xinping Fu and Haoshuai Zhou(参考訳) オーディオグラムは、様々な周波数における個人の聴力レベルを表す特定の種類の線グラフである。 聴覚学者は聴力障害の診断に使用し、さらに顧客の適切な補聴器の選択と調整を行う。 機械学習によってこのプロセスを加速しようとするAutoaudioのようなプロジェクトもいくつかある。 しかし既存のモデルはすべて、画像中のオーディオグラムを検出でき、それらを一般的なカテゴリに分類できる。 検出されたオーディオグラムから、音符、軸、線を解釈することで、聴覚レベル情報を抽出できない。 この問題に対処するために,我々は,オーディオグラムの写真から聴力レベルデータを直接読み出す多段オーディオグラム解釈ネットワーク(main)を提案する。 また,提案モデルの学習と評価を行うマークと軸のアノテーションを備えた,audiogramイメージのオープンデータセットであるopen audiogramも構築した。 実験によると、我々のモデルは実現可能で信頼性が高い。

Audiograms are a particular type of line charts representing individuals' hearing level at various frequencies. They are used by audiologists to diagnose hearing loss, and further select and tune appropriate hearing aids for customers. There have been several projects such as Autoaudio that aim to accelerate this process through means of machine learning. But all existing models at their best can only detect audiograms in images and classify them into general categories. They are unable to extract hearing level information from detected audiograms by interpreting the marks, axis, and lines. To address this issue, we propose a Multi-stage Audiogram Interpretation Network (MAIN) that directly reads hearing level data from photos of audiograms. We also established Open Audiogram, an open dataset of audiogram images with annotations of marks and axes on which we trained and evaluated our proposed model. Experiments show that our model is feasible and reliable.
翻訳日:2021-12-20 15:43:54 公開日:2021-12-17
# 離散化と再合成 : カクテルパーティ問題に対する代替法

Discretization and Re-synthesis: an alternative method to solve the Cocktail Party Problem ( http://arxiv.org/abs/2112.09382v1 )

ライセンス: Link先を確認
Jing Shi, Xuankai Chang, Tomoki Hayashi, Yen-Ju Lu, Shinji Watanabe, Bo Xu(参考訳) 深層学習に基づくモデルでは、カクテルパーティーのような入力混合物による音声分離の性能が大幅に向上した。 著名な手法(例えば周波数領域と時間領域の音声分離)は、通常、マスキングに基づく設計と信号レベルの損失基準(例えばmseまたはsi-snr)を用いて、混合から基底音声を予測する回帰モデルを構築する。 この研究は、初めて、合成に基づくアプローチが、高い柔軟性と強いポテンシャルを持って、この問題にうまく対応できることを示した。 具体的には,離散記号認識に基づく新しい音声分離・強調モデルを提案し,音声分離・強調関連課題のパラダイムを回帰から分類へ変換する。 離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。 様々な設定におけるWSJ0-2mixとVCTK-noisy corporaに基づく評価結果から,提案手法は高い音声品質と干渉のない分離音声を着実に合成し,回帰に基づく手法では避け難いことを示す。 また, 聞き取り品質が損なわれることなく, 拡張/分離音声の話者変換を簡便に実現することができた。

Deep learning based models have significantly improved the performance of speech separation with input mixtures like the cocktail party. Prominent methods (e.g., frequency-domain and time-domain speech separation) usually build regression models to predict the ground-truth speech from the mixture, using the masking-based design and the signal-level loss criterion (e.g., MSE or SI-SNR). This study demonstrates, for the first time, that the synthesis-based approach can also perform well on this problem, with great flexibility and strong potential. Specifically, we propose a novel speech separation/enhanceme nt model based on the recognition of discrete symbols, and convert the paradigm of the speech separation/enhanceme nt related tasks from regression to classification. By utilizing the synthesis model with the input of discrete symbols, after the prediction of discrete symbol sequence, each target speech could be re-synthesized. Evaluation results based on the WSJ0-2mix and VCTK-noisy corpora in various settings show that our proposed method can steadily synthesize the separated speech with high speech quality and without any interference, which is difficult to avoid in regression-based methods. In addition, with negligible loss of listening quality, the speaker conversion of enhanced/separated speech could be easily realized through our method.
翻訳日:2021-12-20 15:42:42 公開日:2021-12-17
# グラフ上の社会的相互作用に基づく異種データからの学習

Learning from Heterogeneous Data Based on Social Interactions over Graphs ( http://arxiv.org/abs/2112.09483v1 )

ライセンス: Link先を確認
Virginia Bordignon, Stefan Vlaski, Vincenzo Matta, Ali H. Sayed(参考訳) 本研究では,個々のエージェントが異なる次元のストリーミング特徴を観察し,異なる分布から生じる分類問題を解くための分散アーキテクチャを提案する。 分散エージェント間の局所的な協力を通じて意思決定問題を解決するとともに,ストリーミングデータから学ぶことが可能な,いくつかの有用な戦略が開発されている。 しかし、伝統的な社会学習戦略は、それぞれのエージェントが観察の基盤となる分布について重要な事前知識を持っているという基本的な仮定に依存している。 本研究では,ソーシャルインタラクションをグラフ上で活用する機械学習フレームワークを導入して,分散分類問題に対するデータ駆動型ソリューションを実現することで,この問題を克服した。 提案した社会機械学習(SML)戦略では,学習段階では,有限個のトレーニングサンプルを用いて仮説の集合に対する信念を生成するために,個別に分類器を訓練し,予測段階では,未ラベルの観測をストリーミング評価し,近隣の分類器と即時的な信念を共有する。 我々は,SML戦略により,エージェントがこの高度に不均一な条件下で一貫して学習することができ,未ラベルのサンプルを判定した場合の予測フェーズにおいてもネットワークが学習を続けることができることを示す。 予測決定は、既存のほとんどの静的分類スキームと著しく異なる方法で継続的に性能を向上させるために使用され、トレーニング後、ラベルなしデータに関する決定は、将来のパフォーマンスを改善するために再使用されない。

This work proposes a decentralized architecture, where individual agents aim at solving a classification problem while observing streaming features of different dimensions and arising from possibly different distributions. In the context of social learning, several useful strategies have been developed, which solve decision making problems through local cooperation across distributed agents and allow them to learn from streaming data. However, traditional social learning strategies rely on the fundamental assumption that each agent has significant prior knowledge of the underlying distribution of the observations. In this work we overcome this issue by introducing a machine learning framework that exploits social interactions over a graph, leading to a fully data-driven solution to the distributed classification problem. In the proposed social machine learning (SML) strategy, two phases are present: in the training phase, classifiers are independently trained to generate a belief over a set of hypotheses using a finite number of training samples; in the prediction phase, classifiers evaluate streaming unlabeled observations and share their instantaneous beliefs with neighboring classifiers. We show that the SML strategy enables the agents to learn consistently under this highly-heterogeneous setting and allows the network to continue learning even during the prediction phase when it is deciding on unlabeled samples. The prediction decisions are used to continually improve performance thereafter in a manner that is markedly different from most existing static classification schemes where, following training, the decisions on unlabeled data are not re-used to improve future performance.
翻訳日:2021-12-20 15:42:19 公開日:2021-12-17
# ディープニューラルネットワークのトレーニングにおける勾配降下法における大域最小化と収束解析の存在について

On the existence of global minima and convergence analyses for gradient descent methods in the training of deep neural networks ( http://arxiv.org/abs/2112.09684v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Adrian Riekert(参考訳) In this article we study fully-connected feedforward deep ReLU ANNs with an arbitrarily large number of hidden layers and we prove convergence of the risk of the GD optimization method with random initializations in the training of such ANNs under the assumption that the unnormalized probability density function of the probability distribution of the input data of the considered supervised learning problem is piecewise polynomial, under the assumption that the target function (describing the relationship between input data and the output data) is piecewise polynomial, and under the assumption that the risk function of the considered supervised learning problem admits at least one regular global minimum. さらに、1つの隠れ層と1次元入力を持つ浅層ANNの特別な状況において、このような浅層ANNの訓練において、リスクランドスケープにすべてのリプシッツ連続目標関数が世界最小であることを示すことによって、この仮定を検証する。 最後に、ReLU活性化を伴う深部ANNの訓練において、勾配流(GF)微分方程式の解も研究し、すべての非発散GF軌道が臨界点への収束の多項式速度(Fr\echet subdifferentiability )に収束することを証明した。 Our mathematical convergence analysis builds up on tools from real algebraic geometry such as the concept of semi-algebraic functions and generalized Kurdyka-Lojasiewicz inequalities, on tools from functional analysis such as the Arzel\`a-Ascoli theorem, on tools from nonsmooth analysis such as the concept of limiting Fr\'echet subgradients, as well as on the fact that the set of realization functions of shallow ReLU ANNs with fixed architecture forms a closed subset of the set of continuous functions revealed by Petersen et al.

In this article we study fully-connected feedforward deep ReLU ANNs with an arbitrarily large number of hidden layers and we prove convergence of the risk of the GD optimization method with random initializations in the training of such ANNs under the assumption that the unnormalized probability density function of the probability distribution of the input data of the considered supervised learning problem is piecewise polynomial, under the assumption that the target function (describing the relationship between input data and the output data) is piecewise polynomial, and under the assumption that the risk function of the considered supervised learning problem admits at least one regular global minimum. In addition, in the special situation of shallow ANNs with just one hidden layer and one-dimensional input we also verify this assumption by proving in the training of such shallow ANNs that for every Lipschitz continuous target function there exists a global minimum in the risk landscape. Finally, in the training of deep ANNs with ReLU activation we also study solutions of gradient flow (GF) differential equations and we prove that every non-divergent GF trajectory converges with a polynomial rate of convergence to a critical point (in the sense of limiting Fr\'echet subdifferentiability ). Our mathematical convergence analysis builds up on tools from real algebraic geometry such as the concept of semi-algebraic functions and generalized Kurdyka-Lojasiewicz inequalities, on tools from functional analysis such as the Arzel\`a-Ascoli theorem, on tools from nonsmooth analysis such as the concept of limiting Fr\'echet subgradients, as well as on the fact that the set of realization functions of shallow ReLU ANNs with fixed architecture forms a closed subset of the set of continuous functions revealed by Petersen et al.
翻訳日:2021-12-20 15:39:54 公開日:2021-12-17
# (参考訳) マルコフ決定過程の変分的抽象化による形式的保証によるrlポリシーの蒸留(技術報告) [全文訳有]

Distillation of RL Policies with Formal Guarantees via Variational Abstraction of Markov Decision Processes (Technical Report) ( http://arxiv.org/abs/2112.09655v1 )

ライセンス: CC BY 4.0
Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez(参考訳) 継続的環境における強化学習(RL)を通して学んだ政策の文脈において、政策の単純化と検証の課題を考察する。 良好な設定では、RLアルゴリズムは極限の収束を保証する。 これらの保証は価値があるが、安全クリティカルなアプリケーションには不十分である。 また、深部RLなどの高度な技術を適用すると失われる。 より複雑な環境に高度なRLアルゴリズムを適用する際の保証を回復する (i)到達可能。 (二 安全に制約された到達性又は (iii) 割引化目標として,geladaらによって導入されたdeepmdpフレームワークを用いて,未知環境と学習された離散潜在モデルとの新たな分岐境界を導出する。 バイシミュレート境界はマルコフ決定過程に対する形式的手法の適用を可能にする。 最後に、最先端のRLを用いて得られたポリシーを用いて、ほぼ正確なバイシミュレーション保証を持つ離散潜在モデルを生成する変分オートエンコーダを効率的に訓練する方法を示す。 さらに,潜在モデルに対する政策の蒸留版を得る。

We consider the challenge of policy simplification and verification in the context of policies learned through reinforcement learning (RL) in continuous environments. In well-behaved settings, RL algorithms have convergence guarantees in the limit. While these guarantees are valuable, they are insufficient for safety-critical applications. Furthermore, they are lost when applying advanced techniques such as deep-RL. To recover guarantees when applying advanced RL algorithms to more complex environments with (i) reachability, (ii) safety-constrained reachability, or (iii) discounted-reward objectives, we build upon the DeepMDP framework introduced by Gelada et al. to derive new bisimulation bounds between the unknown environment and a learned discrete latent model of it. Our bisimulation bounds enable the application of formal methods for Markov decision processes. Finally, we show how one can use a policy obtained via state-of-the-art RL to efficiently train a variational autoencoder that yields a discrete latent model with provably approximately correct bisimulation guarantees. Additionally, we obtain a distilled version of the policy for the latent model.
翻訳日:2021-12-20 15:38:44 公開日:2021-12-17
# 深い情報インタラクションを伴うロバストポイントクラウド登録のためのフルトランスフォーマフレームワーク

Full Transformer Framework for Robust Point Cloud Registration with Deep Information Interaction ( http://arxiv.org/abs/2112.09385v1 )

ライセンス: Link先を確認
Guangyan Chen, Meiling Wang, Yufeng Yue, Qingxiang Zhang, Li Yuan(参考訳) 近年のTransformerベースの手法は,情報集約のための順序不変性およびモデリング依存性におけるTransformerの利点を利用して,ポイントクラウド登録における高度な性能を実現している。 しかし、不明瞭な特徴抽出、ノイズに対する感受性、異常値に苦しむ。 理由は,(1)cnnの採用が局所受容場によるグローバルリレーションのモデル化に失敗すること,(2)トランスフォーマーの浅く広いアーキテクチャと位置符号化の欠如は,情報の非効率な相互作用による不明瞭な特徴抽出につながること,(3)幾何学的適合性の欠落は,不正確な不確実性と外れ値の分類につながること,である。 To address above limitations, a novel full Transformer network for point cloud registration is proposed, named the Deep Interaction Transformer (DIT), which incorporates: (1) a Point Cloud Structure Extractor (PSE) to model global relations and retrieve structural information with Transformer encoders; (2) a deep-narrow Point Feature Transformer (PFT) to facilitate deep information interaction across two point clouds with positional encoding, such that Transformers can establish comprehensive associations and directly learn relative position between points; (3) a Geometric Matching-based Correspondence Confidence Evaluation (GMCCE) method to measure spatial consistency and estimate inlier confidence by designing the triangulated descriptor. クリーンでノイズの多い,部分的に重複するクラウドの登録実験は,我々の手法が最先端の手法より優れていることを示す。

Recent Transformer-based methods have achieved advanced performance in point cloud registration by utilizing advantages of the Transformer in order-invariance and modeling dependency to aggregate information. However, they still suffer from indistinct feature extraction, sensitivity to noise, and outliers. The reasons are: (1) the adoption of CNNs fails to model global relations due to their local receptive fields, resulting in extracted features susceptible to noise; (2) the shallow-wide architecture of Transformers and lack of positional encoding lead to indistinct feature extraction due to inefficient information interaction; (3) the omission of geometrical compatibility leads to inaccurate classification between inliers and outliers. To address above limitations, a novel full Transformer network for point cloud registration is proposed, named the Deep Interaction Transformer (DIT), which incorporates: (1) a Point Cloud Structure Extractor (PSE) to model global relations and retrieve structural information with Transformer encoders; (2) a deep-narrow Point Feature Transformer (PFT) to facilitate deep information interaction across two point clouds with positional encoding, such that Transformers can establish comprehensive associations and directly learn relative position between points; (3) a Geometric Matching-based Correspondence Confidence Evaluation (GMCCE) method to measure spatial consistency and estimate inlier confidence by designing the triangulated descriptor. Extensive experiments on clean, noisy, partially overlapping point cloud registration demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-12-20 14:08:55 公開日:2021-12-17
# オルタナティブ・セルフ・デュアル・ティーチングによる弱教師付き意味セグメンテーション

Weakly Supervised Semantic Segmentation via Alternative Self-Dual Teaching ( http://arxiv.org/abs/2112.09459v1 )

ライセンス: Link先を確認
Dingwen Zhang, Wenyuan Zeng, Guangyu Guo, Chaowei Fang, Lechao Cheng, Junwei Han(参考訳) 現在のweakly supervised semantic segmentation(wsss)フレームワークは、通常、分離されたマスク定義モデルと主要なセマンティック領域マイニングモデルを含んでいる。 これらのアプローチには冗長な特徴抽出バックボーンとバイアス付き学習目標が含まれており、WSSSタスクに対処するには計算が複雑だが準最適である。 本稿では,この問題を解決するために,分類とマスク定義の要素を統一した深層モデルに組み込む,コンパクトな学習フレームワークを構築した。 共有特徴抽出バックボーンにより,計算複雑性の低さを保ちつつ,2つのコンポーネント間の知識共有を容易にする。 高品質な知識相互作用を促進するために,新しい自己双対指導機構を提案する。 従来の蒸留戦略とは異なり、本モデルにおける2つの教員分枝の知識をパルス幅変調(pwm)により生徒分枝に交互に蒸留し、pw波状選択信号を生成して知識蒸留プロセスを誘導する。 このようにして、学生ブランチは、どちらかの教師ブランチが提供する不完全な知識が原因で、モデルが局所的に最小限の解に落ちるのを防ぐことができる。 PASCAL VOC 2012 と COCO-Stuff 10K の総合的な実験により,提案手法の有効性と,提案手法の新たな最先端性能が示された。

Current weakly supervised semantic segmentation (WSSS) frameworks usually contain the separated mask-refinement model and the main semantic region mining model. These approaches would contain redundant feature extraction backbones and biased learning objectives, making them computational complex yet sub-optimal to addressing the WSSS task. To solve this problem, this paper establishes a compact learning framework that embeds the classification and mask-refinement components into a unified deep model. With the shared feature extraction backbone, our model is able to facilitate knowledge sharing between the two components while preserving a low computational complexity. To encourage high-quality knowledge interaction, we propose a novel alternative self-dual teaching (ASDT) mechanism. Unlike the conventional distillation strategy, the knowledge of the two teacher branches in our model is alternatively distilled to the student branch by a Pulse Width Modulation (PWM), which generates PW wave-like selection signal to guide the knowledge distillation process. In this way, the student branch can help prevent the model from falling into local minimum solutions caused by the imperfect knowledge provided of either teacher branch. Comprehensive experiments on the PASCAL VOC 2012 and COCO-Stuff 10K demonstrate the effectiveness of the proposed alternative self-dual teaching mechanism as well as the new state-of-the-art performance of our approach.
翻訳日:2021-12-20 14:08:26 公開日:2021-12-17
# 身体視覚ナビゲーションのための対称性アウェアニューラルアーキテクチャ

Symmetry-aware Neural Architecture for Embodied Visual Navigation ( http://arxiv.org/abs/2112.09515v1 )

ライセンス: Link先を確認
Shuang Liu and Takayuki Okatani(参考訳) 視覚的な探索は、環境のすべてのナビゲート可能な領域をできるだけ早く訪れようとするタスクである。 既存の手法では、タスクの標準ツールとして深層強化学習(RL)を採用している。 しかし、それらはトレーニングデータとテストデータの間の統計的な変化に弱い傾向にあり、トレーニングデータからアウトオブディストリビューション(ood)である新しい環境に対して不十分な一般化をもたらす。 本稿では,タスクに利用可能な帰納バイアスを利用して一般化能力の向上を試みる。 基本フレームワークとして,アドバンテージアクタ-クリティック(a2c)法を用いて探索方針を学ぶアクティブニューラルスラム(ans)を用い,まず,アクタと批評家が代表するマッピングが特定の対称性を満たすべきであることを指摘した。 次に,これらの対称性を実現するために,俳優と批評家のネットワーク設計を提案する。 具体的には、標準的な畳み込みの代わりに$G$-convolutionを使用し、批判ネットワークの最後のセクションで新たに設計したセミ・グロバル・ポーラ・プーリング(SGPP)層を挿入する。 実験結果から,ギブソンデータセットでトレーニングし,MP3Dデータセットでテストした結果,領域範囲を8.1 m^2$に拡大し,新たな最先端技術を確立した。

Visual exploration is a task that seeks to visit all the navigable areas of an environment as quickly as possible. The existing methods employ deep reinforcement learning (RL) as the standard tool for the task. However, they tend to be vulnerable to statistical shifts between the training and test data, resulting in poor generalization over novel environments that are out-of-distribution (OOD) from the training data. In this paper, we attempt to improve the generalization ability by utilizing the inductive biases available for the task. Employing the active neural SLAM (ANS) that learns exploration policies with the advantage actor-critic (A2C) method as the base framework, we first point out that the mappings represented by the actor and the critic should satisfy specific symmetries. We then propose a network design for the actor and the critic to inherently attain these symmetries. Specifically, we use $G$-convolution instead of the standard convolution and insert the semi-global polar pooling (SGPP) layer, which we newly design in this study, in the last section of the critic network. Experimental results show that our method increases area coverage by $8.1 m^2$ when trained on the Gibson dataset and tested on the MP3D dataset, establishing the new state-of-the-art.
翻訳日:2021-12-20 14:08:01 公開日:2021-12-17
# 配向画像のグローバルな説明可能性

Global explainability in aligned image modalities ( http://arxiv.org/abs/2112.09591v1 )

ライセンス: Link先を確認
Justin Engelmann, Amos Storkey, Miguel O. Bernabeu(参考訳) ディープラーニング(DL)モデルは、多くのコンピュータビジョン問題に対して非常に効果的であり、批判的なアプリケーションでますます使われている。 本来はブラックボックスである。 実践者が与えられた画像のモデル予測を理解し検証できるように、画像に関する説明を生成する方法がいくつか存在する。 さらに、DLモデル \textit{ Generally} が意味のある方法で機能していること、すなわちドメイン知識に一貫性があり、望ましくないデータアーチファクトに依存していないことを検証することが望ましい。 この目的のためには、モデルをグローバルに説明する必要がある。 本研究では, 医用画像でよく見られるように, 各画素位置が被写体上の類似相対位置を表すように, 自然に整列した画像モダリティに着目した。 本稿では,ラベルやグローバルな説明を得るための簡単な方法として,画像記述の画素単位での集約を提案する。 これらは、モデル検証、知識発見、画像による説明から得られた質的結論を伝える効率的な方法として使用できる。 さらに,これらのグローバル説明がモデルによる予測に忠実であることを定量的に検証するための方法として,プログレッシブ消去プラスプログレッシブ修復(peppr)を提案する。 次に、これらの手法を超広視野網膜画像に適用する。 グローバルな説明はドメインの知識と一致しており、モデルの動作を忠実に反映しています。

Deep learning (DL) models are very effective on many computer vision problems and increasingly used in critical applications. They are also inherently black box. A number of methods exist to generate image-wise explanations that allow practitioners to understand and verify model predictions for a given image. Beyond that, it would be desirable to validate that a DL model \textit{generally} works in a sensible way, i.e. consistent with domain knowledge and not relying on undesirable data artefacts. For this purpose, the model needs to be explained globally. In this work, we focus on image modalities that are naturally aligned such that each pixel position represents a similar relative position on the imaged object, as is common in medical imaging. We propose the pixel-wise aggregation of image-wise explanations as a simple method to obtain label-wise and overall global explanations. These can then be used for model validation, knowledge discovery, and as an efficient way to communicate qualitative conclusions drawn from inspecting image-wise explanations. We further propose Progressive Erasing Plus Progressive Restoration (PEPPR) as a method to quantitatively validate that these global explanations are faithful to how the model makes its predictions. We then apply these methods to ultra-widefield retinal images, a naturally aligned modality. We find that the global explanations are consistent with domain knowledge and faithfully reflect the model's workings.
翻訳日:2021-12-20 14:07:36 公開日:2021-12-17
# KGBoost: 負サンプリングを用いた分類に基づく知識ベース補完手法

KGBoost: A Classification-based Knowledge Base Completion Method with Negative Sampling ( http://arxiv.org/abs/2112.09340v1 )

ライセンス: Link先を確認
Yun-Cheng Wang, Xiou Ge, Bin Wang, C.-C. Jay Kuo(参考訳) 本研究では知識ベース補完を二項分類問題として定式化し,知識グラフ(KGs)の関連性を用いてXGBoost二項分類器を学習する。 この新しい手法はkgboostと呼ばれ、モジュール化された設計を採用し、リンク予測を欠く強力な分類器を訓練するために、ハードネガティブなサンプルを見つけようとする。 我々は、複数のベンチマークデータセットで実験を行い、KGBoostがほとんどのデータセットで最先端のメソッドより優れていることを示す。 さらに、エンドツーエンドの最適化によって訓練されたモデルと比較して、KGBoostはより小さなモデルサイズを実現するために、低次元設定下でうまく機能する。

Knowledge base completion is formulated as a binary classification problem in this work, where an XGBoost binary classifier is trained for each relation using relevant links in knowledge graphs (KGs). The new method, named KGBoost, adopts a modularized design and attempts to find hard negative samples so as to train a powerful classifier for missing link prediction. We conduct experiments on multiple benchmark datasets, and demonstrate that KGBoost outperforms state-of-the-art methods across most datasets. Furthermore, as compared with models trained by end-to-end optimization, KGBoost works well under the low-dimensional setting so as to allow a smaller model size.
翻訳日:2021-12-20 14:07:15 公開日:2021-12-17
# テキスト類似度行列の線形時間近似

Sublinear Time Approximation of Text Similarity Matrices ( http://arxiv.org/abs/2112.09631v1 )

ライセンス: Link先を確認
Archan Ray, Nicholas Monath, Andrew McCallum, Cameron Musco(参考訳) 自然言語処理において生じるペアワイズ類似度行列を近似するアルゴリズムについて検討する。 一般に、$n$のデータポイントに対する類似性行列の計算には$\Omega(n^2)$類似性計算が必要である。 この二次スケーリングは重要なボトルネックであり、特に変換器モデルのような高価な関数によって類似性が計算される場合である。 近似法は、しばしば完全対類似行列の残りを近似するために、正確に計算された類似性の小さな部分集合を使用することによって、この二次複雑性を減少させる。 重要な研究は、例えばカーネル法で生じる正半定値類似度行列(PSD)の効率的な近似に焦点を当てている。 しかしながら、NLPでしばしば生じる不定(非PSD)類似性行列については、はるかに理解されていない。 これらの行列の多くがまだpsdに近いという観測に動機づけられ、人気のある nystr\"{o}m 法を不定値設定に一般化した。 我々のアルゴリズムは任意の類似度行列に適用でき、行列のサイズでサブ線形時間で動作し、わずか$O(ns)$類似度計算でランク=$s$近似を生成する。 提案手法は,単純なCUR分解の変形とともに,NLPタスクに生じる類似度行列の近似に非常に有効であることを示す。 文書分類, 文類似性, 文書間照合の下流タスクにおいて, 近似類似度行列の精度が高いことを示す。

We study algorithms for approximating pairwise similarity matrices that arise in natural language processing. Generally, computing a similarity matrix for $n$ data points requires $\Omega(n^2)$ similarity computations. This quadratic scaling is a significant bottleneck, especially when similarities are computed via expensive functions, e.g., via transformer models. Approximation methods reduce this quadratic complexity, often by using a small subset of exactly computed similarities to approximate the remainder of the complete pairwise similarity matrix. Significant work focuses on the efficient approximation of positive semidefinite (PSD) similarity matrices, which arise e.g., in kernel methods. However, much less is understood about indefinite (non-PSD) similarity matrices, which often arise in NLP. Motivated by the observation that many of these matrices are still somewhat close to PSD, we introduce a generalization of the popular Nystr\"{o}m method to the indefinite setting. Our algorithm can be applied to any similarity matrix and runs in sublinear time in the size of the matrix, producing a rank-$s$ approximation with just $O(ns)$ similarity computations. We show that our method, along with a simple variant of CUR decomposition, performs very well in approximating a variety of similarity matrices arising in NLP tasks. We demonstrate high accuracy of the approximated similarity matrices in the downstream tasks of document classification, sentence similarity, and cross-document coreference.
翻訳日:2021-12-20 14:05:54 公開日:2021-12-17
# 機械学習ツールは製品レビューから持続可能なデザインリードを識別できるか? 機会と挑戦

Can Machine Learning Tools Support the Identification of Sustainable Design Leads From Product Reviews? Opportunities and Challenges ( http://arxiv.org/abs/2112.09391v1 )

ライセンス: Link先を確認
Michael Saidani (LGI), Harrison Kim, Bernard Yannou (LGI)(参考訳) オンラインに投稿される製品レビューの増加は、デザイナーが開発する製品についてよりよく知るための金鉱であり、顧客の声を捉え、それに応じて製品を改善することである。 一方、製品設計と開発は、より持続可能な未来を作る上で不可欠な役割を持っています。 近年,自然言語処理分野における人工知能技術の進歩により,オンライン製品レビューから持続可能なデザインインサイトを自動的に取得する統合機械学習ソリューションの開発が目指されている。 本稿では、pythonライブラリやパッケージ、bertのような最先端アルゴリズムなど、既存のフレームワークが提供する機会と課題について論じ、解説し、アドホックな機械学習プロセスに沿って配置する。 このコントリビューションでは、サステナビリティ関連レビューの識別から持続可能なデザインリードの解釈(データ収集、データフォーマッティング、モデルトレーニング、モデル評価、モデルデプロイメント)までの5つのステージを含む、製品レビューからより持続可能な製品設計までの洞察を得るために、マシンラーニングパイプラインを構築するための機会と課題について論じている。 製品レビューのマイニングと処理から生み出される持続可能な設計上の洞察の例が提供される。 最後に、顧客から価値ある特徴を比較検討し、細かな関連性のあるデザインリードを生成するために、標準製品と持続可能な代替品を併用するケーススタディなど、今後の研究に期待できるラインが提供される。

The increasing number of product reviews posted online is a gold mine for designers to know better about the products they develop, by capturing the voice of customers, and to improve these products accordingly. In the meantime, product design and development have an essential role in creating a more sustainable future. With the recent advance of artificial intelligence techniques in the field of natural language processing, this research aims to develop an integrated machine learning solution to obtain sustainable design insights from online product reviews automatically. In this paper, the opportunities and challenges offered by existing frameworks - including Python libraries, packages, as well as state-of-the-art algorithms like BERT - are discussed, illustrated, and positioned along an ad hoc machine learning process. This contribution discusses the opportunities to reach and the challenges to address for building a machine learning pipeline, in order to get insights from product reviews to design more sustainable products, including the five following stages, from the identification of sustainability-relat ed reviews to the interpretation of sustainable design leads: data collection, data formatting, model training, model evaluation, and model deployment. Examples of sustainable design insights that can be produced out of product review mining and processing are given. Finally, promising lines for future research in the field are provided, including case studies putting in parallel standard products with their sustainable alternatives, to compare the features valued by customers and to generate in fine relevant sustainable design leads.
翻訳日:2021-12-20 14:05:18 公開日:2021-12-17
# 自己適応型アーキテクチャにおける適応規則のファジフィケーションに向けて

Towards fuzzification of adaptation rules in self-adaptive architectures ( http://arxiv.org/abs/2112.09468v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Bure\v{s}, Petr Hn\v{e}tynka, Martin Kruli\v{s}, Danylo Khalyeyev, Sebastian Hahner, Stephan Seifermann, Maximilian Walter, Robert Heinrich(参考訳) 本稿では,自己適応型アーキテクチャの解析と計画段階におけるニューラルネットワークの活用に着目する。 論文で研究されているモチベーションケースは、既存の(レガシ)自己適応アーキテクチャとそれらの適応論理であり、論理規則によって規定されている。 さらに,これらのシステムに対して,入力や期待出力の例に基づいて学習する能力を与える必要があると仮定する。 このようなニーズに対処する簡単な選択肢のひとつは、論理ルールに基づいた推論をニューラルネットワークに置き換えることだ。 しかし、このステップは、少なくとも一時的な回帰を引き起こすことが多いいくつかの問題をもたらす。 その理由は、論理ルールは一般的に、大きくてテストされたドメイン知識の塊を表しており、論理ルールがニューラルネットワークに置き換えられると失われる可能性があるためである。 さらに、ジェネリックニューラルネットワークのブラックボックスの性質は、システムの内部動作を曖昧にし、結果としてより不確実性をもたらす。 本稿では,ニューラルネットワークを用いて学習する能力を備えた自己適応型アーキテクチャの実現を可能にするとともに,論理ルールに存在するドメイン知識を保存可能にする手法を提案する。 本稿では,既存のルールベースシステムと汎用ニューラルネットワークに基づくシステムとの連続性について述べる。 この連続体でナビゲートする方法を示し、元の論理ルールを自然に組み込むニューラルネットワークアーキテクチャと、ネットワークの学習能力の段階的拡大方法を示し、すべてのソフトコンピューティングモデルに固有の不確実性を制御する。 実生活における2つの大きなユースケースにおける代表的抜粋に対するアプローチの紹介と評価を行った。

In this paper, we focus on exploiting neural networks for the analysis and planning stage in self-adaptive architectures. The studied motivating cases in the paper involve existing (legacy) self-adaptive architectures and their adaptation logic, which has been specified by logical rules. We further assume that there is a need to endow these systems with the ability to learn based on examples of inputs and expected outputs. One simple option to address such a need is to replace the reasoning based on logical rules with a neural network. However, this step brings several problems that often create at least a temporary regress. The reason is the logical rules typically represent a large and tested body of domain knowledge, which may be lost if the logical rules are replaced by a neural network. Further, the black-box nature of generic neural networks obfuscates how the systems work inside and consequently introduces more uncertainty. In this paper, we present a method that makes it possible to endow an existing self-adaptive architectures with the ability to learn using neural networks, while preserving domain knowledge existing in the logical rules. We introduce a continuum between the existing rule-based system and a system based on a generic neural network. We show how to navigate in this continuum and create a neural network architecture that naturally embeds the original logical rules and how to gradually scale the learning potential of the network, thus controlling the uncertainty inherent to all soft computing models. We showcase and evaluate the approach on representative excerpts from two larger real-life use cases.
翻訳日:2021-12-20 14:04:51 公開日:2021-12-17
# 学習報酬機械:部分的に観察可能な強化学習の研究

Learning Reward Machines: A Study in Partially Observable Reinforcement Learning ( http://arxiv.org/abs/2112.09477v1 )

ライセンス: Link先を確認
Rodrigo Toro Icarte, Ethan Waldie, Toryn Q. Klassen, Richard Valenzano, Margarita P. Castro, Sheila A. McIlraith(参考訳) 強化学習(RL)は人工知能の中心的な問題である。 この問題は、エージェントが最大化しようとする報酬信号に関して最適な行動を定義する環境と相互作用することで最適な行動を学ぶことができる人工エージェントを定義することで成り立っている。 リワードマシン(RM)は、RLエージェントがRL問題を構造化サブプロブレムに分解し、非政治的な学習を通じて効率的に学習できる報酬関数の構造化された自動表現を提供する。 ここでは、ユーザによって指定されるのではなく、経験からRMを学習できることを示し、その結果の問題を分解することで、部分的に観測可能なRL問題を効果的に解決できることを示す。 我々は,RMを離散最適化問題として学習するタスクを,その目的は,問題を一連のサブプロブレムに分解するRMを見つけることであり,それらの最適メモリレスポリシの組み合わせが元の問題にとって最適なポリシーであることを示す。 我々は,3つの部分可観測領域において,a3c,ppo,acerを著しく上回るこの手法の有効性を示し,その利点,限界,より広い可能性について論じる。

Reinforcement learning (RL) is a central problem in artificial intelligence. This problem consists of defining artificial agents that can learn optimal behaviour by interacting with an environment -- where the optimal behaviour is defined with respect to a reward signal that the agent seeks to maximize. Reward machines (RMs) provide a structured, automata-based representation of a reward function that enables an RL agent to decompose an RL problem into structured subproblems that can be efficiently learned via off-policy learning. Here we show that RMs can be learned from experience, instead of being specified by the user, and that the resulting problem decomposition can be used to effectively solve partially observable RL problems. We pose the task of learning RMs as a discrete optimization problem where the objective is to find an RM that decomposes the problem into a set of subproblems such that the combination of their optimal memoryless policies is an optimal policy for the original problem. We show the effectiveness of this approach on three partially observable domains, where it significantly outperforms A3C, PPO, and ACER, and discuss its advantages, limitations, and broader potential.
翻訳日:2021-12-20 14:04:26 公開日:2021-12-17
# 広帯域域におけるガウスRBF中心カーネルアライメント(CKA)

Gaussian RBF Centered Kernel Alignment (CKA) in the Large Bandwidth Limit ( http://arxiv.org/abs/2112.09305v1 )

ライセンス: Link先を確認
Sergio A. Alvarez (Boston College, Chestnut Hill, MA, USA)(参考訳) ガウス的RBFカーネルに基づくCKA(Centered Kernel Alignment)が、大帯域限界において線形CKAに収束することを証明する。 収束オンセットは特徴表現の幾何に敏感であり、表現偏心性はガウス CKA が非線形に振る舞う帯域幅の範囲を制限していることを示す。

We prove that Centered Kernel Alignment (CKA) based on a Gaussian RBF kernel converges to linear CKA in the large-bandwidth limit. We show that convergence onset is sensitive to the geometry of the feature representations, and that representation eccentricity bounds the range of bandwidths for which Gaussian CKA behaves nonlinearly.
翻訳日:2021-12-20 14:03:46 公開日:2021-12-17
# マルチタスク学習による顕在的深層学習の改善

Improving evidential deep learning via multi-task learning ( http://arxiv.org/abs/2112.09368v1 )

ライセンス: Link先を確認
Dongpin Oh and Bonggun Shin(参考訳) Evidential regression network (ENet)は、ベイズ平均化を伴わない連続目標とその予測不確実性を推定する。 しかし、ENetの元々の損失関数の勾配縮小問題、負の対数限界率(NLL)損失により、ターゲットが不正確に予測される可能性がある。 本稿では,勾配縮小問題を解き明かし,効率のよい不確実性評価を維持しつつ,ENetの予測精度を向上させることを目的とする。 この目的を達成するために,MT-ENetと呼ばれるマルチタスク学習(MTL)フレームワークを提案する。 MTLでは、リプシッツ修正平均二乗誤差(MSE)損失関数を別の損失として定義し、既存のNLL損失に加算する。 リプシッツ修正MSE損失は、そのリプシッツ定数を動的に調整することにより、NLL損失との勾配矛盾を軽減するように設計されている。 これにより、リプシッツMSE損失はNLL損失の不確実性評価を妨げない。 MT-ENetは、ドラッグターゲット親和性(DTA)回帰を含む、合成データセットおよび実世界のベンチマークにおける不確実性推定能力を失うことなく、ENetの予測精度を向上させる。 さらに、mt-enetはdtaベンチマークで顕著な校正と分散検出能力を示す。

The Evidential regression network (ENet) estimates a continuous target and its predictive uncertainty without costly Bayesian model averaging. However, it is possible that the target is inaccurately predicted due to the gradient shrinkage problem of the original loss function of the ENet, the negative log marginal likelihood (NLL) loss. In this paper, the objective is to improve the prediction accuracy of the ENet while maintaining its efficient uncertainty estimation by resolving the gradient shrinkage problem. A multi-task learning (MTL) framework, referred to as MT-ENet, is proposed to accomplish this aim. In the MTL, we define the Lipschitz modified mean squared error (MSE) loss function as another loss and add it to the existing NLL loss. The Lipschitz modified MSE loss is designed to mitigate the gradient conflict with the NLL loss by dynamically adjusting its Lipschitz constant. By doing so, the Lipschitz MSE loss does not disturb the uncertainty estimation of the NLL loss. The MT-ENet enhances the predictive accuracy of the ENet without losing uncertainty estimation capability on the synthetic dataset and real-world benchmarks, including drug-target affinity (DTA) regression. Furthermore, the MT-ENet shows remarkable calibration and out-of-distribution detection capability on the DTA benchmarks.
翻訳日:2021-12-20 14:02:52 公開日:2021-12-17
# 疎ガウス過程回帰に対する専門家の相関積

Correlated Product of Experts for Sparse Gaussian Process Regression ( http://arxiv.org/abs/2112.09519v1 )

ライセンス: Link先を確認
Manuel Sch\"urch, Dario Azzimonti, Alessio Benavoli, Marco Zaffalon(参考訳) ガウス過程(GP)は、社会科学から自然科学、工学に至るまで、機械学習や統計学において重要なツールである。 これらは、よく校正された不確実性推定を持つ強力なカーネル化された非パラメトリック法を構成するが、計算複雑性のため、市販のGP推論手順は数千のデータポイントを持つデータセットに限られる。 このため、近年多くのスパースGP技術が開発されている。 本稿では,GP回帰タスクに着目し,複数のローカルおよび相関の専門家からの予測を集約した新しいアプローチを提案する。 これにより、専門家間の相関度は、独立した専門家から完全に相関した専門家まで様々である。 専門家の個人予測は、その相関を考慮して集約され、一貫した不確実性推定をもたらす。 本手法は, 独立系エキスパート製品, スパースGP, フルGPを限定例で回収する。 提案フレームワークは一般的なカーネル関数と複数の変数を扱うことができ、専門家やデータサンプルの数に線形な時間と空間の複雑さを持つため、我々のアプローチは高度にスケーラブルである。 提案手法は, 決定論的かつ確率的最適化を伴う実世界のデータセットだけでなく, 合成のための最先端gp近似法に対して, 時間的にも精度的にも優れた性能を示す。

Gaussian processes (GPs) are an important tool in machine learning and statistics with applications ranging from social and natural science through engineering. They constitute a powerful kernelized non-parametric method with well-calibrated uncertainty estimates, however, off-the-shelf GP inference procedures are limited to datasets with several thousand data points because of their cubic computational complexity. For this reason, many sparse GPs techniques have been developed over the past years. In this paper, we focus on GP regression tasks and propose a new approach based on aggregating predictions from several local and correlated experts. Thereby, the degree of correlation between the experts can vary between independent up to fully correlated experts. The individual predictions of the experts are aggregated taking into account their correlation resulting in consistent uncertainty estimates. Our method recovers independent Product of Experts, sparse GP and full GP in the limiting cases. The presented framework can deal with a general kernel function and multiple variables, and has a time and space complexity which is linear in the number of experts and data samples, which makes our approach highly scalable. We demonstrate superior performance, in a time vs. accuracy sense, of our proposed method against state-of-the-art GP approximation methods for synthetic as well as several real-world datasets with deterministic and stochastic optimization.
翻訳日:2021-12-20 14:02:31 公開日:2021-12-17
# 様々な層に対する適応型アクティベーション関数のカスタマイズ

Adaptively Customizing Activation Functions for Various Layers ( http://arxiv.org/abs/2112.09442v1 )

ライセンス: Link先を確認
Haigen Hu, Aizhu Liu, Qiu Guan, Xiaoxin Li, Shengyong Chen, Qianwei Zhou(参考訳) ニューラルネットワークの非線形性を高め、入力と応答変数間のマッピング能力を高めるために、アクティベーション関数はデータ内のより複雑な関係やパターンをモデル化するために重要な役割を果たす。 本研究では,sgmoid,tanh,reluといった従来のアクティベーション関数に少数のパラメータを追加するだけで,アクティベーション関数を適応的にカスタマイズする手法を提案する。 提案手法の有効性を検証するため, 収束の促進と性能向上に関する理論的および実験的分析を行い, 各種ネットワークモデル(AlexNet, VGGNet, GoogLeNet, ResNet, DenseNet)と各種データセット(CIFAR10, CIFAR100, miniImageNet, PASCAL VOC, COCO)に基づいて一連の実験を行った。 様々な最適化戦略と利用シナリオにおける妥当性と適合性をさらに検証するために、sgd、momentum、adagrad、adadelta、adamといった異なる最適化戦略と、分類や検出のような異なる認識タスクの間で比較実験も実施されている。 結果は、提案手法は非常に単純であるが、収束速度、精度、一般化において有意な性能を有しており、reluのような他の一般的な方法や、swishのような適応関数を、全体のパフォーマンスの観点からほぼすべての実験で上回ることができることを示している。 このパッケージには再現性のために提案された3つの適応活性化機能が含まれている。

To enhance the nonlinearity of neural networks and increase their mapping abilities between the inputs and response variables, activation functions play a crucial role to model more complex relationships and patterns in the data. In this work, a novel methodology is proposed to adaptively customize activation functions only by adding very few parameters to the traditional activation functions such as Sigmoid, Tanh, and ReLU. To verify the effectiveness of the proposed methodology, some theoretical and experimental analysis on accelerating the convergence and improving the performance is presented, and a series of experiments are conducted based on various network models (such as AlexNet, VGGNet, GoogLeNet, ResNet and DenseNet), and various datasets (such as CIFAR10, CIFAR100, miniImageNet, PASCAL VOC and COCO) . To further verify the validity and suitability in various optimization strategies and usage scenarios, some comparison experiments are also implemented among different optimization strategies (such as SGD, Momentum, AdaGrad, AdaDelta and ADAM) and different recognition tasks like classification and detection. The results show that the proposed methodology is very simple but with significant performance in convergence speed, precision and generalization, and it can surpass other popular methods like ReLU and adaptive functions like Swish in almost all experiments in terms of overall performance.The code is publicly available at https://github.com/H uHaigen/Adaptively-C ustomizing-Activatio n-Functions. The package includes the proposed three adaptive activation functions for reproducibility purposes.
翻訳日:2021-12-20 14:01:18 公開日:2021-12-17
# コンクリートの3次元画像におけるひび割れの分割方法:半合成画像による比較

Methods for segmenting cracks in 3d images of concrete: A comparison based on semi-synthetic images ( http://arxiv.org/abs/2112.09493v1 )

ライセンス: Link先を確認
Tin Barisin, Christian Jung, Franziska M\"usebeck, Claudia Redenbach, Katja Schladitz(参考訳) コンクリートは建物、橋、道路の標準的な建設材料である。 コンクリート構造物の設計, 監視, 維持において安全が重要な役割を担っているため, コンクリートのひび割れ挙動を理解することが重要である。 コンピュータトモグラフィーは建築材料の微細構造を捉え、亀裂の発生と伝播を研究することができる。 大規模な3次元画像におけるき裂面の手動分割は不可能である。 本稿では,3次元画像の自動き裂分割法について概説し,比較する。 半合成3次元画像に対して,古典的画像処理手法(エッジ検出フィルタ,テンプレートマッチング,最小経路,領域成長アルゴリズム)と学習手法(畳み込みニューラルネットワーク,ランダムフォレスト)を検討,検証した。 それらの性能は、画像の灰色の値分布とコンクリートの幾何学的性質に適応すべきパラメータ選択に強く依存する。 一般に、学習方法は、特に薄いひび割れと低い灰色のコントラストに対して最もよく機能する。

Concrete is the standard construction material for buildings, bridges, and roads. As safety plays a central role in the design, monitoring, and maintenance of such constructions, it is important to understand the cracking behavior of concrete. Computed tomography captures the microstructure of building materials and allows to study crack initiation and propagation. Manual segmentation of crack surfaces in large 3d images is not feasible. In this paper, automatic crack segmentation methods for 3d images are reviewed and compared. Classical image processing methods (edge detection filters, template matching, minimal path and region growing algorithms) and learning methods (convolutional neural networks, random forests) are considered and tested on semi-synthetic 3d images. Their performance strongly depends on parameter selection which should be adapted to the grayvalue distribution of the images and the geometric properties of the concrete. In general, the learning methods perform best, in particular for thin cracks and low grayvalue contrast.
翻訳日:2021-12-20 14:00:44 公開日:2021-12-17
# 画素蒸留:低解像度画像認識のための新しい知識蒸留法

Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition ( http://arxiv.org/abs/2112.09532v1 )

ライセンス: Link先を確認
Guangyu Guo, Longfei Han, Junwei Han, Dingwen Zhang(参考訳) ディープラーニングの大きな成功は主に、大規模なネットワークアーキテクチャと高品質なトレーニングデータによるものだ。 しかし、最近の深層モデルをメモリとイメージング能力に制限のあるポータブルデバイスに展開することは依然として困難である。 既存のいくつかの研究は、知識蒸留を通じてモデルを圧縮している。 残念なことに、これらの手法は低解像度(LR)画像のような画質の低い画像を扱うことができない。 そこで本研究では,高分解能(HR)画像から学習したヘビーネットワークモデルからLR画像を扱う小型ネットワークモデルへ有用な知識を抽出するための先駆的な取り組みを行い,新しい画素蒸留技術によって現在の知識蒸留技術を進める。 この目的を達成するために,モデル圧縮段階と高分解能表現伝達段階に知識蒸留を分散させるTAS(Teacher-Assistan t-Student)フレームワークを提案する。 提案手法は,新しい機能スーパーレゾリューション(FSR)モジュールを装備することにより,重度教師モデルと同様の精度で,パラメータが少なく,推論速度が速く,低解像度入力が可能な軽量ネットワークモデルを学習することができる。 CUB-200-2011, PASCAL VOC 2007, ImageNetSubの3つのベンチマークを総合的に検証し, 提案手法の有効性を実証した。

The great success of deep learning is mainly due to the large-scale network architecture and the high-quality training data. However, it is still challenging to deploy recent deep models on portable devices with limited memory and imaging ability. Some existing works have engaged to compress the model via knowledge distillation. Unfortunately, these methods cannot deal with images with reduced image quality, such as the low-resolution (LR) images. To this end, we make a pioneering effort to distill helpful knowledge from a heavy network model learned from high-resolution (HR) images to a compact network model that will handle LR images, thus advancing the current knowledge distillation technique with the novel pixel distillation. To achieve this goal, we propose a Teacher-Assistant-St udent (TAS) framework, which disentangles knowledge distillation into the model compression stage and the high resolution representation transfer stage. By equipping a novel Feature Super Resolution (FSR) module, our approach can learn lightweight network model that can achieve similar accuracy as the heavy teacher model but with much fewer parameters, faster inference speed, and lower-resolution inputs. Comprehensive experiments on three widely-used benchmarks, \ie, CUB-200-2011, PASCAL VOC 2007, and ImageNetSub, demonstrate the effectiveness of our approach.
翻訳日:2021-12-20 14:00:28 公開日:2021-12-17
# SATソリューションのパフォーマンス予測のためのMLサポート

ML Supported Predictions for SAT Solvers Performance ( http://arxiv.org/abs/2112.09438v1 )

ライセンス: Link先を確認
A.-M. Leventi-Peetz, J\"org-Volker Peetz, Martina Rohde(参考訳) オープンソースのSATソルバCryptoMiniSatの非決定論的終了動作をマルチスレッドモードで分類するために,ブール整合性問題インスタンスの処理を困難にし,内部ソルバ実行パラメータを収集し解析した。 これらのパラメータのサブセットが選択され、特徴ベクトルとして採用され、未解決のインスタンスの1つの新しい解決実行で、ソルバの終了動作のバイナリ分類のための機械学習モデルの作成に成功している。 このモデルは、迅速な終了確率の高い候補のクラスに属するか否かに関わらず、解決の試みを早期に見積もることができる。 この文脈では、ランタイム特性のアクティブプロファイルの組み合わせは、ソルバの瞬間的ヒューリスティックがソルバの解決プロセスの即時品質に与える影響を反映しているように見える。 最初の2つの解決イテレーションのランタイムパラメータは、良好な成功スコアで試行の終了を予測するのに十分であるため、本研究の結果は、CryptoMiniSatやAI能力を備えた現代のSATソルバの強化のために、さらに発展できる有望な基礎を提供する。

In order to classify the indeterministic termination behavior of the open source SAT solver CryptoMiniSat in multi-threading mode while processing hard to solve boolean satisfiability problem instances, internal solver runtime parameters have been collected and analyzed. A subset of these parameters has been selected and employed as features vector to successfully create a machine learning model for the binary classification of the solver's termination behavior with any single new solving run of a not yet solved instance. The model can be used for the early estimation of a solving attempt as belonging or not belonging to the class of candidates with good chances for a fast termination. In this context a combination of active profiles of runtime characteristics appear to mirror the influence of the solver's momentary heuristics on the immediate quality of the solver's resolution process. Because runtime parameters of already the first two solving iterations are enough to forecast termination of the attempt with good success scores, the results of the present work deliver a promising basis which can be further developed in order to enrich CryptoMiniSat or generally any modern SAT solver with AI abilities.
翻訳日:2021-12-20 13:58:45 公開日:2021-12-17
# 予期せぬ状況における自律型エージェントのオンラインデータ駆動型緊急対応手法

An Online Data-Driven Emergency-Response Method for Autonomous Agents in Unforeseen Situations ( http://arxiv.org/abs/2112.09670v1 )

ライセンス: Link先を確認
Glenn Maguire, Nicholas Ketz, Praveen Pilly, Jean-Baptiste Mouret(参考訳) 強化学習エージェントは、トレーニング中に遭遇したエージェントの分布内で入力を提示すると、うまく機能する。 しかし、新たな訓練を受けるまで、新たなアウトオブディストリビューションイベントに直面すると効果的に対応できない。 本稿では、自律型エージェントに対して、トレーニングや対処用に設計されたものと非常に異なる予期せぬ状況に対応する能力を提供することを目的として、オンラインでデータ駆動型緊急応答方式を提案する。 このような状況において、これらの新しい状況で得られた観察は、エージェントが処理に最適化した入力の分布の外側にあるため、学習されたポリシーが適切に実行されるとは期待できない。 提案手法では,変分オートエンコーダからの再構成誤差の増加率を最小化する動作を選択することにより,予期せぬ状況に対する応答を順次改善する。 この最適化は、修正ベイズ最適化手順を用いて、(30データポイントの順序で)データ効率の良い方法でオンラインで達成される。 エージェントが2秒以内に応答を考案し、訓練中に見たことのない物体との衝突を避けるというシミュレーション3次元自動車運転シナリオにおいて、このアプローチの可能性を実証する。

Reinforcement learning agents perform well when presented with inputs within the distribution of those encountered during training. However, they are unable to respond effectively when faced with novel, out-of-distribution events, until they have undergone additional training. This paper presents an online, data-driven, emergency-response method that aims to provide autonomous agents the ability to react to unexpected situations that are very different from those it has been trained or designed to address. In such situations, learned policies cannot be expected to perform appropriately since the observations obtained in these novel situations would fall outside the distribution of inputs that the agent has been optimized to handle. The proposed approach devises a customized response to the unforeseen situation sequentially, by selecting actions that minimize the rate of increase of the reconstruction error from a variational auto-encoder. This optimization is achieved online in a data-efficient manner (on the order of 30 data-points) using a modified Bayesian optimization procedure. We demonstrate the potential of this approach in a simulated 3D car driving scenario, in which the agent devises a response in under 2 seconds to avoid collisions with objects it has not seen during training.
翻訳日:2021-12-20 13:58:26 公開日:2021-12-17
# 不均一データによるフェデレートラーニング:超等価最適化手法

Federated Learning with Heterogeneous Data: A Superquantile Optimization Approach ( http://arxiv.org/abs/2112.09429v1 )

ライセンス: Link先を確認
Krishna Pillutla, Yassine Laguel, J\'er\^ome Malick, Zaid Harchaoui(参考訳) 我々は,ヘテロジニアスデータを持つ個々のクライアントに対して,優れた予測性能を提供するように設計されたフェデレーション学習フレームワークを提案する。 提案手法は、不均一なクライアント上のエラー分布のテール統計をキャプチャする超量子的学習目標に基づく。 本稿では,差分プライベートクライアント再重み付けステップをフェデレート平均ステップでインターリーブする確率的トレーニングアルゴリズムを提案する。 提案アルゴリズムは凸および非凸設定の両方をカバーする有限時間収束を保証する。 フェデレーション学習のためのベンチマークデータセットにおける実験結果から,本手法は従来の手法と平均誤差で比較し,誤差のテール統計で比較した。

We present a federated learning framework that is designed to robustly deliver good predictive performance across individual clients with heterogeneous data. The proposed approach hinges upon a superquantile-based learning objective that captures the tail statistics of the error distribution over heterogeneous clients. We present a stochastic training algorithm which interleaves differentially private client reweighting steps with federated averaging steps. The proposed algorithm is supported with finite time convergence guarantees that cover both convex and non-convex settings. Experimental results on benchmark datasets for federated learning demonstrate that our approach is competitive with classical ones in terms of average error and outperforms them in terms of tail statistics of the error.
翻訳日:2021-12-20 13:58:06 公開日:2021-12-17
# (参考訳) 半教師付き医用画像セグメンテーションのための擬似ラベル型自己学習による局所的コントラスト損失 [全文訳有]

Local contrastive loss with pseudo-label based self-training for semi-supervised medical image segmentation ( http://arxiv.org/abs/2112.09645v1 )

ライセンス: CC BY 4.0
Krishna Chaitanya, Ertunc Erdil, Neerav Karani and Ender Konukoglu(参考訳) 教師付き深層学習に基づく手法は、医用画像分割の正確な結果をもたらす。 しかし、これらには大きなラベル付きデータセットが必要であり、それらの取得は、臨床専門知識を必要とする厳しい作業である。 セミ/セルフ教師付き学習ベースのアプローチは、注釈付きデータとともにラベルなしデータを活用することにより、この制限に対処する。 近年の自己教師付き学習手法では、比較損失を用いてラベルのない画像から優れたグローバルレベルの表現を学習し、ImageNetのような人気のある自然画像データセットの分類タスクで高い性能を達成する。 セグメンテーションなどの画素レベルの予測タスクでは,グローバルな表現とともに優れた局所レベルの表現を学習し,精度を向上させることが重要である。 しかし, 従来の局所的比較的損失に基づく手法の影響は, 半教師付きセッティングにおける大規模な専門家アノテーションの欠如による局所領域の意味ラベルに基づくものではなく, ランダムな拡張と空間的近接に基づいて, 類似および異種局所領域を定義しているため, よい局所表現の学習に限られている。 本稿では,未ラベル画像の擬似ラベルから得られたセグメンテーション情報を利用して,セグメンテーションに有用な画素レベルの特徴を学習するための局所的コントラスト損失を提案する。 特に,同じ擬似ラベル/ラベルを持つ画素に対して,データセットに異なる擬似ラベル/ラベルを持つ画素の表現と異同しながら,類似した表現を促進するために,提案した損失を定義する。 提案するラベル付き集合とラベルなし集合の両方のコントラスト損失と制限付き集合のみのセグメンテーション損失を共同で最適化し,疑似ラベルベースの自己学習を行い,ネットワークを訓練する。 3つの公開心・前立腺データセットを評価し,高いセグメンテーション性能を得た。

Supervised deep learning-based methods yield accurate results for medical image segmentation. However, they require large labeled datasets for this, and obtaining them is a laborious task that requires clinical expertise. Semi/self-supervised learning-based approaches address this limitation by exploiting unlabeled data along with limited annotated data. Recent self-supervised learning methods use contrastive loss to learn good global level representations from unlabeled images and achieve high performance in classification tasks on popular natural image datasets like ImageNet. In pixel-level prediction tasks such as segmentation, it is crucial to also learn good local level representations along with global representations to achieve better accuracy. However, the impact of the existing local contrastive loss-based methods remains limited for learning good local representations because similar and dissimilar local regions are defined based on random augmentations and spatial proximity; not based on the semantic label of local regions due to lack of large-scale expert annotations in the semi/self-supervised setting. In this paper, we propose a local contrastive loss to learn good pixel level features useful for segmentation by exploiting semantic label information obtained from pseudo-labels of unlabeled images alongside limited annotated images. In particular, we define the proposed loss to encourage similar representations for the pixels that have the same pseudo-label/ label while being dissimilar to the representation of pixels with different pseudo-label/label in the dataset. We perform pseudo-label based self-training and train the network by jointly optimizing the proposed contrastive loss on both labeled and unlabeled sets and segmentation loss on only the limited labeled set. We evaluated on three public cardiac and prostate datasets, and obtain high segmentation performance.
翻訳日:2021-12-20 13:55:51 公開日:2021-12-17
# WebGPT: ブラウザによる質問応答とフィードバック

WebGPT: Browser-assisted question-answering with human feedback ( http://arxiv.org/abs/2112.09332v1 )

ライセンス: Link先を確認
Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, Xu Jiang, Karl Cobbe, Tyna Eloundou, Gretchen Krueger, Kevin Button, Matthew Knight, Benjamin Chess, John Schulman(参考訳) 我々は,テキストベースのWebブラウジング環境を用いて,GPT-3を微調整し,ウェブの検索とナビゲートを可能にする。 タスクを人間によって実行できるように設定することで、模倣学習を用いてタスク上のモデルを訓練し、人間のフィードバックで回答品質を最適化することができる。 事実の精度をより容易に評価するためには、モデルが回答を支持するために閲覧中に参照を収集する必要がある。 モデルのトレーニングと評価は、redditユーザからの質問のデータセットであるeli5で行います。 行動クローニングを用いてGPT-3を微調整し、人間の嗜好を予測するために訓練された報酬モデルに対する拒絶サンプリングを行う。 このモデルの答えは、人間のデモ参加者の56%、redditの最も高い回答の69%が好まれています。

We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.
翻訳日:2021-12-20 13:20:25 公開日:2021-12-17
# 都市化の時空間モデリングのための深層学習

Deep Learning for Spatiotemporal Modeling of Urbanization ( http://arxiv.org/abs/2112.09668v1 )

ライセンス: Link先を確認
Tang Li, Jing Gao, Xi Peng(参考訳) 都市化は世界中の人口の健康と幸福に強い影響を与えている。 したがって、都市化の予測的空間モデリングは、効果的な公衆衛生計画に有用である。 多くの空間都市化モデルは古典的な機械学習と数値モデリング技術を用いて開発されてきた。 しかし,複雑な時空間現象を捉えた深層学習は都市化モデルには適用されていない。 本稿では,都市化予測モデルにおける深層空間学習の能力について考察する。 我々は,数値地理空間データを画素やチャネルの画像として扱うとともに,深層学習の高能力化のために,拡張によるデータセットの充実を図る。 その結果得られたモデルは、エンドツーエンドの多変量都市化予測を生成でき、先行比較で最先端の機械学習都市化モデルを上回る。

Urbanization has a strong impact on the health and wellbeing of populations across the world. Predictive spatial modeling of urbanization therefore can be a useful tool for effective public health planning. Many spatial urbanization models have been developed using classic machine learning and numerical modeling techniques. However, deep learning with its proven capacity to capture complex spatiotemporal phenomena has not been applied to urbanization modeling. Here we explore the capacity of deep spatial learning for the predictive modeling of urbanization. We treat numerical geospatial data as images with pixels and channels, and enrich the dataset by augmentation, in order to leverage the high capacity of deep learning. Our resulting model can generate end-to-end multi-variable urbanization predictions, and outperforms a state-of-the-art classic machine learning urbanization model in preliminary comparisons.
翻訳日:2021-12-20 13:19:48 公開日:2021-12-17
# PeopleSansPeople:人間中心のコンピュータビジョンのための合成データジェネレータ

PeopleSansPeople: A Synthetic Data Generator for Human-Centric Computer Vision ( http://arxiv.org/abs/2112.09290v1 )

ライセンス: Link先を確認
Salehe Erfanian Ebadi, You-Cyuan Jhang, Alex Zook, Saurav Dhakad, Adam Crespi, Pete Parisi, Steven Borkman, Jonathan Hogins, Sujoy Ganguly(参考訳) 近年、人検出と人間のポーズ推定は、大規模ラベル付きデータセットによって大きく進歩している。 しかし、これらのデータセットには人間の活動、ポーズ、文脈の多様性の保証や分析はありませんでした。 さらに、プライバシー、法的、安全、倫理的な懸念は、より多くの人間データを収集する能力を制限する可能性がある。 現実のデータに代わる新たな選択肢として、合成データがある。 しかし、合成データジェネレータの作成は非常に困難であり、研究者がその有用性を探ることができない。 そこで我々は,シミュレーション可能な3次元人的資産,パラメタライズドライティングとカメラシステム,2Dおよび3Dバウンディングボックス,インスタンスとセマンティックセグメンテーション,COCOポーズラベルを含む,人間中心の合成データ生成装置PeopleSansPeopleをリリースした。 我々はpeoplesanspeopleを用いて detectionron2 keypoint r-cnn variant [1] を用いてベンチマーク合成データトレーニングを行った。 その結果, 合成データを用いてネットワークを事前トレーニングし, ターゲットの実世界データ(COCO-人列車[2]の限定サブセットへのショット転送)を微調整すると, キーポイントAPが60.37 \pm 0.48$ (COCO test-dev2017) となり, 同じ実データでトレーニングされたモデル(keypoint APが55.80$) とImageNet(keypoint APが57.50$) で事前トレーニングされたモデルよりも優れていた。 このフリーで利用可能なデータ生成装置は、人間中心のコンピュータビジョンの重要な領域において、シミュレーションの分野から実際の移動学習まで、幅広い研究を可能にする。

In recent years, person detection and human pose estimation have made great strides, helped by large-scale labeled datasets. However, these datasets had no guarantees or analysis of human activities, poses, or context diversity. Additionally, privacy, legal, safety, and ethical concerns may limit the ability to collect more human data. An emerging alternative to real-world data that alleviates some of these issues is synthetic data. However, creation of synthetic data generators is incredibly challenging and prevents researchers from exploring their usefulness. Therefore, we release a human-centric synthetic data generator PeopleSansPeople which contains simulation-ready 3D human assets, a parameterized lighting and camera system, and generates 2D and 3D bounding box, instance and semantic segmentation, and COCO pose labels. Using PeopleSansPeople, we performed benchmark synthetic data training using a Detectron2 Keypoint R-CNN variant [1]. We found that pre-training a network using synthetic data and fine-tuning on target real-world data (few-shot transfer to limited subsets of COCO-person train [2]) resulted in a keypoint AP of $60.37 \pm 0.48$ (COCO test-dev2017) outperforming models trained with the same real data alone (keypoint AP of $55.80$) and pre-trained with ImageNet (keypoint AP of $57.50$). This freely-available data generator should enable a wide range of research into the emerging field of simulation to real transfer learning in the critical area of human-centric computer vision.
翻訳日:2021-12-20 13:19:36 公開日:2021-12-17
# リアルタイム推論制約付き句読点予測のためのマスク結合復号と分類手法

Mask-combine Decoding and Classification Approach for Punctuation Prediction with real-time Inference Constraints ( http://arxiv.org/abs/2112.08098v2 )

ライセンス: Link先を確認
Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell(参考訳) そこで本研究では,句読点予測のための既存のデコード戦略を1つのフレームワークで統一し,複数の単語を異なるウィンドウにまたがって複数の予測を行う新しい手法を提案する。 モデルトレーニング後にこれらの戦略を最適化することで、大きな改善が可能であり、再トレーニングの必要はなく、推論時間の潜在的な増加につながることを示しています。 我々はさらに、リアルタイム設定における句読点予測のためのタグ付けと分類アプローチの最初の比較にデコード戦略フレームワークを使用する。 その結果、句読点予測のための分類手法は、右辺の文脈がほとんど、あるいは全く存在しない場合に有益であることが示された。

In this work, we unify several existing decoding strategies for punctuation prediction in one framework and introduce a novel strategy which utilises multiple predictions at each word across different windows. We show that significant improvements can be achieved by optimising these strategies after training a model, only leading to a potential increase in inference time, with no requirement for retraining. We further use our decoding strategy framework for the first comparison of tagging and classification approaches for punctuation prediction in a real-time setting. Our results show that a classification approach for punctuation prediction can be beneficial when little or no right-side context is available.
翻訳日:2021-12-20 11:43:02 公開日:2021-12-17
# CLIN-X:事前訓練言語モデルと臨床領域における概念抽出のためのクロスタスク転送に関する研究

CLIN-X: pre-trained language models and a study on cross-task transfer for concept extraction in the clinical domain ( http://arxiv.org/abs/2112.08754v2 )

ライセンス: Link先を確認
Lukas Lange, Heike Adel, Jannik Str\"otgen, Dietrich Klakow(参考訳) 自然言語処理(NLP)の分野は最近、ほとんどあらゆるタスクを解くために事前訓練された言語モデルを使用することに大きく変化している。 様々なタスクでベンチマークデータセットが大幅に改善されているにもかかわらず、これらのモデルは、事前トレーニングされたドキュメントとターゲットドキュメントの間の大きなギャップが観察される臨床ドメインのような非標準ドメインで副最適化を実行することが多い。 本稿では,言語モデルのドメイン特化トレーニングでこのギャップを解消することを目的として,下流タスクと設定の多種多様な集合にその影響について検討する。 プレトレーニングされたCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが2つの言語から臨床概念抽出タスクを10回行う場合、他のトレーニング済みトランスフォーマーモデルよりも優れていることを示す。 さらに,ランダムスプリットとクロスセンテンスコンテキストを用いたアンサンブルに基づくタスク非依存モデルアーキテクチャにより,トランスフォーマティブモデルをさらに改善できることを実証する。 本研究は,250文のラベル付き文が利用可能である場合に,47F1ポイントのアノテートデータがないにもかかわらず,低リソースおよび転送条件で安定したモデル性能を示す。 この結果から,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性が強調されるとともに,タスクに依存しないモデルアーキテクチャがテスト対象のタスクや言語間で堅牢であるため,ドメインやタスク固有の適応が不要であることを示す。

The field of natural language processing (NLP) has recently seen a large change towards using pre-trained language models for solving almost any task. Despite showing great improvements in benchmark datasets for various tasks, these models often perform sub-optimal in non-standard domains like the clinical domain where a large gap between pre-training documents and target documents is observed. In this paper, we aim at closing this gap with domain-specific training of the language model and we investigate its effect on a diverse set of downstream tasks and settings. We introduce the pre-trained CLIN-X (Clinical XLM-R) language models and show how CLIN-X outperforms other pre-trained transformer models by a large margin for ten clinical concept extraction tasks from two languages. In addition, we demonstrate how the transformer model can be further improved with our proposed task- and language-agnostic model architecture based on ensembles over random splits and cross-sentence context. Our studies in low-resource and transfer settings reveal stable model performance despite a lack of annotated data with improvements of up to 47 F1 points when only 250 labeled sentences are available. Our results highlight the importance of specialized language models as CLIN-X for concept extraction in non-standard domains, but also show that our task-agnostic model architecture is robust across the tested tasks and languages so that domain- or task-specific adaptations are not required.
翻訳日:2021-12-20 11:42:50 公開日:2021-12-17
# GRAM:3次元画像生成のための生成放射マニフォールド

GRAM: Generative Radiance Manifolds for 3D-Aware Image Generation ( http://arxiv.org/abs/2112.08867v2 )

ライセンス: Link先を確認
Yu Deng, Jiaolong Yang, Jianfeng Xiang, Xin Tong(参考訳) 3D対応画像生成モデリングは、カメラポーズを明示的に制御可能な3D一貫性画像を生成することを目的としている。 ニューラル・ラジアンス・フィールド (nerf) ジェネレータを非構造化2d画像に訓練することで、近年の研究では有望な結果が得られたが、細部まで詳細な画像を生成することはできない。 重要な理由は、ボリューム表現学習の高記憶量と計算コストが、トレーニング中の放射積分のための点サンプル数を大幅に制限しているためである。 欠損サンプリングは、ジェネレータの表現力を制限するだけでなく、不安定なモンテカルロサンプリングによるノイズによる効果的なGANトレーニングを阻害する。 本稿では,3次元体積の暗黙曲面の集合として具体化された2次元多様体上の点サンプリングと放射場学習を規制する新しい手法を提案する。 それぞれの視線に対して、線面の交点を計算し、ネットワークによって生成された放射率を蓄積する。 このような放射率多様体の訓練とレンダリングにより、われわれのジェネレータは、現実的な細部と強力な視覚的3D整合性を持つ高品質な画像を生成することができる。

3D-aware image generative modeling aims to generate 3D-consistent images with explicitly controllable camera poses. Recent works have shown promising results by training neural radiance field (NeRF) generators on unstructured 2D images, but still can not generate highly-realistic images with fine details. A critical reason is that the high memory and computation cost of volumetric representation learning greatly restricts the number of point samples for radiance integration during training. Deficient sampling not only limits the expressive power of the generator to handle fine details but also impedes effective GAN training due to the noise caused by unstable Monte Carlo sampling. We propose a novel approach that regulates point sampling and radiance field learning on 2D manifolds, embodied as a set of learned implicit surfaces in the 3D volume. For each viewing ray, we calculate ray-surface intersections and accumulate their radiance generated by the network. By training and rendering such radiance manifolds, our generator can produce high quality images with realistic fine details and strong visual 3D consistency.
翻訳日:2021-12-20 11:42:23 公開日:2021-12-17
# 平面物体追跡のためのホログラフィ分解ネットワーク

Homography Decomposition Networks for Planar Object Tracking ( http://arxiv.org/abs/2112.07909v2 )

ライセンス: Link先を確認
Xinrui Zhan, Yueran Liu, Jianke Zhu, Yang Li(参考訳) 平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。 以前の平面トラッカーは、ほとんどのシナリオでうまく機能するが、高速な動きと2つの連続するフレーム間の大きな変換のため、依然として困難な作業である。 この問題の根本原因は、ホモグラフィパラメータ空間の探索範囲が大きくなると、そのような非線形システムの条件数が不安定に変化することである。 そこで本研究では,ホモグラフィ変換を2つのグループに分解することにより,条件数を大幅に削減し安定化する新しいホモグラフィ分解ネットワーク(hdn)を提案する。 特に、類似性変換推定器は、深い畳み込み同変ネットワークによって第一群をロバストに予測するように設計されている。 スケールと回転推定を高い信頼度で活用することにより、簡単な回帰モデルにより残留変換を推定する。 さらに、提案するエンドツーエンドネットワークを半教師付き方式でトレーニングする。 大規模な実験により,提案手法は,挑戦的なPOT,UCSB,POICデータセットに対して,最先端の平面追跡手法よりも高い性能を示した。

Planar object tracking plays an important role in AI applications, such as robotics, visual servoing, and visual SLAM. Although the previous planar trackers work well in most scenarios, it is still a challenging task due to the rapid motion and large transformation between two consecutive frames. The essential reason behind this problem is that the condition number of such a non-linear system changes unstably when the searching range of the homography parameter space becomes larger. To this end, we propose a novel Homography Decomposition Networks~(HDN) approach that drastically reduces and stabilizes the condition number by decomposing the homography transformation into two groups. Specifically, a similarity transformation estimator is designed to predict the first group robustly by a deep convolution equivariant network. By taking advantage of the scale and rotation estimation with high confidence, a residual transformation is estimated by a simple regression model. Furthermore, the proposed end-to-end network is trained in a semi-supervised fashion. Extensive experiments show that our proposed approach outperforms the state-of-the-art planar tracking methods at a large margin on the challenging POT, UCSB and POIC datasets.
翻訳日:2021-12-20 11:42:05 公開日:2021-12-17
# 存在規則言語のプログラム表現力の特徴付け

Characterizing the Program Expressive Power of Existential Rule Languages ( http://arxiv.org/abs/2112.08136v2 )

ライセンス: Link先を確認
Heng Zhang(参考訳) 既存のルール言語はオントロジーによるクエリ応答(OMQA)で広く使われているオントロジー言語のファミリーである。 しかし、ほとんどの場合、プログラム表現力として知られるOMQAのドメイン知識を表現する表現力はまだ十分に理解されていない。 本稿では,タプル生成依存言語(tgd)や線形tgd,連結型tgdなど,いくつかの重要な存在規則言語のプログラム表現力に関する多くの新しい特徴付けについて述べる。 キャラクタリゼーションは自然モデル理論特性と時折オートマトン理論特性を使用し、これらの言語におけるOMQAのドメイン知識の定義可能性を特定する強力なツールを提供する。

Existential rule languages are a family of ontology languages that have been widely used in ontology-mediated query answering (OMQA). However, for most of them, the expressive power of representing domain knowledge for OMQA, known as the program expressive power, is not well-understood yet. In this paper, we establish a number of novel characterizations for the program expressive power of several important existential rule languages, including tuple-generating dependencies (TGDs), linear TGDs, as well as disjunctive TGDs. The characterizations employ natural model-theoretic properties, and automata-theoretic properties sometimes, which thus provide powerful tools for identifying the definability of domain knowledge for OMQA in these languages.
翻訳日:2021-12-20 11:41:47 公開日:2021-12-17
# グラフニューラルネットワークによる多変量実現ボラティリティ予測

Multivariate Realized Volatility Forecasting with Graph Neural Network ( http://arxiv.org/abs/2112.09015v2 )

ライセンス: Link先を確認
Qinkai Chen, Christian-Yann Robert(参考訳) 既存の出版物は、制限順序の帳簿データは、株式市場の短期的変動を予測するのに有用であることを示している。 株式は独立ではないため、一方の株式の変更は他の関連株にも影響を及ぼす可能性がある。 本稿では,リレーショナルデータとリレーショナルデータに基づく多変量アプローチで,短期的に実現されたボラティリティを予測することに関心がある。 この目標を達成するために,ボラティリティ予測のためのグラフトランスフォーマネットワークを提案する。 このモデルでは、制限順序帳の特徴と、異なるソースからの時間的および横断的な関係を無制限に組み合わせることができる。 S&P500種株価指数の約500株に基づく実験の結果、他のベンチマークよりもモデルの性能が良いことが判明した。

The existing publications demonstrate that the limit order book data is useful in predicting short-term volatility in stock markets. Since stocks are not independent, changes on one stock can also impact other related stocks. In this paper, we are interested in forecasting short-term realized volatility in a multivariate approach based on limit order book data and relational data. To achieve this goal, we introduce Graph Transformer Network for Volatility Forecasting. The model allows to combine limit order book features and an unlimited number of temporal and cross-sectional relations from different sources. Through experiments based on about 500 stocks from S&P 500 index, we find a better performance for our model than for other benchmarks.
翻訳日:2021-12-20 11:41:33 公開日:2021-12-17