このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220302となっている論文です。

PDF登録状況(公開日: 20220302)

TitleAuthorsAbstract論文公表日・翻訳日
# 生成トランスの検出における神経統計的特徴の敵対的ロバスト性

Adversarial Robustness of Neural-Statistical Features in Detection of Generative Transformers ( http://arxiv.org/abs/2203.07983v1 )

ライセンス: Link先を確認
Evan Crothers, Nathalie Japkowicz, Herna Viktor, Paula Branco(参考訳) コンピュータ生成テキストの検出は、新しい生成モデルによって、スパム、偽情報、フィッシング、オンライン影響キャンペーンの目的で悪用されるような、魅力的な人間のようなテキストを効率的に作成できるため、急速に重要度が高まっている分野である。 過去の研究は最先端のモデルの検出を研究してきたが、脅威の展望が発達しているにもかかわらず、敵の攻撃に対する検出方法の堅牢性に関する分析は最小限である。 そこで本研究では,ニューラルおよび非ニューラルアプローチによる,コンピュータ生成テキストの検出能力,テキスト攻撃に対するロバスト性,テキスト品質の判定に有効な敵の攻撃が与える影響について評価する。 統計的特徴は神経的特徴を過小評価するが、統計的特徴はアンサンブル検出モデルで活用できる対向ロバスト性を提供する。 その過程では,コンピュータ生成テキストの検出において従来有効な複雑なフラッサル特徴が,現代生成モデルに対する予測力に乏しく,その代わりに有望な統計的特徴を識別できることを見出した。 最後に,逆テキスト品質の人的判断のための代用尺度として$\Delta$MAUVEを考案した。

The detection of computer-generated text is an area of rapidly increasing significance as nascent generative models allow for efficient creation of compelling human-like text, which may be abused for the purposes of spam, disinformation, phishing, or online influence campaigns. Past work has studied detection of current state-of-the-art models, but despite a developing threat landscape, there has been minimal analysis of the robustness of detection methods to adversarial attacks. To this end, we evaluate neural and non-neural approaches on their ability to detect computer-generated text, their robustness against text adversarial attacks, and the impact that successful adversarial attacks have on human judgement of text quality. We find that while statistical features underperform neural features, statistical features provide additional adversarial robustness that can be leveraged in ensemble detection models. In the process, we find that previously effective complex phrasal features for detection of computer-generated text hold little predictive power against contemporary generative models, and identify promising statistical features to use instead. Finally, we pioneer the usage of $\Delta$MAUVE as a proxy measure for human judgement of adversarial text quality.
翻訳日:2022-03-20 23:10:34 公開日:2022-03-02
# 一貫性に基づく模倣と適応:深層強化学習を用いたビデオから動物を模倣する四足ロボット

Imitation and Adaptation Based on Consistency: A Quadruped Robot Imitates Animals from Videos Using Deep Reinforcement Learning ( http://arxiv.org/abs/2203.05973v1 )

ライセンス: Link先を確認
Qingfeng Yao, Jilong Wang, Shuyu Yang, Cong Wang, Hongyin Zhang, Qifeng Zhang, Donglin Wang(参考訳) 四重項運動の本質は重心の動きであり、四重項の動きにパターンがある。 しかし,四足歩行ロボットの歩行動作計画には時間を要する。 自然界の動物は、ロボットが学習し模倣するための大量の歩行情報を提供することができる。 一般的な方法は、モーションキャプチャシステムや多数のモーションデータポイントを用いて動物の姿勢を学習する。 本稿では,動物の動作を模倣し,数秒のビデオからロボットに適応できる映像模倣適応ネットワーク(vian)を提案する。 深層学習モデルは、ビデオから動物の動きのキーポイントを抽出する。 vianはノイズを除去し、モーションアダプタで動きのキー情報を抽出し、抽出された動き関数をモーションパターンとして深層強化学習(drl)に適用する。 ビデオにおける学習結果と動物の動きの類似性を確保するため,動作の一貫性に基づいた報酬を導入する。 drlは、ビデオからの動きパターンからバランスを保ち、動物の動作を模倣し、最終的にはモデルがさまざまな動物の短い動きビデオから歩き方やスキルを学習し、実際のロボットに動きパターンを転送できるようにする。

The essence of quadrupeds' movements is the movement of the center of gravity, which has a pattern in the action of quadrupeds. However, the gait motion planning of the quadruped robot is time-consuming. Animals in nature can provide a large amount of gait information for robots to learn and imitate. Common methods learn animal posture with a motion capture system or numerous motion data points. In this paper, we propose a video imitation adaptation network (VIAN) that can imitate the action of animals and adapt it to the robot from a few seconds of video. The deep learning model extracts key points during animal motion from videos. The VIAN eliminates noise and extracts key information of motion with a motion adaptor, and then applies the extracted movements function as the motion pattern into deep reinforcement learning (DRL). To ensure similarity between the learning result and the animal motion in the video, we introduce rewards that are based on the consistency of the motion. DRL explores and learns to maintain balance from movement patterns from videos, imitates the action of animals, and eventually, allows the model to learn the gait or skills from short motion videos of different animals and to transfer the motion pattern to the real robot.
翻訳日:2022-03-20 23:09:50 公開日:2022-03-02
# (参考訳) GFlowNetsを用いた生物配列設計 [全文訳有]

Biological Sequence Design with GFlowNets ( http://arxiv.org/abs/2203.04115v1 )

ライセンス: CC BY 4.0
Moksh Jain, Emmanuel Bengio, Alex-Hernandez Garcia, Jarrid Rector-Brooks, Bonaventure F. P. Dossou, Chanakya Ekbote, Jie Fu, Tianyu Zhang, Micheal Kilgour, Dinghuai Zhang, Lena Simine, Payel Das, Yoshua Bengio(参考訳) タンパク質やDNA配列のような望ましい性質を持つデノボ生物配列の設計は、しばしば数ラウンドの分子アイデアと高価なウェットラブ評価を伴う活性ループを含む。 これらの実験は複数の段階から構成され、精度と評価コストが増大し、候補をフィルターする。 これにより、提案された候補の多様性が、イデオレーションフェーズにおいて重要な考慮事項となる。 本研究では,近年提案されているGFlowNetsを多種多様な候補解の生成源として活用する能動的学習アルゴリズムを提案し,各ラウンド後の多種多様な有用(例えば,ペプチドの抗微生物活性の予測など)と情報的候補の獲得を目的とする。 また,gflownetsでの学習を高速化するための報酬関数に加えて,既存のラベル付き候補データセットを組み込む手法を提案する。 本手法は,いくつかの生物シーケンス設計タスクにおいて経験的な結果を示し,既存の手法に比べて高いスコアの候補を持つ新しいバッチを生成できることを見いだした。

Design of de novo biological sequences with desired properties, like protein and DNA sequences, often involves an active loop with several rounds of molecule ideation and expensive wet-lab evaluations. These experiments can consist of multiple stages, with increasing levels of precision and cost of evaluation, where candidates are filtered. This makes the diversity of proposed candidates a key consideration in the ideation phase. In this work, we propose an active learning algorithm leveraging epistemic uncertainty estimation and the recently proposed GFlowNets as a generator of diverse candidate solutions, with the objective to obtain a diverse batch of useful (as defined by some utility function, for example, the predicted anti-microbial activity of a peptide) and informative candidates after each round. We also propose a scheme to incorporate existing labeled datasets of candidates, in addition to a reward function, to speed up learning in GFlowNets. We present empirical results on several biological sequence design tasks, and we find that our method generates more diverse and novel batches with high scoring candidates compared to existing approaches.
翻訳日:2022-03-13 14:42:29 公開日:2022-03-02
# ブール満足度問題の解法における機械学習手法

Machine Learning Methods in Solving the Boolean Satisfiability Problem ( http://arxiv.org/abs/2203.04755v1 )

ライセンス: Link先を確認
Wenxuan Guo, Junchi Yan, Hui-Ling Zhen, Xijun Li, Mingxuan Yuan, Yaohui Jin(参考訳) 本稿では,従来のNP完全問題であるBoolean satisfiability problem(SAT)の解法に関する最近の文献を,機械学習技術の助けを借りてレビューする。 現代のsatソルバが大規模な産業事例を解決したにもかかわらず、手作りのヒューリスティックの設計は時間がかかり、経験的なものである。 このような状況下では、フレキシブルで表現力のある機械学習手法がこの長年の問題を解決するための適切な代替手段を提供する。 ML-SATソルバは,手作りの特徴を持つナイーブな分類器から,NuroSATのような新たなエンドツーエンドSATソルバに至るまでの進化と,既存のCDCLとローカル検索ソルバを機械学習手法で組み合わせた最近の進歩について検討する。 全体として、SATを機械学習で解決することは、有望だが挑戦的な研究トピックである。 我々は現在の作業の限界を結論し、今後の方向性を示唆する。

This paper reviews the recent literature on solving the Boolean satisfiability problem (SAT), an archetypal NP-complete problem, with the help of machine learning techniques. Despite the great success of modern SAT solvers to solve large industrial instances, the design of handcrafted heuristics is time-consuming and empirical. Under the circumstances, the flexible and expressive machine learning methods provide a proper alternative to solve this long-standing problem. We examine the evolving ML-SAT solvers from naive classifiers with handcrafted features to the emerging end-to-end SAT solvers such as NeuroSAT, as well as recent progress on combinations of existing CDCL and local search solvers with machine learning methods. Overall, solving SAT with machine learning is a promising yet challenging research topic. We conclude the limitations of current works and suggest possible future directions.
翻訳日:2022-03-13 13:25:57 公開日:2022-03-02
# 草の根の民主的メタバースの基礎

Foundations for Grassroots Democratic Metaverse ( http://arxiv.org/abs/2203.04090v1 )

ライセンス: Link先を確認
Nimrod Talmon and Ehud Shapiro(参考訳) 多くの人の物理的生活は民主主義(1人、投票1人、EUや米国など)にあるが、私たちのデジタル生活は大半が民主主義(1人、全票、Facebookなど)である。 暗号通貨は解放を約束するが、プルトクラシー(コイン1枚、票1枚)で止まる。 デジタル民主主義に生きるには何が必要でしょうか? 本稿では,草の根の民主的メタバースという,自律的・人手・人手・人手・人手によるデジタルコミュニティの,草の根ネットワークのためのビジョン,理論的枠組み,アーキテクチャを提供する。 また、それを実現するためのロードマップを示し、mas研究の未調査領域を特定する。

While the physical lives of many of us are in democracies (one person, one vote - e.g., the EU and the US), our digital lives are mostly in autocracies (one person, all votes - e.g., Facebook). Cryptocurrencies promise liberation but stop short, at plutocracy (one coin, one vote). What would it take for us to live in a digital democracy? This paper offers a vision, a theoretical framework, and an architecture for a grassroots network of autonomous, people-owned, people-operated, and people-governed digital communities, namely a grassroots democratic metaverse. It also charts a roadmap towards realizing it, and identifies unexplored territory for MAS research.
翻訳日:2022-03-13 13:25:01 公開日:2022-03-02
# 外乱予測制御に基づく移動可能な脚型移動操作フレームワーク

A Transferable Legged Mobile Manipulation Framework Based on Disturbance Predictive Control ( http://arxiv.org/abs/2203.03391v1 )

ライセンス: Link先を確認
Qingfeng Yao, Jilong Wan, Shuyu Yang, Cong Wang, Linghan Meng, Qifeng Zhang, Donglin Wang(参考訳) 異なる地形に適応する能力があるため、四足ロボットはロボット学習の研究分野で多くの注目を集めている。 四足歩行ロボットがロボットアームを装備した脚付き移動操作は、多様な操作タスクにおいてロボットの性能を大幅に向上させることができる。 いくつかの先行研究は制御理論の観点から手足による移動操作を調査してきた。 しかし、様々なロボットアームと四足ロボットの統一構造をモデル化することは難しい課題である。 本稿では,提案する低レベルコントローラに潜在動的アダプタを組み込んだ強化学習方式を組み込んだ統一フレームワーク外乱予測制御を提案する。 本手法は,いくつかのランダムな動作サンプルを用いて,様々なタイプのロボットアームに適応し,本手法の有効性を実験的に実証する。

Due to their ability to adapt to different terrains, quadruped robots have drawn much attention in the research field of robot learning. Legged mobile manipulation, where a quadruped robot is equipped with a robotic arm, can greatly enhance the performance of the robot in diverse manipulation tasks. Several prior works have investigated legged mobile manipulation from the viewpoint of control theory. However, modeling a unified structure for various robotic arms and quadruped robots is a challenging task. In this paper, we propose a unified framework disturbance predictive control where a reinforcement learning scheme with a latent dynamic adapter is embedded into our proposed low-level controller. Our method can adapt well to various types of robotic arms with a few random motion samples and the experimental results demonstrate the effectiveness of our method.
翻訳日:2022-03-13 13:24:49 公開日:2022-03-02
# 自然に意味のある効率的な記述子:頑健な単発ab initio記述子に基づく材料特性の機械学習

Naturally-meaningful and efficient descriptors: machine learning of material properties based on robust one-shot ab initio descriptors ( http://arxiv.org/abs/2203.03392v1 )

ライセンス: Link先を確認
Sherif Abdulkader Tawfik and Salvy P. Russo(参考訳) 新規な材料発見のためのデータ駆動パイプラインの確立には、実現可能な計算が可能で、素材のターゲット特性の予測に応用可能な材料特徴のエンジニアリングが必要である。 本稿では,結晶構造を記述するための新しい分類法を提案し,ロバスト・ワンショット・インニティオ (rosa) ディスクリプタと呼ぶ。 ROSAは計算コストが低く、様々な材料特性を正確に予測できる。 これらの単純で直感的な記述子は、不完全なab initio計算を用いて低レベルの理論で材料のエネルギーから生成される。 本研究では,ROSAディスクリプタをMLに基づく特性予測に組み込むことで,幅広い結晶,アモルファス化結晶,金属-有機系,分子の正確な予測が可能になることを示す。 計算コストの低さとディスクリプタの使用の容易さがmlベースの予測を大幅に改善すると信じています。

Establishing a data-driven pipeline for the discovery of novel materials requires the engineering of material features that can be feasibly calculated and can be applied to predict a material's target properties. Here we propose a new class of descriptors for describing crystal structures, which we term Robust One-Shot Ab initio (ROSA) descriptors. ROSA is computationally cheap and is shown to accurately predict a range of material properties. These simple and intuitive class of descriptors are generated from the energetics of a material at a low level of theory using an incomplete ab initio calculation. We demonstrate how the incorporation of ROSA descriptors in ML-based property prediction leads to accurate predictions over a wide range of crystals, amorphized crystals, metal-organic frameworks and molecules. We believe that the low computational cost and ease of use of these descriptors will significantly improve ML-based predictions.
翻訳日:2022-03-13 13:24:38 公開日:2022-03-02
# (参考訳) コンテキストアテンションネットワーク: Transformer が U-Net を発表 [全文訳有]

Contextual Attention Network: Transformer Meets U-Net ( http://arxiv.org/abs/2203.01932v1 )

ライセンス: CC BY 4.0
Azad Reza, Heidari Moein, Wu Yuli, Merhof Dorit(参考訳) 現在、畳み込みニューラルネットワーク(CNN、例えばU-Net)がデファクトスタンダードとなり、医療画像セグメンテーションにおいて大きな成功を収めている。 しかしながら、cnnベースのメソッドは、畳み込み操作の本質的な特性に起因する受容野が限られているため、長距離の依存関係やグローバルコンテキスト接続を構築することができないため、二重刃の剣である。 そのため,近年の論文では,注意機構を通じて長距離相関を捉えることができるため,医療用画像分割タスクにトランスフォーマティブを応用している。 実現可能な設計ではあるが、コホート研究の大部分は、地域情報の収集において禁止的な性能を発揮でき、その結果境界領域の光沢度は低下する。 本稿では,上記の制約に対処するためのコンテキストアテンションネットワークを提案する。 提案手法は, トランスフォーマーモジュールの強度を利用して, 長距離文脈依存性をモデル化する。 同時に、CNNエンコーダを使用して、ローカルセマンティック情報をキャプチャする。 さらに、地域相互作用マップをモデル化するために、オブジェクトレベルの表現が含まれている。 抽出した階層的特徴をコンテキストアテンションモジュールに供給し、局所情報を用いて表現空間を適応的に再調整する。 そして、トランスフォーマーモジュールから派生した長距離の文脈依存性を考慮しつつ、インフォメーション領域を強調している。 大規模医用画像セグメンテーションデータセットを用いて本手法の有効性を検証する。 実装コードはhttps://github.com/r ezazad68/tmunetで提供しました。

Currently, convolutional neural networks (CNN) (e.g., U-Net) have become the de facto standard and attained immense success in medical image segmentation. However, as a downside, CNN based methods are a double-edged sword as they fail to build long-range dependencies and global context connections due to the limited receptive field that stems from the intrinsic characteristics of the convolution operation. Hence, recent articles have exploited Transformer variants for medical image segmentation tasks which open up great opportunities due to their innate capability of capturing long-range correlations through the attention mechanism. Although being feasibly designed, most of the cohort studies incur prohibitive performance in capturing local information, thereby resulting in less lucidness of boundary areas. In this paper, we propose a contextual attention network to tackle the aforementioned limitations. The proposed method uses the strength of the Transformer module to model the long-range contextual dependency. Simultaneously, it utilizes the CNN encoder to capture local semantic information. In addition, an object-level representation is included to model the regional interaction map. The extracted hierarchical features are then fed to the contextual attention module to adaptively recalibrate the representation space using the local information. Then, they emphasize the informative regions while taking into account the long-range contextual dependency derived by the Transformer module. We validate our method on several large-scale public medical image segmentation datasets and achieve state-of-the-art performance. We have provided the implementation code in https://github.com/r ezazad68/TMUnet.
翻訳日:2022-03-08 05:48:24 公開日:2022-03-02
# 時間的文脈:病気の進行表現による単一画像予測の強化

Temporal Context Matters: Enhancing Single Image Prediction with Disease Progression Representations ( http://arxiv.org/abs/2203.01933v1 )

ライセンス: Link先を確認
Aishik Konwer, Xuan Xu, Joseph Bae, Chao Chen, Prateek Prasanna(参考訳) 医療画像からの臨床結果または重症度予測は、主にシングルタイムポイントまたはスナップショットスキャンからの学習表現に焦点を当てている。 病状進行は側頭葉画像でよりよく観察できることが示されている。 そこで我々は, シーケンシャル画像の病状進行情報を利用して, 結果予測を改善することができると仮定した。 本稿では, 時間経過情報を活用し, 単点画像からの予後予測を改善するための深層学習手法を提案する。 本手法では,自己注意に基づく時間的畳み込みネットワーク(TCN)を用いて,疾患の軌跡を最も反映した表現を学習する。 一方、視覚トランスフォーマーは自己教師方式で事前訓練され、シングルタイムポイント画像から特徴を抽出する。 鍵となる貢献は、上記の2つの文脈表現の分布を調整するのに最大平均不一致損失(mmd)を使用する再調整モジュールを設計することである。 単点画像から臨床結果と重症度を予測できるシステムを構築した。 胸部および変形性関節症x線画像データを用いた実験により,我々のアプローチは他の最先端技術よりも優れていることが示された。

Clinical outcome or severity prediction from medical images has largely focused on learning representations from single-timepoint or snapshot scans. It has been shown that disease progression can be better characterized by temporal imaging. We therefore hypothesized that outcome predictions can be improved by utilizing the disease progression information from sequential images. We present a deep learning approach that leverages temporal progression information to improve clinical outcome predictions from single-timepoint images. In our method, a self-attention based Temporal Convolutional Network (TCN) is used to learn a representation that is most reflective of the disease trajectory. Meanwhile, a Vision Transformer is pretrained in a self-supervised fashion to extract features from single-timepoint images. The key contribution is to design a recalibration module that employs maximum mean discrepancy loss (MMD) to align distributions of the above two contextual representations. We train our system to predict clinical outcomes and severity grades from single-timepoint images. Experiments on chest and osteoarthritis radiography datasets demonstrate that our approach outperforms other state-of-the-art techniques.
翻訳日:2022-03-07 15:45:55 公開日:2022-03-02
# (参考訳) 精神労働負荷指標としての脳波α-thetaとtheta-to-alphaバンド比の評価

An Evaluation of the EEG alpha-to-theta and theta-to-alpha band Ratios as Indexes of Mental Workload ( http://arxiv.org/abs/2202.12937v2 )

ライセンス: CC BY 4.0
Bujar Raufi and Luca Longo(参考訳) 多くの研究では、脳波帯、特にアルファバンドとテータバンドが認知負荷指標として有用であることが示されている。 しかし、この主張を裏付ける最小限の研究が存在する。 本研究の目的は,α-to-thetaとtheta-to-alphaのバンド比が,自己申告された精神労働負荷の知覚を識別できるモデルの作成を支援することにある。 生脳波データのデータセットを用いて,48名の被験者がマルチタスクsimkapテストの形式で休息動作と誘発課題要求運動を行った。 前方電極群と頭頂電極群からバンド比を考案した。 構築およびモデルテストは、時間とともに計算された比率から抽出された周波数および時間領域から高レベルな独立な特徴を用いて行われた。 休息後の主観的評価と課題要求行動からモデルトレーニングのターゲット特徴を抽出した。 モデルはロジスティック回帰、サポートベクターマシン、決定木を用いて構築され、精度、リコール、精度、f1-scoreなどの性能指標で評価された。 その結果,α-theta比とtheta-to-alpha比から抽出した高次特徴を用いたモデルの分類精度が高いことがわかった。 予備的な結果は、ロジスティック回帰とサポートベクターマシンで訓練されたモデルが、メンタルワークロードの自己報告された知覚を正確に分類できることも示している。 本研究は,α-to-thetaおよびtheta-to-alphaの脳波バンド比から抽出した時間領域,スペクトル領域,統計領域の情報の豊かさを,心的作業負荷の自己報告知覚の識別のために示し,知識体系に寄与する。

Many research works indicate that EEG bands, specifically the alpha and theta bands, have been potentially helpful cognitive load indicators. However, minimal research exists to validate this claim. This study aims to assess and analyze the impact of the alpha-to-theta and the theta-to-alpha band ratios on supporting the creation of models capable of discriminating self-reported perceptions of mental workload. A dataset of raw EEG data was utilized in which 48 subjects performed a resting activity and an induced task demanding exercise in the form of a multitasking SIMKAP test. Band ratios were devised from frontal and parietal electrode clusters. Building and model testing was done with high-level independent features from the frequency and temporal domains extracted from the computed ratios over time. Target features for model training were extracted from the subjective ratings collected after resting and task demand activities. Models were built by employing Logistic Regression, Support Vector Machines and Decision Trees and were evaluated with performance measures including accuracy, recall, precision and f1-score. The results indicate high classification accuracy of those models trained with the high-level features extracted from the alpha-to-theta ratios and theta-to-alpha ratios. Preliminary results also show that models trained with logistic regression and support vector machines can accurately classify self-reported perceptions of mental workload. This research contributes to the body of knowledge by demonstrating the richness of the information in the temporal, spectral and statistical domains extracted from the alpha-to-theta and theta-to-alpha EEG band ratios for the discrimination of self-reported perceptions of mental workload.
翻訳日:2022-03-06 14:08:13 公開日:2022-03-02
# 屋内定位のためのマルチモーダルリカレント核融合

Multi-Modal Recurrent Fusion for Indoor Localization ( http://arxiv.org/abs/2203.00510v2 )

ライセンス: Link先を確認
Jianyuan Yu and Pu (Perry) Wang and Toshiaki Koike-Akino and Philip V. Orlik(参考訳) 本稿では、Wi-Fi、慣性測定ユニット(IMU)、UWB(UWB)などのマルチモーダル無線信号を用いた屋内位置決めについて検討する。 局所化をマルチモーダルシーケンス回帰問題として定式化することにより、再帰ニューラルネットワークの文脈における各モダリティの現在隠れ状態と、その直近の過去状態から直接学習されるモダリティの不確かさとを組み合わせたマルチストリームリカレント融合法を提案する。 提案手法は, 大規模SPAWC2021マルチモーダルローカライゼーションデータセットを用いて評価し, トリラレーション法, 従来のフィンガープリント法, 畳み込みネットワークベースの手法を含む幅広いベースライン手法と比較した。

This paper considers indoor localization using multi-modal wireless signals including Wi-Fi, inertial measurement unit (IMU), and ultra-wideband (UWB). By formulating the localization as a multi-modal sequence regression problem, a multi-stream recurrent fusion method is proposed to combine the current hidden state of each modality in the context of recurrent neural networks while accounting for the modality uncertainty which is directly learned from its own immediate past states. The proposed method was evaluated on the large-scale SPAWC2021 multi-modal localization dataset and compared with a wide range of baseline methods including the trilateration method, traditional fingerprinting methods, and convolution network-based methods.
翻訳日:2022-03-06 13:12:57 公開日:2022-03-02
# (参考訳) 深部確率予測のロングテールの改ざん [全文訳有]

Taming the Long Tail of Deep Probabilistic Forecasting ( http://arxiv.org/abs/2202.13418v2 )

ライセンス: CC BY 4.0
Jedrzej Kozerawski, Mayank Sharan, Rose Yu(参考訳) 電力消費量の推定から自動運転車の軌道予測まで、多くの応用において、深い確率的予測が注目されている。 しかし、既存のアプローチは、稀で難しいケースのパフォーマンスに対処することなく、最も一般的なシナリオの改善に焦点を当てている。 本研究では,確率予測における最先端の深層学習手法の性能の長い尾の挙動を同定する。 そこで本研究では,pareto loss と kurtosis loss の2つのモーメントに基づくtailedness measurement 概念を提案する。 クルトーシス損失は、損失分布の平均に関する4番目のモーメントとして対称な測定である。 パレートロス(pareto loss)は、一般化パレート分布(gpd)を用いた損失のモデル化である。 時系列や時空間的軌跡を含む実世界のデータセットにおける我々のアプローチの性能を実証し、テールの例で大幅に改善した。

Deep probabilistic forecasting is gaining attention in numerous applications ranging from weather prognosis, through electricity consumption estimation, to autonomous vehicle trajectory prediction. However, existing approaches focus on improvements on the most common scenarios without addressing the performance on rare and difficult cases. In this work, we identify a long tail behavior in the performance of state-of-the-art deep learning methods on probabilistic forecasting. We present two moment-based tailedness measurement concepts to improve performance on the difficult tail examples: Pareto Loss and Kurtosis Loss. Kurtosis loss is a symmetric measurement as the fourth moment about the mean of the loss distribution. Pareto loss is asymmetric measuring right tailedness, modeling the loss using a generalized Pareto distribution (GPD). We demonstrate the performance of our approach on several real-world datasets including time series and spatiotemporal trajectories, achieving significant improvements on the tail examples.
翻訳日:2022-03-05 14:47:46 公開日:2022-03-02
# (参考訳) 医用画像における伝達学習の課題 : 特徴再利用とその他の要因 [全文訳有]

What Makes Transfer Learning Work For Medical Images: Feature Reuse & Other Factors ( http://arxiv.org/abs/2203.01825v1 )

ライセンス: CC BY-SA 4.0
Christos Matsoukas, Johan Fredin Haslum, Moein Sorkhei, Magnus S\"oderberg, Kevin Smith(参考訳) 転校学習は知識をある領域から別の領域に移す標準的な技術である。 医療画像の分野では、ドメイン間のタスクやイメージ特性の違いにもかかわらず、ImageNetからの転送がデファクトなアプローチになっている。 しかし、医学領域への転校学習が有用かどうか、どの程度の要因が決定されるかは明らかではない。 ソースドメインの機能が再利用されるという長年の前提は、最近疑問視されている。 いくつかの医用画像ベンチマークデータセットにおける一連の実験を通じて、転送学習、データサイズ、モデルの容量と帰納バイアス、およびソースとターゲット領域の間の距離の関係について検討する。 その結果,転校学習はたいていの場合有益であり,機能再利用が成功に果たす役割を特徴付ける。

Transfer learning is a standard technique to transfer knowledge from one domain to another. For applications in medical imaging, transfer from ImageNet has become the de-facto approach, despite differences in the tasks and image characteristics between the domains. However, it is unclear what factors determine whether - and to what extent - transfer learning to the medical domain is useful. The long-standing assumption that features from the source domain get reused has recently been called into question. Through a series of experiments on several medical image benchmark datasets, we explore the relationship between transfer learning, data size, the capacity and inductive bias of the model, as well as the distance between the source and target domain. Our findings suggest that transfer learning is beneficial in most cases, and we characterize the important role feature reuse plays in its success.
翻訳日:2022-03-05 13:42:34 公開日:2022-03-02
# (参考訳) 画像からの強化学習のためのコントラスト学習と動的モデルの統合 [全文訳有]

Integrating Contrastive Learning with Dynamic Models for Reinforcement Learning from Images ( http://arxiv.org/abs/2203.01810v1 )

ライセンス: CC BY 4.0
Bang You, Oleg Arenz, Youping Chen, Jan Peters(参考訳) 画像からの強化学習法では,エージェントのポリシーやQ-関数で使用される画像特徴を補助的タスクで学習する。 特に,潜在ダイナミクスの線形性やデータ拡張の不変性を誘発するコントラスト学習に基づく手法は,強化学習アルゴリズムのサンプル効率と学習埋め込みの一般化性を大幅に改善することが示されている。 We further argue, that explicitly improving Markovianity of the learned embedding is desirable and propose a self-supervised representation learning method which integrates contrastive learning with dynamic models to synergistically combine these three objectives: (1) We maximize the InfoNCE bound on the mutual information between the stateand action-embedding and the embedding of the next state to induce a linearly predictive embedding without explicitly learning a linear transition model, (2) we further improve Markovianity of the learned embedding by explicitly learning a non-linear transition model using regression, and (3) we maximize the mutual information between the two nonlinear predictions of the next embeddings based on the current action and two independent augmentations of the current state, which naturally induces transformation invariance not only for the state embedding, but also for the nonlinear transition model. Deepmind 制御スイートの実験により,提案手法は,比較学習や再構成に基づく最先端手法よりも高いサンプリング効率と優れた一般化を実現することが示された。

Recent methods for reinforcement learning from images use auxiliary tasks to learn image features that are used by the agent's policy or Q-function. In particular, methods based on contrastive learning that induce linearity of the latent dynamics or invariance to data augmentation have been shown to greatly improve the sample efficiency of the reinforcement learning algorithm and the generalizability of the learned embedding. We further argue, that explicitly improving Markovianity of the learned embedding is desirable and propose a self-supervised representation learning method which integrates contrastive learning with dynamic models to synergistically combine these three objectives: (1) We maximize the InfoNCE bound on the mutual information between the state- and action-embedding and the embedding of the next state to induce a linearly predictive embedding without explicitly learning a linear transition model, (2) we further improve Markovianity of the learned embedding by explicitly learning a non-linear transition model using regression, and (3) we maximize the mutual information between the two nonlinear predictions of the next embeddings based on the current action and two independent augmentations of the current state, which naturally induces transformation invariance not only for the state embedding, but also for the nonlinear transition model. Experimental evaluation on the Deepmind control suite shows that our proposed method achieves higher sample efficiency and better generalization than state-of-art methods based on contrastive learning or reconstruction.
翻訳日:2022-03-05 12:51:11 公開日:2022-03-02
# (参考訳) 解釈可能なグラフ表現学習による微生物動態の理解 [全文訳有]

Understanding microbiome dynamics via interpretable graph representation learning ( http://arxiv.org/abs/2203.01830v1 )

ライセンス: CC BY 4.0
Kateryna Melnyk, Kuba Weimann, Tim O.F. Conrad(参考訳) マイクロバイオーム構成における大規模な摂動は、運転者であれ結果であれ、人間の生理学の健康と機能と強く相関している。 しかし、健康な個体と病気の個体のマイクロバイオームプロファイルの違いを理解することは、微生物間の多くの複雑な相互作用のために複雑になる。 本稿では,これらの相互作用を,ノードが微生物でエッジが相互作用する時間進化グラフとしてモデル化することを提案する。 このような複雑な相互作用を分析する必要性から、時間進化グラフの低次元表現を学習し、高次元空間で発生するダイナミクスを維持する方法を開発した。 実験により,低次元表現を学習するために,モデルに最も影響を与えるノードやエッジのクラスタなどのグラフ特徴を抽出することができることを示した。 この情報は、臨床疾患と強く相関する微生物や相互作用を特定するために重要である。 我々は合成および実世界のマイクロバイオームデータセットについて実験を行う。

Large-scale perturbations in the microbiome constitution are strongly correlated, whether as a driver or a consequence, with the health and functioning of human physiology. However, understanding the difference in the microbiome profiles of healthy and ill individuals can be complicated due to the large number of complex interactions among microbes. We propose to model these interactions as a time-evolving graph whose nodes are microbes and edges are interactions among them. Motivated by the need to analyse such complex interactions, we develop a method that learns a low-dimensional representation of the time-evolving graph and maintains the dynamics occurring in the high-dimensional space. Through our experiments, we show that we can extract graph features such as clusters of nodes or edges that have the highest impact on the model to learn the low-dimensional representation. This information can be crucial to identify microbes and interactions among them that are strongly correlated with clinical diseases. We conduct our experiments on both synthetic and real-world microbiome datasets.
翻訳日:2022-03-05 12:29:38 公開日:2022-03-02
# (参考訳) オープンセット意味セグメンテーションの条件的再構成 [全文訳有]

Conditional Reconstruction for Open-set Semantic Segmentation ( http://arxiv.org/abs/2203.01368v1 )

ライセンス: CC BY 4.0
Ian Nunes, Matheus B. Pereira, Hugo Oliveira, Jefersson A. dos Santos, Marcus Poggi(参考訳) オープンセットセグメンテーションは比較的新しく未検討なタスクであり、そのようなタスクをモデル化するために、ほんの一握りのメソッドが提案されている。我々は、pixelwiseマスクに従って入力画像のクラス条件再構築を用いて問題を解決するcoresegと呼ばれる新しい手法を提案する。 私たちのメソッドは、すべての既知のクラスに対して各入力ピクセルを条件付け、未知クラスのピクセルに対する高いエラーを予測します。 提案手法は予測値のセマンティックな一貫性を向上し, オブジェクト境界に適合するクリーン化マップが得られた。 CoRe-SegはVayhin-genとPotsdamのISPRSデータセットの最先端の手法よりも優れており、Houston 2018 IEEE GRSS Data Fusiondatasetでも共同で運用されている。 CoReSegの公式実装は以下の通りである。

Open set segmentation is a relatively new and unexploredtask, with just a handful of methods proposed to model suchtasks.We propose a novel method called CoReSeg thattackles the issue using class conditional reconstruction ofthe input images according to their pixelwise mask. Ourmethod conditions each input pixel to all known classes,expecting higher errors for pixels of unknown classes. Itwas observed that the proposed method produces better se-mantic consistency in its predictions, resulting in cleanersegmentation maps that better fit object boundaries. CoRe-Seg outperforms state-of-the-art methods on the Vaihin-gen and Potsdam ISPRS datasets, while also being com-petitive on the Houston 2018 IEEE GRSS Data Fusiondataset. Official implementation for CoReSeg is availableat:https:// github.com/iannunes/ CoReSeg.
翻訳日:2022-03-05 12:04:52 公開日:2022-03-02
# (参考訳) 大規模ゼロショット画像分類のための階層グラフ表現の探索 [全文訳有]

Exploring Hierarchical Graph Representation for Large-Scale Zero-Shot Image Classification ( http://arxiv.org/abs/2203.01386v1 )

ライセンス: CC BY 4.0
Kai Yi, Xiaoqian Shen, Yunhao Gou, Mohamed Elhoseiny(参考訳) 本稿では、ゼロショット学習(ゼロショット学習)として知られる未確認クラスの視覚的認識を、ImageNet-21Kベンチマークのように数万のカテゴリにスケールアップする方法について論じる。 このスケールでは、特にImageNet-21Kに含まれる細かなカテゴリでは、目に見えないクラスを識別し、目に見えないクラスと区別するのに十分な品質の視覚的意味表現を学習することが重要である。 hgr-net と呼ばれる信頼度に基づく分類法のための階層的グラフィカル知識表現フレームワークを提案する。 その結果,hgr-netは階層的概念知識を用いてクラス継承関係を把握できることがわかった。 提案手法は,ImageNet-21Kベンチマークのランナアップ手法と比較して,既存手法よりも性能が7%向上した。 本稿では,HGR-Netが学習効率が高いことを示す。 また,ImageNet-21K-P, 2-hops, 3-hopsなどの小さなデータセットを用いて解析を行い,その一般化能力を実証した。 私たちのベンチマークとコードは公開される予定だ。

The main question we address in this paper is how to scale up visual recognition of unseen classes, also known as zero-shot learning, to tens of thousands of categories as in the ImageNet-21K benchmark. At this scale, especially with many fine-grained categories included in ImageNet-21K, it is critical to learn quality visual semantic representations that are discriminative enough to recognize unseen classes and distinguish them from seen ones. We propose a Hierarchical Graphical knowledge Representation framework for the confidence-based classification method, dubbed as HGR-Net. Our experimental results demonstrate that HGR-Net can grasp class inheritance relations by utilizing hierarchical conceptual knowledge. Our method significantly outperformed all existing techniques, boosting the performance 7% compared to the runner-up approach on the ImageNet-21K benchmark. We show that HGR-Net is learning-efficient in few-shot scenarios. We also analyzed our method on smaller datasets like ImageNet-21K-P, 2-hops and 3-hops, demonstrating its generalization ability. Our benchmark and code will be made publicly available.
翻訳日:2022-03-05 11:55:52 公開日:2022-03-02
# (参考訳) 有向グラフクラスタリングのためのスキューシメトリ・アジャケーシ行列 [全文訳有]

Skew-Symmetric Adjacency Matrices for Clustering Directed Graphs ( http://arxiv.org/abs/2203.01388v1 )

ライセンス: CC BY 4.0
Koby Hayashi, Sinan G. Aksoy, Haesun Park(参考訳) カットベースの有向グラフ(グラフ)クラスタリングは、カットベースの無向グラフクラスタリング法と同様に、クラスタ内あるいはクラスタ間の疎結合を見つけることに焦点を当てることが多い。 対照的に、フローベースのクラスタリングでは、クラスタ間のエッジは一方向を向いており、マイグレーションデータ、フードウェブ、トレーディングデータに見出されている。 本稿では,フローベースのクラスタリングを見つけるためのスペクトルアルゴリズムを提案する。 提案アルゴリズムは,複素数値ヘルミタン行列を用いてグラフを表現した最近の研究に基づいている。 複素値のエルミート表現とそれに関連する実値のスキュー対称行列との代数的関係を確立することにより、提案アルゴリズムは実場に完全に留まりながらクラスタリングを生成する。 我々のアルゴリズムは、メモリを少なくし、漸近的に計算を少なくし、ソリューションの品質を確実に保存する。 また,このアルゴリズムは標準計算ビルディングブロックを用いて容易に実装でき,より優れた数値特性を有し,目的関数緩和引数による自然な解釈に自身を貸与できることを示した。

Cut-based directed graph (digraph) clustering often focuses on finding dense within-cluster or sparse between-cluster connections, similar to cut-based undirected graph clustering methods. In contrast, for flow-based clusterings the edges between clusters tend to be oriented in one direction and have been found in migration data, food webs, and trade data. In this paper we introduce a spectral algorithm for finding flow-based clusterings. The proposed algorithm is based on recent work which uses complex-valued Hermitian matrices to represent digraphs. By establishing an algebraic relationship between a complex-valued Hermitian representation and an associated real-valued, skew-symmetric matrix the proposed algorithm produces clusterings while remaining completely in the real field. Our algorithm uses less memory and asymptotically less computation while provably preserving solution quality. We also show the algorithm can be easily implemented using standard computational building blocks, possesses better numerical properties, and loans itself to a natural interpretation via an objective function relaxation argument.
翻訳日:2022-03-05 11:36:12 公開日:2022-03-02
# (参考訳) 局所保証による適応勾配法 [全文訳有]

Adaptive Gradient Methods with Local Guarantees ( http://arxiv.org/abs/2203.01400v1 )

ライセンス: CC BY 4.0
Zhou Lu, Wenhan Xia, Sanjeev Arora, Elad Hazan(参考訳) 適応勾配法(adaptive gradient method)は、機械学習における最適化の方法であり、最大の深層モデルの訓練に用いられる。 本稿では,最適化軌道に沿ってデータが変化するにつれて変化しうるローカルプリコンディショナーを学習する問題について検討する。 本稿では,最良局所前提条件に対する適応的後悔保証を証明可能な適応的勾配法を提案する。 この保証を導出するために,従来の適応型オンライン学習法を改善するオンライン学習における新たな適応型後悔を証明した。 視覚領域や言語領域で一般的なベンチマークタスクに対して最適な学習率スケジュールを自動的に選択する手法の堅牢性を示す。 学習率のスケジュールを手動で調整する必要がなく、単一の実行で、微調整オプティマイザとして同等で安定したタスク精度を達成することができる。

Adaptive gradient methods are the method of choice for optimization in machine learning and used to train the largest deep models. In this paper we study the problem of learning a local preconditioner, that can change as the data is changing along the optimization trajectory. We propose an adaptive gradient method that has provable adaptive regret guarantees vs. the best local preconditioner. To derive this guarantee, we prove a new adaptive regret bound in online learning that improves upon previous adaptive online learning methods. We demonstrate the robustness of our method in automatically choosing the optimal learning rate schedule for popular benchmarking tasks in vision and language domains. Without the need to manually tune a learning rate schedule, our method can, in a single run, achieve comparable and stable task accuracy as a fine-tuned optimizer.
翻訳日:2022-03-05 11:07:44 公開日:2022-03-02
# (参考訳) 教師なし学習による完全記憶型スパイクニューラルネットワーク [全文訳有]

A Fully Memristive Spiking Neural Network with Unsupervised Learning ( http://arxiv.org/abs/2203.01416v1 )

ライセンス: CC BY 4.0
Peng Zhou, Dong-Uk Choi, Jason K. Eshraghian, Sung-Mo Kang(参考訳) 本稿では,身体的に実現可能なmemristive neuronsとmemristive synapsesからなる完全なmemristive spiking neural network(msnn)を提案し,非教師なしスパイク時間依存可塑性(stdp)学習ルールを実装する。 このシステムは、memristorsを使用して、ニューロンとシナプスのダイナミクスの両方を実現できるという完全に記憶力のあるシステムである。 ニューロンは、異なる分極、過分極、再分極電圧波形を達成するのに必要な最小限の回路要素からなるSPICEレベルのメムリシティブ・インテリジェンス・アンド・ファイア(MIF)モデルを用いて実装される。 提案したMSNNは, シナプス間の電圧波形変化による間質性シナプスの累積重み変化を用いてSTDP学習を独自に実装し, トレーニング中のシナプス前および後シナプス後スパイク電圧信号から生じる。 2種類のMSNNアーキテクチャについて検討した。 1)生物学的に可能な記憶検索システム、及び 2)多クラス分類システム。 回路シミュレーションの結果,生物記憶検索機構を再現し,大規模判別MSNNにおける4パターン認識問題において97.5%の精度でMSNNの教師なし学習の有効性を検証する。

We present a fully memristive spiking neural network (MSNN) consisting of physically-realizabl e memristive neurons and memristive synapses to implement an unsupervised Spiking Time Dependent Plasticity (STDP) learning rule. The system is fully memristive in that both neuronal and synaptic dynamics can be realized by using memristors. The neuron is implemented using the SPICE-level memristive integrate-and-fire (MIF) model, which consists of a minimal number of circuit elements necessary to achieve distinct depolarization, hyperpolarization, and repolarization voltage waveforms. The proposed MSNN uniquely implements STDP learning by using cumulative weight changes in memristive synapses from the voltage waveform changes across the synapses, which arise from the presynaptic and postsynaptic spiking voltage signals during the training process. Two types of MSNN architectures are investigated: 1) a biologically plausible memory retrieval system, and 2) a multi-class classification system. Our circuit simulation results verify the MSNN's unsupervised learning efficacy by replicating biological memory retrieval mechanisms, and achieving 97.5% accuracy in a 4-pattern recognition problem in a large scale discriminative MSNN.
翻訳日:2022-03-05 10:45:54 公開日:2022-03-02
# (参考訳) spiceprop: memristive spiking neural networksによるエラーのバックプロパゲーション [全文訳有]

SPICEprop: Backpropagating Errors Through Memristive Spiking Neural Networks ( http://arxiv.org/abs/2203.01426v1 )

ライセンス: CC BY 4.0
Peng Zhou, Jason K. Eshraghian, Dong-Uk Choi, Sung-Mo Kang(参考訳) 本稿では,バックプロパゲーション・アズ・タイム(bptt)学習規則を用いて学習した新しいmemristive neural network(msnn)を提案する。 アナログSPICE回路モデルを用いて設計した間欠的統合火災(MIF)ニューロンに直接グラディエント降下を施し, 異なる脱分極, 過分極, 再分極電圧波形を生成する。 シナプス重みはMIFニューロンモデルの膜電位を用いてBPTTによって訓練され、間欠的なクロスバーで処理できる。 mifニューロンモデルの自然なスパイキングダイナミクスは完全微分可能であり、スパイキングニューラルネットワークの文献で一般的な勾配近似の必要性をなくしている。 SPICE回路モデル上でのトレーニングの複雑さが増したが、MNISTテストデータセットでは97.58%、Fashion-MNISTテストデータセットでは75.26%の精度で達成した。

We present a fully memristive spiking neural network (MSNN) consisting of novel memristive neurons trained using the backpropagation through time (BPTT) learning rule. Gradient descent is applied directly to the memristive integrated-and-fire (MIF) neuron designed using analog SPICE circuit models, which generates distinct depolarization, hyperpolarization, and repolarization voltage waveforms. Synaptic weights are trained by BPTT using the membrane potential of the MIF neuron model and can be processed on memristive crossbars. The natural spiking dynamics of the MIF neuron model and fully differentiable, eliminating the need for gradient approximations that are prevalent in the spiking neural network literature. Despite the added complexity of training directly on SPICE circuit models, we achieve 97.58% accuracy on the MNIST testing dataset and 75.26% on the Fashion-MNIST testing dataset, the highest accuracies among all fully MSNNs.
翻訳日:2022-03-05 10:32:11 公開日:2022-03-02
# (参考訳) muad: 複数の不確実性タイプとタスクに対する自律運転ベンチマークの複数の不確実性 [全文訳有]

MUAD: Multiple Uncertainties for Autonomous Driving benchmark for multiple uncertainty types and tasks ( http://arxiv.org/abs/2203.01437v1 )

ライセンス: CC BY 4.0
Gianni Franchi, Xuanlong Yu, Andrei Bursuc, R\'emi Kazmierczak, S\'everine Dubuisson, Emanuel Aldea, David Filliat(参考訳) 深層ニューラルネットワークを実世界の自律システムに適用するには,予測的不確実性推定が不可欠である。 しかし、多くのデータセットにおいて、異なる型や不確実性源を遠ざけることは、特に不確実性に関する基礎的な真実が存在しないため、自明ではない。 さらに、さまざまな天候条件がニューラルネットワークを混乱させ、トレーニングデータ品質の一貫性を損なう可能性がある。 そこで, MUADデータセット(Multiple Uncertainties for Autonomous Driving)を導入し, 種々の悪天候(夜間, 霧, 雨, 雪)や分布外物, 意味的セグメンテーション, 深度推定, オブジェクト, インスタンス検出のためのアノテーションを含む, 8500のリアルな合成画像からなる。 muadは、モデルパフォーマンスに対するさまざまな不確実性源の影響をよりよく評価する。 本稿では,複数の実験においてDNN(Deep Neural Networks)が重要であることを示すとともに,研究者がアルゴリズムを定量的に逆条件下でベンチマークできるようにデータセットをリリースする。 詳細と MUAD のダウンロードリンク は https://muad-dataset .github.io/ で公開されている。

Predictive uncertainty estimation is essential for deploying Deep Neural Networks in real-world autonomous systems. However, disentangling the different types and sources of uncertainty is non trivial in most datasets, especially since there is no ground truth for uncertainty. In addition, different degrees of weather conditions can disrupt neural networks, resulting in inconsistent training data quality. Thus, we introduce the MUAD dataset (Multiple Uncertainties for Autonomous Driving), consisting of 8,500 realistic synthetic images with diverse adverse weather conditions (night, fog, rain, snow), out-of-distribution objects and annotations for semantic segmentation, depth estimation, object and instance detection. MUAD allows to better assess the impact of different sources of uncertainty on model performance. We propose a study that shows the importance of having reliable Deep Neural Networks (DNNs) in multiple experiments, and will release our dataset to allow researchers to benchmark their algorithm methodically in ad-verse conditions. More information and the download link for MUAD are available at https://muad-dataset .github.io/ .
翻訳日:2022-03-05 10:22:27 公開日:2022-03-02
# (参考訳) 前向きモード差分による連続時間メタラーニング

Continuous-Time Meta-Learning with Forward Mode Differentiation ( http://arxiv.org/abs/2203.01443v1 )

ライセンス: CC BY 4.0
Tristan Deleu, David Kanaa, Leo Feng, Giancarlo Kerg, Yoshua Bengio, Guillaume Lajoie, Pierre-Luc Bacon(参考訳) 無限に小さな勾配ステップを持つ勾配に基づくメタ学習法から着想を得たメタ学習アルゴリズムであるCOMLN(Continuous-Tim e Meta-Learning)を導入する。 具体的には、通常の微分方程式(ODE)の解としてタスク固有の線形分類器が得られるように、入力の表現をメタ学習する。 学習過程をODEとして扱うことは、軌道の長さが一定かつ離散的な勾配ステップではなく、現在連続しているという顕著な利点を提供する。 その結果,新しい課題を確率的勾配降下を用いて解くために必要な適応量を最適化でき,また,勾配に基づくメタラーニングの標準的な手法である初期条件を学習できる。 重要なことは、外ループ更新に必要な正確なメタ勾配を計算するために、学習軌跡の長さに合わせてメモリ要求がスケールしないフォワードモード微分に基づく効率的なアルゴリズムを考案し、一定のメモリでより長い適応を可能にすることである。 我々は,comlnの安定性に関する解析的保証を提供し,実行時およびメモリ使用量の観点からその効率を実証的に示し,少数の画像分類問題に対してその効果を示す。

Drawing inspiration from gradient-based meta-learning methods with infinitely small gradient steps, we introduce Continuous-Time Meta-Learning (COMLN), a meta-learning algorithm where adaptation follows the dynamics of a gradient vector field. Specifically, representations of the inputs are meta-learned such that a task-specific linear classifier is obtained as a solution of an ordinary differential equation (ODE). Treating the learning process as an ODE offers the notable advantage that the length of the trajectory is now continuous, as opposed to a fixed and discrete number of gradient steps. As a consequence, we can optimize the amount of adaptation necessary to solve a new task using stochastic gradient descent, in addition to learning the initial conditions as is standard practice in gradient-based meta-learning. Importantly, in order to compute the exact meta-gradients required for the outer-loop updates, we devise an efficient algorithm based on forward mode differentiation, whose memory requirements do not scale with the length of the learning trajectory, thus allowing longer adaptation in constant memory. We provide analytical guarantees for the stability of COMLN, we show empirically its efficiency in terms of runtime and memory usage, and we illustrate its effectiveness on a range of few-shot image classification problems.
翻訳日:2022-03-05 10:09:07 公開日:2022-03-02
# (参考訳) 中レベル視覚表現を用いたオブジェクトポス推定 [全文訳有]

Object Pose Estimation using Mid-level Visual Representations ( http://arxiv.org/abs/2203.01449v1 )

ライセンス: CC BY 4.0
Negar Nejatishahidin, Pooya Fayyazsanavi, Jana Kosecka(参考訳) 本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。 ポーズ推定のための深層畳み込みネットワークモデル(CNN)は通常、大量のトレーニングデータを必要とするオブジェクト検出、ポーズ推定、あるいは3D再構成のために特別に計算されたデータセットに基づいて訓練され評価される。 本研究では、少量のデータで訓練できるポーズ推定モデルを提案し、一般的な中間レベル表現である「cite{taskonomy2018}」(表面正規推定や再シェーディングなど)の上に構築する。 これらの表現は、ポーズやオブジェクトアノテーションを必要とせずに、大きなデータセットでトレーニングされる。 その後、予測は、オブジェクトマスクとシルエット検索を利用する小さなcnnニューラルネットワークによって洗練される。 提案手法はPix3Dデータセット \cite{pix3d} 上での優れたパフォーマンスを実現し、トレーニングデータの25%しか利用できない場合、既存のモデルよりも35倍近く改善されている。 一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。 この目的のために,Active Vision Dataset \cite{Ammirato2017ADF} に挑戦する一般的な家具カテゴリーのポーズ推定ベンチマークを導入し,Pix3Dデータセットでトレーニングされたモデルを評価する。

This work proposes a novel pose estimation model for object categories that can be effectively transferred to previously unseen environments. The deep convolutional network models (CNN) for pose estimation are typically trained and evaluated on datasets specifically curated for object detection, pose estimation, or 3D reconstruction, which requires large amounts of training data. In this work, we propose a model for pose estimation that can be trained with small amount of data and is built on the top of generic mid-level representations \cite{taskonomy2018} (e.g. surface normal estimation and re-shading). These representations are trained on a large dataset without requiring pose and object annotations. Later on, the predictions are refined with a small CNN neural network that exploits object masks and silhouette retrieval. The presented approach achieves superior performance on the Pix3D dataset \cite{pix3d} and shows nearly 35\% improvement over the existing models when only 25\% of the training data is available. We show that the approach is favorable when it comes to generalization and transfer to novel environments. Towards this end, we introduce a new pose estimation benchmark for commonly encountered furniture categories on challenging Active Vision Dataset \cite{Ammirato2017ADF} and evaluated the models trained on the Pix3D dataset.
翻訳日:2022-03-05 10:07:58 公開日:2022-03-02
# (参考訳) ガウス過程のvecchia近似を用いたスケーラブルベイズ最適化 [全文訳有]

Scalable Bayesian Optimization Using Vecchia Approximations of Gaussian Processes ( http://arxiv.org/abs/2203.01459v1 )

ライセンス: CC BY 4.0
Felix Jimenez, Matthias Katzfuss(参考訳) ベイズ最適化はブラックボックス対象関数を最適化する手法である。 ベイズ最適化の核心は、期待できる入力値の選択を容易にするために、これまで見つからなかった入力で対象関数の出力を予測する代理モデルである。 ガウス過程 (GPs) は一般に代理モデルとして使用されるが、観測回数ではあまりスケールしないことが知られている。 空間統計学から一般的なGP近似であるVecchia近似を適用し、スケーラブルな高次元ベイズ最適化を実現する。 我々は,ミニバッチ勾配降下を用いたワープgpsの訓練,近似隣接探索,複数入力値の並列選択など,いくつかの改良と拡張を開発した。 我々は,thompson samplingによる信頼領域ベイズ最適化におけるvecchia gpの使用に注目した。 いくつかのテスト機能と2つの強化学習問題において,本手法は最先端技術と比較した。

Bayesian optimization is a technique for optimizing black-box target functions. At the core of Bayesian optimization is a surrogate model that predicts the output of the target function at previously unseen inputs to facilitate the selection of promising input values. Gaussian processes (GPs) are commonly used as surrogate models but are known to scale poorly with the number of observations. We adapt the Vecchia approximation, a popular GP approximation from spatial statistics, to enable scalable high-dimensional Bayesian optimization. We develop several improvements and extensions, including training warped GPs using mini-batch gradient descent, approximate neighbor search, and selecting multiple input values in parallel. We focus on the use of our warped Vecchia GP in trust-region Bayesian optimization via Thompson sampling. On several test functions and on two reinforcement-learni ng problems, our methods compared favorably to the state of the art.
翻訳日:2022-03-05 09:58:25 公開日:2022-03-02
# プライバシーを考慮したニア最適相関クラスタリング

Near-Optimal Correlation Clustering with Privacy ( http://arxiv.org/abs/2203.01440v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Chenglin Fan, Silvio Lattanzi, Slobodan Mitrovi\'c, Ashkan Norouzi-Fard, Nikos Parotsidis, Jakub Tarnawski(参考訳) 相関クラスタリングは教師なし学習における中心的な問題であり、コミュニティ検出、重複検出、自動ラベリングなど多くのアプリケーションにまたがる。 相関クラスタリング問題において、ノードの集合と各ノードに対して共クラスタリングの選好リストを入力として受信し、指定されたノードの選好との相違を最小限に抑えるクラスタリングを出力する。 本稿では,プライバシを保証可能な相関クラスタリング問題に対して,単純かつ計算効率の良いアルゴリズムを提案する。 我々の近似保証は、先行研究で示されるものよりも強く、対数係数に最適である。

Correlation clustering is a central problem in unsupervised learning, with applications spanning community detection, duplicate detection, automated labelling and many more. In the correlation clustering problem one receives as input a set of nodes and for each node a list of co-clustering preferences, and the goal is to output a clustering that minimizes the disagreement with the specified nodes' preferences. In this paper, we introduce a simple and computationally efficient algorithm for the correlation clustering problem with provable privacy guarantees. Our approximation guarantees are stronger than those shown in prior work and are optimal up to logarithmic factors.
翻訳日:2022-03-04 17:09:11 公開日:2022-03-02
# 学習確率的パラメトリック微分可能予測制御ポリシー

Learning Stochastic Parametric Differentiable Predictive Control Policies ( http://arxiv.org/abs/2203.01447v1 )

ライセンス: Link先を確認
J\'an Drgo\v{n}a, Sayak Mukherjee, Aaron Tuor, Mahantesh Halappanavar, Draguna Vrabie(参考訳) 確率的明示的モデル予測制御ポリシーを合成する問題は、古典的な制御理論の手法を用いる際には、控えめな複雑性のシステムであっても、素早く難解であることが知られている。 この課題に対処するために、確率的微分可能予測制御(SP-DPC)と呼ばれるスケーラブルな代替手法を提案し、非線形確率制約を受ける確率線形システムを管理する神経制御ポリシーの教師なし学習を行う。 SP-DPCは確率的パラメトリック制約最適制御問題に対する決定論的近似として定式化される。 この定式化により、問題の値関数の自動微分を通じてポリシー勾配を直接計算し、サンプルパラメータや不確実性から評価することができる。 特に、SP-DPC問題の値関数の計算された期待値は、既知の名目システム力学モデルと直接モデルベースのポリシー最適化を可能にするニューラルコントロールポリシーによってパラメータ化されたクローズドループシステムロールアウトによって逆伝搬される。 本研究では,SP-DPC法による閉ループ安定性と確率制約満足度に関する理論確率論的保証を提供する。 さらに,提案アルゴリズムの計算効率とスケーラビリティを,多数の状態を持つシステムや非線形制約を受けるシステムを含む3つの数値例で示す。

The problem of synthesizing stochastic explicit model predictive control policies is known to be quickly intractable even for systems of modest complexity when using classical control-theoretic methods. To address this challenge, we present a scalable alternative called stochastic parametric differentiable predictive control (SP-DPC) for unsupervised learning of neural control policies governing stochastic linear systems subject to nonlinear chance constraints. SP-DPC is formulated as a deterministic approximation to the stochastic parametric constrained optimal control problem. This formulation allows us to directly compute the policy gradients via automatic differentiation of the problem's value function, evaluated over sampled parameters and uncertainties. In particular, the computed expectation of the SP-DPC problem's value function is backpropagated through the closed-loop system rollouts parametrized by a known nominal system dynamics model and neural control policy which allows for direct model-based policy optimization. We provide theoretical probabilistic guarantees for policies learned via the SP-DPC method on closed-loop stability and chance constraints satisfaction. Furthermore, we demonstrate the computational efficiency and scalability of the proposed policy optimization algorithm in three numerical examples, including systems with a large number of states or subject to nonlinear constraints.
翻訳日:2022-03-04 17:09:01 公開日:2022-03-02
# LSTMモデルを用いた最適ポートフォリオ設計のための精密株価予測

Precise Stock Price Prediction for Optimized Portfolio Design Using an LSTM Model ( http://arxiv.org/abs/2203.01326v1 )

ライセンス: Link先を確認
Jaydip Sen, Sidra Mehtab, Abhishek Dutta, Saikat Mondal(参考訳) 将来の株式価格の正確な予測は実行が難しい課題である。 さらに難しいのは、リターンとリスクの最適化値を達成するために、割り当ての適切な重み付けを識別して、最適化された株式ポートフォリオを設計することだ。 我々は、インド経済の7つの分野に基づく最適化ポートフォリオを提案する。 過去の株価は2016年1月1日から2020年12月31日までウェブから引き上げられた。 最適ポートフォリオは選ばれた7つのセクターで設計されている。 LSTM回帰モデルも将来の株価を予測するために設計されている。 ポートフォリオの構築から5ヶ月後の2021年6月1日、実際の、予測されたポートフォリオのリターンとリスクが計算される。 予測および実際のリターンは、LSTMモデルの非常に高い精度を示す。

Accurate prediction of future prices of stocks is a difficult task to perform. Even more challenging is to design an optimized portfolio of stocks with the identification of proper weights of allocation to achieve the optimized values of return and risk. We present optimized portfolios based on the seven sectors of the Indian economy. The past prices of the stocks are extracted from the web from January 1, 2016, to December 31, 2020. Optimum portfolios are designed on the selected seven sectors. An LSTM regression model is also designed for predicting future stock prices. Five months after the construction of the portfolios, i.e., on June 1, 2021, the actual and predicted returns and risks of each portfolio are computed. The predicted and the actual returns indicate the very high accuracy of the LSTM model.
翻訳日:2022-03-04 16:46:30 公開日:2022-03-02
# ファキングの特徴の重要性:差分私的合成データの利用に関する注意物語

Faking feature importance: A cautionary tale on the use of differentially-priva te synthetic data ( http://arxiv.org/abs/2203.01363v1 )

ライセンス: Link先を確認
Oscar Giles, Kasra Hosseini, Grigorios Mingas, Oliver Strickson, Louise Bowler, Camila Rangel Smith, Harrison Wilde, Jen Ning Lim, Bilal Mateen, Kasun Amarasinghe, Rayid Ghani, Alison Heppenstall, Nik Lomax, Nick Malleson, Martin O'Reilly, Sebastian Vollmerteke(参考訳) 合成データセットはしばしば、プライバシ保存データパブリッシングの問題に対するシルバーブルレットソリューションとして提示される。 しかし、多くの応用において、合成データは予測モデルを訓練する際に限られた効用を有することが示されている。 これらのデータの有望な応用の1つは、機能の理解、エンジニアリング、選択を含む機械学習ワークフローの探索段階にある。 このフェーズは、しばしばかなりの時間を要するが、データの可用性に依存する。 例えば、データアクセスが交渉されたり、情報ガバナンスの制限が減っていたりしている間に、これらのステップの実行を許可する合成データには実質的な価値があります。 本稿では,生データと合成データから得られた特徴量と,人工的に生成されたデータセットと実世界のデータセット(特徴量の重要性が各特徴が結果を予測する際の有用性を示す)との一致を実証的に分析する。 合成データの生成には2つの異なるプライベートな手法を用いており、プライバシーのレベルによって異なるため、コンセンサスを重要度で定量化するために様々なユーティリティー対策を適用している。 以上の結果から,合成データは機能重要度ランキングのいくつかの表現を単純な設定で保持することができるが,その性能は一貫性がなく,多くの要因に依存する。 合成データは、重要なモデリング決定を変える可能性のある、ランク付けされた特徴の重要性の差をもたらす可能性がある。 この研究は、金融や医療といった分野における高感度データセットの合成バージョンの開発に重要な意味を持つ。

Synthetic datasets are often presented as a silver-bullet solution to the problem of privacy-preserving data publishing. However, for many applications, synthetic data has been shown to have limited utility when used to train predictive models. One promising potential application of these data is in the exploratory phase of the machine learning workflow, which involves understanding, engineering and selecting features. This phase often involves considerable time, and depends on the availability of data. There would be substantial value in synthetic data that permitted these steps to be carried out while, for example, data access was being negotiated, or with fewer information governance restrictions. This paper presents an empirical analysis of the agreement between the feature importance obtained from raw and from synthetic data, on a range of artificially generated and real-world datasets (where feature importance represents how useful each feature is when predicting a the outcome). We employ two differentially-priva te methods to produce synthetic data, and apply various utility measures to quantify the agreement in feature importance as this varies with the level of privacy. Our results indicate that synthetic data can sometimes preserve several representations of the ranking of feature importance in simple settings but their performance is not consistent and depends upon a number of factors. Particular caution should be exercised in more nuanced real-world settings, where synthetic data can lead to differences in ranked feature importance that could alter key modelling decisions. This work has important implications for developing synthetic versions of highly sensitive data sets in fields such as finance and healthcare.
翻訳日:2022-03-04 16:46:20 公開日:2022-03-02
# 連続使用試料に対する安定・半安定サンプリング法

Stable and Semi-stable Sampling Approaches for Continuously Used Samples ( http://arxiv.org/abs/2203.01381v1 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Deepak Chittajallu, Nabeel Kaushal, Vladislav Mokeev(参考訳) 情報検索システムは、通常、ユーザクエリのサンプルに対応する結果の関連性をラベル付けすることで測定される。 実用的な検索エンジンでは、日次や週次などの計測を継続的に行う必要がある。 これはトレードオフを生み出します。 (a) 製品の現在のクエリトラフィックに対するクエリサンプルの代表性 (b)ラベルのコスト:同じクエリサンプルを保持すると、結果が似ていて、ラベルを再利用できます。 (c) 同じクエリサンプルの連続使用による過度な適合。 本稿では,このトレードオフを明示的に定式化し,単純で重み付けされたランダムサンプリングを行うための2つの新しい変種,すなわち安定版と半安定版を提案する。

Information retrieval systems are usually measured by labeling the relevance of results corresponding to a sample of user queries. In practical search engines, such measurement needs to be performed continuously, such as daily or weekly. This creates a trade-off between (a) representativeness of query sample to current query traffic of the product; (b) labeling cost: if we keep the same query sample, results would be similar allowing us to reuse their labels; and (c) overfitting caused by continuous usage of same query sample. In this paper we explicitly formulate this tradeoff, propose two new variants -- Stable and Semi-stable -- to simple and weighted random sampling and show that they outperform existing approaches for the continuous usage settings, including monitoring/debugging search engine or comparing ranker candidates.
翻訳日:2022-03-04 16:45:53 公開日:2022-03-02
# 垂直フェデレート学習におけるラベル漏洩と前方埋め込みからの保護

Label Leakage and Protection from Forward Embedding in Vertical Federated Learning ( http://arxiv.org/abs/2203.01451v1 )

ライセンス: Link先を確認
Jiankai Sun and Xin Yang and Yuanshun Yao and Chong Wang(参考訳) 垂直連合学習(vFL)は近年注目を集め、データプライバシに関する機械学習の問題を解決するためにデプロイされている。 しかし、最近の研究でvFLは、(生の特徴ではなく)前方中間の埋め込みと(生のラベルではなく)後方プロパゲート勾配だけが関係する参加者間で通信されているにもかかわらず、プライバシー漏洩に弱いことが示されている。 ラベルには高感度情報が含まれていることが多いため, バックプロパゲート勾配からのラベル漏洩を効果的に防止するための最近の研究が提案されている。 しかし、これらの研究はバックプロパゲート勾配からのラベルリークの脅威を識別し、防いだだけだった。 これらの研究は、中間埋め込みからラベルリークの問題に注意を払っていない。 本稿では,ラベル差分プライバシーや勾配摂動といった既存の保護手法を適用した場合でも,共有中間埋め込みからプライベートラベルを効果的に盗むことができる実用的なラベル推論手法を提案する。 ラベル攻撃の有効性は、中間埋め込みと対応するプライベートラベルとの相関から区別できない。 先行組込みからのラベルリーク問題を軽減するため,中間組込みと対応するプライベートラベル間の距離相関を最小化することにより,相手のラベル盗み能力を制限するために,ラベルパーティに追加の最適化目標を付加する。 提案手法の有効性を実証するために大規模実験を行った。

Vertical federated learning (vFL) has gained much attention and been deployed to solve machine learning problems with data privacy concerns in recent years. However, some recent work demonstrated that vFL is vulnerable to privacy leakage even though only the forward intermediate embedding (rather than raw features) and backpropagated gradients (rather than raw labels) are communicated between the involved participants. As the raw labels often contain highly sensitive information, some recent work has been proposed to prevent the label leakage from the backpropagated gradients effectively in vFL. However, these work only identified and defended the threat of label leakage from the backpropagated gradients. None of these work has paid attention to the problem of label leakage from the intermediate embedding. In this paper, we propose a practical label inference method which can steal private labels effectively from the shared intermediate embedding even though some existing protection methods such as label differential privacy and gradients perturbation are applied. The effectiveness of the label attack is inseparable from the correlation between the intermediate embedding and corresponding private labels. To mitigate the issue of label leakage from the forward embedding, we add an additional optimization goal at the label party to limit the label stealing ability of the adversary by minimizing the distance correlation between the intermediate embedding and corresponding private labels. We conducted massive experiments to demonstrate the effectiveness of our proposed protection methods.
翻訳日:2022-03-04 16:43:45 公開日:2022-03-02
# 曲げ現実:パノラマ意味セグメンテーションへの適応のための歪み認識トランスフォーマー

Bending Reality: Distortion-aware Transformers for Adapting to Panoramic Semantic Segmentation ( http://arxiv.org/abs/2203.01452v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Chaoxiang Ma, Simon Rei{\ss}, Kunyu Peng, Rainer Stiefelhagen(参考訳) パノラマ画像とその360度方向ビューは周囲の空間に関する情報を網羅し、シーン理解のための豊かな基盤を提供する。 このポテンシャルをロバストなパノラマ分割モデルに展開するためには、大量の高価なピクセル単位のアノテーションが成功に不可欠である。 このようなアノテーションは利用可能だが、主に狭角ピンホールカメラ画像で、棚から外れてパノラマモデルのトレーニングに最適なサブリソースとして機能する。 歪みと360度パノラマにおける画像特徴分布は、アノテーションに富んだピンホール領域からの移動を妨げるため、性能に大きな変化をもたらす。 この領域の違いを回避し、ピンホールおよび360度のサラウンドビジュアルからセマンティックアノテーションをまとめるために、変形可能なパッチ埋め込み(dpe)および変形可能なmlp(dmlp)コンポーネントにおけるオブジェクトの変形とパノラマ画像の歪みを学習し、パノラマ意味セグメンテーション(trans4pass)モデルのためのトランスフォーマーにブレンドする。 最後に,共有セマンティクスをピンホールとパノラマ的特徴埋め込みに結びつけ,マルチスケールのプロトタイプ機能を生成し,教師なしドメイン適応のための相互原型適応(mpa)でそれらを調整する。 屋内のStanford2D3Dデータセットでは、私たちのTrans4PASSとMPAは、完全に監督された最先端技術に匹敵するパフォーマンスを維持しており、1400以上のラベル付きパノラマの必要性を減らしています。 屋外のDensePASSデータセットでは、最先端の14.39% mIoUを破り、新しいバーを56.38%とした。 コードはhttps://github.com/j amycheung/Trans4PASS で公開される。

Panoramic images with their 360-degree directional view encompass exhaustive information about the surrounding space, providing a rich foundation for scene understanding. To unfold this potential in the form of robust panoramic segmentation models, large quantities of expensive, pixel-wise annotations are crucial for success. Such annotations are available, but predominantly for narrow-angle, pinhole-camera images which, off the shelf, serve as sub-optimal resources for training panoramic models. Distortions and the distinct image-feature distribution in 360-degree panoramas impede the transfer from the annotation-rich pinhole domain and therefore come with a big dent in performance. To get around this domain difference and bring together semantic annotations from pinhole- and 360-degree surround-visuals, we propose to learn object deformations and panoramic image distortions in the Deformable Patch Embedding (DPE) and Deformable MLP (DMLP) components which blend into our Transformer for PAnoramic Semantic Segmentation (Trans4PASS) model. Finally, we tie together shared semantics in pinhole- and panoramic feature embeddings by generating multi-scale prototype features and aligning them in our Mutual Prototypical Adaptation (MPA) for unsupervised domain adaptation. On the indoor Stanford2D3D dataset, our Trans4PASS with MPA maintains comparable performance to fully-supervised state-of-the-arts, cutting the need for over 1,400 labeled panoramas. On the outdoor DensePASS dataset, we break state-of-the-art by 14.39% mIoU and set the new bar at 56.38%. Code will be made publicly available at https://github.com/j amycheung/Trans4PASS .
翻訳日:2022-03-04 16:39:02 公開日:2022-03-02
# Nemo: インタラクティブなデータプログラミングのためのガイドとコンテキスト化の弱さ

Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming ( http://arxiv.org/abs/2203.01382v1 )

ライセンス: Link先を確認
Cheng-Yu Hsieh, Jieyu Zhang, Alexander Ratner(参考訳) Weak Supervision(WS)技術により、ユーザはヒューリスティックなデータソースをプログラムでラベル付けすることで、大規模なトレーニングデータセットを効率的に作成できる。 WSの成功は提供されたラベル付けヒューリスティックに大きく依存していますが、これらのヒューリスティックが実際にどのように作成されるかのプロセスは、まだ解明されていないままです。 本稿では,ヒューリスティックをインタラクティブな手順としてラベル付けする開発プロセスを定式化し,ユーザが選択した開発データからアイデアを描き,ヒューリスティックなソースを設計する既存のワークフローを中心に構築する。 本稿では,情報ヒューリスティックを効率的に作成するための開発データを戦略的に選択する方法と,開発プロセス内の情報を活用して,結果ヒューリスティックからよりよく学習する方法の2つの問題について検討する。 それぞれの問題に効果的に対処する2つの新しい手法に基づいて、我々は、一般的なWSアプローチと比較して、WS学習パイプライン全体の生産性を平均20%(最大47%まで)改善するエンドツーエンドの対話システムNemoを紹介します。

Weak Supervision (WS) techniques allow users to efficiently create large training datasets by programmatically labeling data with heuristic sources of supervision. While the success of WS relies heavily on the provided labeling heuristics, the process of how these heuristics are created in practice has remained under-explored. In this work, we formalize the development process of labeling heuristics as an interactive procedure, built around the existing workflow where users draw ideas from a selected set of development data for designing the heuristic sources. With the formalism, we study two core problems of how to strategically select the development data to guide users in efficiently creating informative heuristics, and how to exploit the information within the development process to contextualize and better learn from the resultant heuristics. Building upon two novel methodologies that effectively tackle the respective problems considered, we present Nemo, an end-to-end interactive system that improves the overall productivity of WS learning pipeline by an average 20% (and up to 47% in one task) compared to the prevailing WS approach.
翻訳日:2022-03-04 16:05:37 公開日:2022-03-02
# 半教師付き医用画像セグメンテーションにおける滑らかさとクラス分離の検討

Exploring Smoothness and Class-Separation for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2203.01324v1 )

ライセンス: Link先を確認
Yicheng Wu, Zhonghua Wu, Qianyi Wu, Zongyuan Ge, and Jianfei Cai(参考訳) 半教師付きセグメンテーションは、アノテートされた医療データの量はしばしば制限され、粘着端または低コントラスト領域の近くに多くのぼやけたピクセルが存在するため、医用イメージングにおいて依然として困難である。 この問題に対処するために,まず,強い摂動を伴わないサンプルの一貫性を十分にスムーズな正規化に適用し,さらにクラスレベルの分離を奨励し,未ラベルの曖昧な画素をモデルトレーニングに活用することを提唱する。 本稿では,画素レベルの平滑性とクラス間分離を同時に行うことで,半教師付き医用画像セグメンテーションタスクのためのss-netを提案する。 ピクセルレベルの滑らかさは、逆摂動下で不変な結果を生成することをモデルに強いる。 一方、クラス間の分離制約は、各クラス分布をコンパクト化し、異なるクラスを分離するために、対応する高品質なプロトタイプにアプローチすべきである。 ss-netをlaおよびadcデータセット上の最近の5つの手法に対して評価した。 2つの半教師付き設定による実験結果は、提案したSS-Netの優位性を示し、両方のデータセット上で新たなSOTA(State-of-the-ar t)性能を実現する。 コードはリリースされます。

Semi-supervised segmentation remains challenging in medical imaging since the amount of annotated medical data is often limited and there are many blurred pixels near the adhesive edges or low-contrast regions. To address the issues, we advocate to firstly constrain the consistency of samples with and without strong perturbations to apply sufficient smoothness regularization and further encourage the class-level separation to exploit the unlabeled ambiguous pixels for the model training. Particularly, in this paper, we propose the SS-Net for semi-supervised medical image segmentation tasks, via exploring the pixel-level Smoothness and inter-class Separation at the same time. The pixel-level smoothness forces the model to generate invariant results under adversarial perturbations. Meanwhile, the inter-class separation constrains individual class features should approach their corresponding high-quality prototypes, in order to make each class distribution compact and separate different classes. We evaluated our SS-Net against five recent methods on the public LA and ACDC datasets. The experimental results under two semi-supervised settings demonstrate the superiority of our proposed SS-Net, achieving new state-of-the-art (SOTA) performance on both datasets. The codes will be released.
翻訳日:2022-03-04 16:01:26 公開日:2022-03-02
# デュアルズームによる実世界超解法の自己監督学習

Self-Supervised Learning for Real-World Super-Resolution from Dual Zoomed Observations ( http://arxiv.org/abs/2203.01325v1 )

ライセンス: Link先を確認
Zhilu Zhang, Ruohao Wang, Hongzhi Zhang, Yunjin Chen, Wangmeng Zuo(参考訳) 本稿では、参照ベース超解像(RefSR)における2つの課題について考察する。 (i)適切な参照画像の選択方法、及び (ii)自己監督による実世界のrefsrの学習方法 特に,デュアルカメラズーム(SelfDZSR)における観測結果から,実世界の画像SRに対する自己教師型学習手法を提案する。 最初の問題として、よりズームされた(望遠的な)画像は、より少ないズームされた(短焦点)画像のSRをガイドする参照として自然に利用することができる。 2つ目の問題として、セルフDZSRは、短焦点画像のSR結果を得るための深層ネットワークを、望遠画像と同じ解像度で学習する。 この目的のために、追加の高解像度画像の代わりに望遠画像を監視情報とし、対応する短焦点画像パッチの超解像への参照としてパッチを選択する。 短焦点低分解能(LR)画像と望遠低分解能(GT)画像との様々な不一致の影響を軽減するため,劣化モデルの設計とGTをGTと整合した擬似LR画像にマッピングする。 次に、擬似LRおよびLR画像を、提案した適応空間変換器ネットワーク(AdaSTN)に入力してLR特徴を変形させる。 テスト中、SelfDZSRは、望遠画像を参照して、全短焦点画像を超解き明かすために直接デプロイすることができる。 実験により, 最先端技術に対する定量的, 質的性能が向上した。 コードと事前訓練されたモデルは一般公開される。

In this paper, we consider two challenging issues in reference-based super-resolution (RefSR), (i) how to choose a proper reference image, and (ii) how to learn real-world RefSR in a self-supervised manner. Particularly, we present a novel self-supervised learning approach for real-world image SR from observations at dual camera zooms (SelfDZSR). For the first issue, the more zoomed (telephoto) image can be naturally leveraged as the reference to guide the SR of the lesser zoomed (short-focus) image. For the second issue, SelfDZSR learns a deep network to obtain the SR result of short-focal image and with the same resolution as the telephoto image. For this purpose, we take the telephoto image instead of an additional high-resolution image as the supervision information and select a patch from it as the reference to super-resolve the corresponding short-focus image patch. To mitigate the effect of various misalignment between the short-focus low-resolution (LR) image and telephoto ground-truth (GT) image, we design a degradation model and map the GT to a pseudo-LR image aligned with GT. Then the pseudo-LR and LR image can be fed into the proposed adaptive spatial transformer networks (AdaSTN) to deform the LR features. During testing, SelfDZSR can be directly deployed to super-solve the whole short-focus image with the reference of telephoto image. Experiments show that our method achieves better quantitative and qualitative performance against state-of-the-arts. The code and pre-trained models will be publicly available.
翻訳日:2022-03-04 16:01:05 公開日:2022-03-02
# iMVS:深度不連続学習によるMVSネットワークの改善

iMVS: Improving MVS Networks by Learning Depth Discontinuities ( http://arxiv.org/abs/2203.01391v1 )

ライセンス: Link先を確認
Nail Ibrahimli, Hugo Ledoux, Julian Kooij, Liangliang Nan(参考訳) 既存の学習ベースマルチビューステレオ(MVS)技術は、再構築における完全性の観点から有効である。 深度連続性を学習することでこれらの手法をさらに改善する。 私たちのアイデアは、深さと境界マップを共同で見積もることです。 そこで本研究では,混合密度と深度不連続学習による深度マップの品質向上を目的とした学習ベースのMVS戦略を提案する。 提案手法の有効性を検証し,提案手法を高品質深度マップ推定に依存する既存の学習ベースMVSパイプラインに容易に統合できることを実証する。 また,mvsネットワークに対して,バイモーダル深さ表現と新しい空間正規化手法を導入する。 各種データセットに対する広範囲な実験により,本手法は完全性および全体の再構築品質の観点から,新たな技術状態を設定することが示された。 提案したモデルと戦略が優れた一般化能力を持つことを示す実験もある。 ソースコードは近く公開される予定だ。

Existing learning-based multi-view stereo (MVS) techniques are effective in terms of completeness in reconstruction. We further improve these techniques by learning depth continuities. Our idea is to jointly estimate the depth and boundary maps. To this end, we introduce learning-based MVS strategies to improve the quality of depth maps via mixture density and depth discontinuity learning. We validate our idea and demonstrate that our strategies can be easily integrated into existing learning-based MVS pipelines where the reconstruction depends on high-quality depth map estimation. We also introduce a bimodal depth representation and a novel spatial regularization approach to the MVS networks. Extensive experiments on various datasets show that our method sets a new state of the art in terms of completeness and overall reconstruction quality. Experiments also demonstrate that the presented model and strategies have good generalization capabilities. The source code will be available soon.
翻訳日:2022-03-04 15:29:46 公開日:2022-03-02
# 3次元共通破壊とデータ拡張

3D Common Corruptions and Data Augmentation ( http://arxiv.org/abs/2203.01441v1 )

ライセンス: Link先を確認
O\u{g}uzhan Fatih Kar, Teresa Yeo, Andrei Atanov, Amir Zamir(参考訳) ニューラルネットワークのトレーニングのための'データ拡張'機構と同様に,モデルの堅牢性を評価するために,‘破壊’として使用できる一連の画像変換を導入する。 提案された変換の主な違いは、共通崩壊のような既存のアプローチとは異なり、シーンの幾何学が変換に組み込まれていることである。 これらの変換は‘エフェクト’(オンザフライで計算可能)、‘extendable’(実際の画像のほとんどのデータセットに適用可能)、既存のモデルの脆弱性を露呈し、‘3Dデータ拡張’メカニズムとして使用すれば、モデルをより堅牢にすることができる。 いくつかのタスクやデータセットで実施した評価では、3D情報をロバストネスベンチマークに組み込むことが示唆され、トレーニングはロバストネス研究の有望な方向を開く。

We introduce a set of image transformations that can be used as `corruptions' to evaluate the robustness of models as well as `data augmentation' mechanisms for training neural networks. The primary distinction of the proposed transformations is that, unlike existing approaches such as Common Corruptions, the geometry of the scene is incorporated in the transformations -- thus leading to corruptions that are more likely to occur in the real world. We show these transformations are `efficient' (can be computed on-the-fly), `extendable' (can be applied on most datasets of real images), expose vulnerability of existing models, and can effectively make models more robust when employed as `3D data augmentation' mechanisms. Our evaluations performed on several tasks and datasets suggest incorporating 3D information into robustness benchmarking and training opens up a promising direction for robustness research.
翻訳日:2022-03-04 15:29:33 公開日:2022-03-02
# 2要素摂動を用いたディープラーニング分類器のロバスト性評価

Benchmarking Robustness of Deep Learning Classifiers Using Two-Factor Perturbation ( http://arxiv.org/abs/2203.01323v1 )

ライセンス: Link先を確認
Wei Dai and Daniel Berleant(参考訳) 深層学習(DL)分類器の精度は、逆境画像、不完全画像、摂動画像で再テストした場合に大きく変化する可能性があるため不安定であることが多い。 本稿では,欠陥画像上のDL分類器のロバスト性を評価するための基礎的な研究を付け加える。 頑健なDL分類器を測定するために, 単一要素の破損を報告した。 クリーンなセット,単一因子摂動のセット,2要素摂動条件のセットを含む総合的な69のベンチマーク画像セットを作成しました。 最先端の2要素摂動 (a)両方の系列に適用される2つのデジタル摂動(サルト&ペッパーノイズとガウスノイズ) (b)デジタル摂動(salt&pepperノイズ)と幾何学摂動(rotation)を両列に適用する。 従来のDL分類器の評価では、トップ1/トップ5の精度がよく用いられていた。 DL分類器のロバスト性を評価するために,新しい2次元統計行列を考案する。 また,dl分類器のロバスト性ベンチマークを行うために,最小精度,最大精度,平均精度,変動係数(cv)を含む新しい可視化ツールを提案する。 まず,2要素摂動画像を用いることで,DL分類器の堅牢性と精度が向上することが報告された。 すべてのソースコードおよび関連画像は、将来の学術研究および産業プロジェクトをサポートするために、http://cslinux.semo. edu/david/dataで共有されている。

Accuracies of deep learning (DL) classifiers are often unstable in that they may change significantly when retested on adversarial images, imperfect images, or perturbed images. This paper adds to the fundamental body of work on benchmarking the robustness of DL classifiers on defective images. To measure robust DL classifiers, previous research reported on single-factor corruption. We created comprehensive 69 benchmarking image sets, including a clean set, sets with single factor perturbations, and sets with two-factor perturbation conditions. The state-of-the-art two-factor perturbation includes (a) two digital perturbations (salt & pepper noise and Gaussian noise) applied in both sequences, and (b) one digital perturbation (salt & pepper noise) and a geometric perturbation (rotation) applied in both sequences. Previous research evaluating DL classifiers has often used top-1/top-5 accuracy. We innovate a new two-dimensional, statistical matrix to evaluating robustness of DL classifiers. Also, we introduce a new visualization tool, including minimum accuracy, maximum accuracy, mean accuracies, and coefficient of variation (CV), for benchmarking robustness of DL classifiers. Comparing with single factor corruption, we first report that using two-factor perturbed images improves both robustness and accuracy of DL classifiers. All source codes and related image sets are shared on the Website at http://cslinux.semo. edu/david/data to support future academic research and industry projects.
翻訳日:2022-03-04 15:27:09 公開日:2022-03-02
# 高次元進化方程式に対するアクティブラーニングを用いたニューラルガレルキンスキーム

Neural Galerkin Scheme with Active Learning for High-Dimensional Evolution Equations ( http://arxiv.org/abs/2203.01360v1 )

ライセンス: Link先を確認
Joan Bruna and Benjamin Peherstorfer and Eric Vanden-Eijnden(参考訳) 機械学習手法は、十分なトレーニングデータが利用可能であれば、高次元での正確な予測を与えることが示されている。 しかし、科学と工学における多くの興味深い質問は、当初データが入手できず、主要な目的は既知のモデルから洞察を集めることである。 ここでは、進化を偏微分方程式(PDE)で記述できるシステムの文脈において、この問題を考える。 ディープラーニングを使ってこれらの方程式を解き、その解に関する事前情報なしで、いつ、どこで必要なのかのデータを生成する。 提案するニューラルガレルキンスキームは、解の時間微分の残差を最小化し、ネットワークウェイトの非線形力学方程式を導出し、初期値問題の標準積分器を用いてこれらの方程式を解く。 重みの逐次学習は、残差推定のための新しい入力データの適応的な収集を可能にする。 このステップでは、ネットワークパラメータをグローバルに最適化するPDEのための他の機械学習手法とは対照的に、ソリューションの現在の状態から通知される重要サンプリングを使用する。 このアクティブなデータ取得形式は、ニューラルネットワークの近似能力を有効にし、非適応的学習戦略が直面する次元の呪いを破るために不可欠である。 この手法の適用性は、多数の変数を持つ対流方程式や、相互作用する粒子を持つ系に対するフォッカー・プランク方程式を含む高次元PDEを含むいくつかの数値例で説明される。

Machine learning methods have been shown to give accurate predictions in high dimensions provided that sufficient training data are available. Yet, many interesting questions in science and engineering involve situations where initially no data are available and the principal aim is to gather insights from a known model. Here we consider this problem in the context of systems whose evolution can be described by partial differential equations (PDEs). We use deep learning to solve these equations by generating data on-the-fly when and where they are needed, without prior information about the solution. The proposed Neural Galerkin schemes derive nonlinear dynamical equations for the network weights by minimization of the residual of the time derivative of the solution, and solve these equations using standard integrators for initial value problems. The sequential learning of the weights over time allows for adaptive collection of new input data for residual estimation. This step uses importance sampling informed by the current state of the solution, in contrast with other machine learning methods for PDEs that optimize the network parameters globally in time. This active form of data acquisition is essential to enable the approximation power of the neural networks and to break the curse of dimensionality faced by non-adaptative learning strategies. The applicability of the method is illustrated on several numerical examples involving high-dimensional PDEs, including advection equations with many variables, as well as Fokker-Planck equations for systems with several interacting particles.
翻訳日:2022-03-04 15:25:46 公開日:2022-03-02
# 遅延ディリクレ変分オートエンコーダを用いたハイパースペクトルレンズアンミキシング

Hyperspectral Pixel Unmixing with Latent Dirichlet Variational Autoencoder ( http://arxiv.org/abs/2203.01327v1 )

ライセンス: Link先を確認
Kiran Mantripragada and Faisal Z. Qureshi(参考訳) ハイパースペクトルピクセル強度は、複数の材料からの反射率の混合によって生じる。 本稿では,各材料の「純」スペクトル信号(以下,「純」スペクトル信号」と呼ぶ)を,単一画素のスペクトルの混合比(演算アンミキシング)とともに回収することを目的としたハイパースペクトル画素(it unmixing)の手法を開発する。 未混合問題は、リモートセンシング環境で撮影された低解像度のハイパースペクトル画像において特に重要であり、個々のピクセルがシーンの広い領域をカバーすることができる。 1) 多変量正規分布はエンドメンバーのスペクトルを表現でき、(2)ディリクレ分布は異なるエンドメンバーの存在量をエンコードできるという仮定の下で、超スペクトル画素アンミックスのための潜在ディリクレ変分オートエンコーダを開発する。 本手法は,標準ベンチマークおよび米国地質調査スペクトルライブラリーを用いて生成された合成データを用いて,最新の結果を得る。

Hyperspectral pixel intensities result from a mixing of reflectances from several materials. This paper develops a method of hyperspectral pixel {\it unmixing} that aims to recover the "pure" spectral signal of each material (hereafter referred to as {\it endmembers}) together with the mixing ratios ({\it abundances}) given the spectrum of a single pixel. The unmixing problem is particularly relevant in the case of low-resolution hyperspectral images captured in a remote sensing setting, where individual pixels can cover large regions of the scene. Under the assumptions that (1) a multivariate Normal distribution can represent the spectra of an endmember and (2) a Dirichlet distribution can encode abundances of different endmembers, we develop a Latent Dirichlet Variational Autoencoder for hyperspectral pixel unmixing. Our approach achieves state-of-the-art results on standard benchmarks and on synthetic data generated using United States Geological Survey spectral library.
翻訳日:2022-03-04 15:22:13 公開日:2022-03-02
# 深層学習における対人ロバスト性向上

Enhancing Adversarial Robustness for Deep Metric Learning ( http://arxiv.org/abs/2203.01439v1 )

ライセンス: Link先を確認
Mo Zhou, Vishal M. Patel(参考訳) 敵対的脆弱性のセキュリティ上の影響により、深層メトリック学習モデルの敵対的堅牢性が改善される必要がある。 過度に厳しい例によるモデル崩壊を避けるために、既存の防衛隊は、min-max敵訓練を却下するが、代わりに弱い敵から非効率に学ぶ。 逆に,厳しい良性三重項や擬似硬度関数に従って,特定の硬度レベルまでトレーニング三重項を効率よく摂動させる硬度操作を提案する。 通常の訓練とmin-maxの対向訓練が境界となるため、柔軟である。 また, 学習中のハードネスレベルを緩やかに増やし, パフォーマンスとロバスト性とのバランスを改善するために, 擬似ハードネス関数の族が提案されている。 さらに、良性および逆性例間のクラス内構造損失項は、モデル堅牢性と効率をさらに改善する。 包括的実験の結果,提案手法は単純ではあるが,ロバスト性,トレーニング効率,良質な実例のパフォーマンスにおいて,最先端の防御を圧倒的に上回っていることが示唆された。

Owing to security implications of adversarial vulnerability, adversarial robustness of deep metric learning models has to be improved. In order to avoid model collapse due to excessively hard examples, the existing defenses dismiss the min-max adversarial training, but instead learn from a weak adversary inefficiently. Conversely, we propose Hardness Manipulation to efficiently perturb the training triplet till a specified level of hardness for adversarial training, according to a harder benign triplet or a pseudo-hardness function. It is flexible since regular training and min-max adversarial training are its boundary cases. Besides, Gradual Adversary, a family of pseudo-hardness functions is proposed to gradually increase the specified hardness level during training for a better balance between performance and robustness. Additionally, an Intra-Class Structure loss term among benign and adversarial examples further improves model robustness and efficiency. Comprehensive experimental results suggest that the proposed method, although simple in its form, overwhelmingly outperforms the state-of-the-art defenses in terms of robustness, training efficiency, as well as performance on benign examples.
翻訳日:2022-03-04 15:20:51 公開日:2022-03-02
# 最近の視覚的質問応答アーキテクチャの急速な進歩

Recent, rapid advancement in visual question answering architecture ( http://arxiv.org/abs/2203.01322v1 )

ライセンス: Link先を確認
Venkat Kodali and Daniel Berleant(参考訳) 視覚的な質問応答を理解することは、多くの人間の活動にとって不可欠である。 しかし、これは人工知能の取り組みの核心にある大きな課題である。 本稿では,過去2年間に起こった画像を用いた視覚的質問応答の迅速化に関する最新情報について述べる。 近年,視覚質問応答システムアーキテクチャに関する研究が飛躍的に進展し,マルチモーダルアーキテクチャの重要性が示された。 Manmadhan et al. (2020) によるレビュー論文には、視覚的質問応答の利点に関するいくつかのポイントが言及されており、この記事は、この分野におけるその後の更新を含む、構築されている。

Understanding visual question answering is going to be crucial for numerous human activities. However, it presents major challenges at the heart of the artificial intelligence endeavor. This paper presents an update on the rapid advancements in visual question answering using images that have occurred in the last couple of years. Tremendous growth in research on improving visual question answering system architecture has been published recently, showing the importance of multimodal architectures. Several points on the benefits of visual question answering are mentioned in the review paper by Manmadhan et al. (2020), on which the present article builds, including subsequent updates in the field.
翻訳日:2022-03-04 14:39:22 公開日:2022-03-02
# LILE: 未来を見渡す前に深く見る - 病理学アーカイブのクロスモーダル情報検索のためのトランスフォーマーを用いたデュアルアテンションネットワーク

LILE: Look In-Depth before Looking Elsewhere -- A Dual Attention Network using Transformers for Cross-Modal Information Retrieval in Histopathology Archives ( http://arxiv.org/abs/2203.01445v1 )

ライセンス: Link先を確認
Danial Maleki, H.R Tizhoosh(参考訳) 近年、多くのアプリケーションで利用可能なデータの量は劇的に増加している。 さらに、複数のモダリティを別々に使ったネットワークの時代は事実上終わった。 したがって、処理可能な双方向の相互モーダリティデータ検索を可能にすることが、多くの分野や研究分野の要件となっている。 これは医療の分野では特に当てはまり、データは様々な種類の画像やレポート、分子データを含む多種多様なタイプで行われるため、特に当てはまる。 現代の作品の多くは、他のモダリティに関連して、画像やテキストの本質的な要素を強調し、それらを一致させようとする。 しかしながら、それらのモジュラリティの重要性にかかわらず、これらのアプローチは通常、各モジュラリティの特徴を等しく考慮する。 本研究では、クロスアテンションモジュールに提供される内部表現を強化するために、追加の損失項としての自己注意を提案する。 この研究は、共同潜在空間における画像とテキストの表現を支援する新しい損失項を持つ新しいアーキテクチャを示唆している。 MS-COCOとARCHという2つのベンチマークデータセットの実験結果から,提案手法の有効性が示された。

The volume of available data has grown dramatically in recent years in many applications. Furthermore, the age of networks that used multiple modalities separately has practically ended. Therefore, enabling bidirectional cross-modality data retrieval capable of processing has become a requirement for many domains and disciplines of research. This is especially true in the medical field, as data comes in a multitude of types, including various types of images and reports as well as molecular data. Most contemporary works apply cross attention to highlight the essential elements of an image or text in relation to the other modalities and try to match them together. However, regardless of their importance in their own modality, these approaches usually consider features of each modality equally. In this study, self-attention as an additional loss term will be proposed to enrich the internal representation provided into the cross attention module. This work suggests a novel architecture with a new loss term to help represent images and texts in the joint latent space. Experiment results on two benchmark datasets, i.e. MS-COCO and ARCH, show the effectiveness of the proposed method.
翻訳日:2022-03-04 14:38:33 公開日:2022-03-02
# オフライン強化学習に関する調査 : 分類学、レビュー、オープン問題

A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems ( http://arxiv.org/abs/2203.01387v1 )

ライセンス: Link先を確認
Rafael Figueiredo Prudencio, Marcos R. O. A. Maximo, Esther Luna Colombini(参考訳) ディープラーニングの普及に伴い、強化学習(rl)の人気が劇的に高まり、ピクセル観察による複雑なゲームをプレイしたり、人間との会話を継続したり、ロボットエージェントを制御するといった、これまで難解だった問題に拡大した。 しかし、高コストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。 オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムであり、大規模で多様なトレーニングデータセットからポリシーを抽出することができる。 効果的なオフラインRLアルゴリズムはオンラインRLよりも広い範囲のアプリケーションを持ち、特に教育、医療、ロボット工学といった現実世界のアプリケーションにアピールしている。 本研究では,オフラインのRL手法を分類する統一分類法を提案する。 さらに、この分野における最新のアルゴリズムのブレークスルーの包括的なレビューと、既存のベンチマークの特性と欠点のレビューも提供する。 最後に,オープン問題に対する我々の視点を示し,この急速に成長する分野に対する今後の研究の方向性を提案する。

With the widespread adoption of deep learning, reinforcement learning (RL) has experienced a dramatic increase in popularity, scaling to previously intractable problems, such as playing complex games from pixel observations, sustaining conversations with humans, and controlling robotic agents. However, there is still a wide range of domains inaccessible to RL due to the high cost and danger of interacting with the environment. Offline RL is a paradigm that learns exclusively from static datasets of previously collected interactions, making it feasible to extract policies from large and diverse training datasets. Effective offline RL algorithms have a much wider range of applications than online RL, being particularly appealing for real-world applications such as education, healthcare, and robotics. In this work, we propose a unifying taxonomy to classify offline RL methods. Furthermore, we provide a comprehensive review of the latest algorithmic breakthroughs in the field, and a review of existing benchmarks' properties and shortcomings. Finally, we provide our perspective on open problems and propose future research directions for this rapidly growing field.
翻訳日:2022-03-04 14:38:14 公開日:2022-03-02
# 早期に慢性腎臓病(CKD)を検出する:新しいハイブリッド特徴選択法と異なるML技術のためのロバストデータ作成パイプライン

Detecting Chronic Kidney Disease(CKD) at the Initial Stage: A Novel Hybrid Feature-selection Method and Robust Data Preparation Pipeline for Different ML Techniques ( http://arxiv.org/abs/2203.01394v1 )

ライセンス: Link先を確認
Md. Taufiqul Haque Khan Tusar, Md. Touhidul Islam, Foyjul Islam Raju(参考訳) 慢性腎臓病(CKD)は世界中で8億人近くに感染している。 毎年約170万人が死亡している。 CKDを早期に検出することは、数百万人の命を救うのに不可欠である。 多くの研究者がCKDを早期に検出するために異なる機械学習(ML)手法を適用しているが、詳細な研究はいまだに欠けている。 本稿では,医療データの複雑さを最適性能で扱うための構造的かつ徹底的な手法を提案する。 さらに,本研究は,医療データ作成パイプラインに関する明確なアイデアの創出を支援する。 本稿では,KNNインプットを欠落した値をインプットするために,ローカル・アウトリー・ファクター(Local Outlier Factor),データ不均衡を処理するSMOTE,MLモデルの検証を行うK-stratified K-fold Cross-validation,冗長な特徴を除去する新しいハイブリッド特徴選択法を提案する。 この研究に応用されたアルゴリズムは、Support Vector Machine、Gaussian Naive Bayes、Decision Tree、Random Forest、Logistic Regression、K-Nearest Neighbor、Gradient Boosting、Adaptive Boosting、Extreme Gradient Boostingである。 最後に、Random Forestはデータ漏洩なしにCKDを100%精度で検出できる。

Chronic Kidney Disease (CKD) has infected almost 800 million people around the world. Around 1.7 million people die each year because of it. Detecting CKD in the initial stage is essential for saving millions of lives. Many researchers have applied distinct Machine Learning (ML) methods to detect CKD at an early stage, but detailed studies are still missing. We present a structured and thorough method for dealing with the complexities of medical data with optimal performance. Besides, this study will assist researchers in producing clear ideas on the medical data preparation pipeline. In this paper, we applied KNN Imputation to impute missing values, Local Outlier Factor to remove outliers, SMOTE to handle data imbalance, K-stratified K-fold Cross-validation to validate the ML models, and a novel hybrid feature selection method to remove redundant features. Applied algorithms in this study are Support Vector Machine, Gaussian Naive Bayes, Decision Tree, Random Forest, Logistic Regression, K-Nearest Neighbor, Gradient Boosting, Adaptive Boosting, and Extreme Gradient Boosting. Finally, the Random Forest can detect CKD with 100% accuracy without any data leakage.
翻訳日:2022-03-04 14:33:55 公開日:2022-03-02
# 欠損治療情報を用いた条件平均処理効果の推定

Estimating Conditional Average Treatment Effects with Missing Treatment Information ( http://arxiv.org/abs/2203.01422v1 )

ライセンス: Link先を確認
Milan Kuzmanovic, Tobias Hatt, Stefan Feuerriegel(参考訳) 条件平均治療効果(CATE)の推定は特に治療情報が欠落している場合に困難である。 これは実際は広く行われている問題であるが、欠損治療によるCATE推定はほとんど注目されていない。 本稿では,共変量シフトの形でCATE推定を行う際,CATE推定の難易度を解析し,一意な課題を生じさせる。 私たちの設定では 2つの共変量シフトを識別します (i)被処理者と対照者との間の共変量シフト (II)観察群と欠失群の間の共変量の変化。 まず、これらの共変量シフトの効果を、欠損治療によるCATE推定の一般化を導出することにより、理論的に示す。 次に,この境界に動機づけられ,領域適応を用いて共変量の平衡表現を学習する新しいカテゴリー推定アルゴリズムmtrnetを開発した。 バランスの取れた表現を使用することで、MTRNetはデータが完全に観察されていない共変量領域においてより信頼性の高いCATE推定を提供する。 半合成データと実世界のデータを用いた様々な実験において,本アルゴリズムが最先端技術よりも大幅に改善することを示す。

Estimating conditional average treatment effects (CATE) is challenging, especially when treatment information is missing. Although this is a widespread problem in practice, CATE estimation with missing treatments has received little attention. In this paper, we analyze CATE estimation in the setting with missing treatments where, thus, unique challenges arise in the form of covariate shifts. We identify two covariate shifts in our setting: (i) a covariate shift between the treated and control population; and (ii) a covariate shift between the observed and missing treatment population. We first theoretically show the effect of these covariate shifts by deriving a generalization bound for estimating CATE in our setting with missing treatments. Then, motivated by our bound, we develop the missing treatment representation network (MTRNet), a novel CATE estimation algorithm that learns a balanced representation of covariates using domain adaptation. By using balanced representations, MTRNet provides more reliable CATE estimates in the covariate domains where the data are not fully observed. In various experiments with semi-synthetic and real-world data, we show that our algorithm improves over the state-of-the-art by a substantial margin.
翻訳日:2022-03-04 14:32:27 公開日:2022-03-02
# (参考訳) モデルパラメータの不確かさを考慮したロバストモデル予測制御のためのベイズ最適化 [全文訳有]

Bayesian Optimisation for Robust Model Predictive Control under Model Parameter Uncertainty ( http://arxiv.org/abs/2203.00551v2 )

ライセンス: CC BY 4.0
Rel Guzman, Rafael Oliveira, Fabio Ramos(参考訳) 本稿では,確率モデル予測制御(mpc)ハイパーパラメータの適応最適化手法を提案し,性能評価に基づく遷移モデルパラメータの確率分布を共同で推定する。 特に,MPCハイパーパラメータおよびダイナミックスモデルパラメータ空間にまたがる様々なノイズに対処するために,非定常雑音モデルを用いたベイズ最適化(BO)アルゴリズムを開発した。 典型的なホモシダスティックノイズモデルは、確率制御器が本質的にノイズが多いため、MPCのチューニングには非現実的であり、ノイズのレベルは超パラメータ設定の影響を受けます。 シミュレーション制御とロボットのタスクにおいて,制御パラメータと動的パラメータを共同で推論する最適化アルゴリズムの評価を行った。 実験の結果,我々のアプローチは累積的な報酬とより安定したコントローラをもたらすことがわかった。

We propose an adaptive optimisation approach for tuning stochastic model predictive control (MPC) hyper-parameters while jointly estimating probability distributions of the transition model parameters based on performance rewards. In particular, we develop a Bayesian optimisation (BO) algorithm with a heteroscedastic noise model to deal with varying noise across the MPC hyper-parameter and dynamics model parameter spaces. Typical homoscedastic noise models are unrealistic for tuning MPC since stochastic controllers are inherently noisy, and the level of noise is affected by their hyper-parameter settings. We evaluate the proposed optimisation algorithm in simulated control and robotics tasks where we jointly infer control and dynamics parameters. Experimental results demonstrate that our approach leads to higher cumulative rewards and more stable controllers.
翻訳日:2022-03-04 13:14:11 公開日:2022-03-02
# (参考訳) 機械学習システムにおけるコードスメル [全文訳有]

Code Smells in Machine Learning Systems ( http://arxiv.org/abs/2203.00803v1 )

ライセンス: CC BY 4.0
Jiri Gesi, Siqi Liu, Jiawei Li, Iftekhar Ahmed, Nachiappan Nagappan, David Lo, Eduardo Santana de Almeida, Pavneet Singh Kochhar, Lingfeng Bao(参考訳) ディープラーニング(DL)システムが継続的に進化し成長するにつれて、その品質を保証することが重要な課題になります。 非DLシステムと比較して、DLシステムはより複雑なチーム構成と重いデータ依存を持つ。 こうした固有の特徴は、DLシステムがバグに対してより脆弱になり、長期的には保守上の問題を引き起こす可能性がある。 コードの臭いは非dlシステムの効率的な指標として実証的にテストされる。 そこで本研究では,コードの臭いを識別し,メンテナンスへの影響を理解するための一歩を踏み出した。 これはdlソフトウェアシステムのコンテキストにおけるコードの臭いの調査に関する最初の研究であり、研究者や実践者がどのようなメンテナンス修正を行い、開発者が対処してきたコードの臭いを理解するのに役立ちます。 私たちの論文には3つの大きな貢献がある。 まず, DL システムの進化を調べた上で, DL 開発者によるメンテナンス修正を総合的に検討し, DL システムにおいて, 保守関連変更の9つのカテゴリが頻繁に発生していることを確認した。 次に、DLシステムで5つのコードの臭いを要約した。 第3に、定性分析と定量分析の混合によって、新たに同定されたコードの影響を検証した。 新たに特定したコードの臭いが開発者の立場からdlシステムのメンテナンスに広く影響を与えていることが分かりました。

As Deep learning (DL) systems continuously evolve and grow, assuring their quality becomes an important yet challenging task. Compared to non-DL systems, DL systems have more complex team compositions and heavier data dependency. These inherent characteristics would potentially cause DL systems to be more vulnerable to bugs and, in the long run, to maintenance issues. Code smells are empirically tested as efficient indicators of non-DL systems. Therefore, we took a step forward into identifying code smells, and understanding their impact on maintenance in this comprehensive study. This is the first study on investigating code smells in the context of DL software systems, which helps researchers and practitioners to get a first look at what kind of maintenance modification made and what code smells developers have been dealing with. Our paper has three major contributions. First, we comprehensively investigated the maintenance modifications that have been made by DL developers via studying the evolution of DL systems, and we identified nine frequently occurred maintenance-related modification categories in DL systems. Second, we summarized five code smells in DL systems. Third, we validated the prevalence, and the impact of our newly identified code smells through a mixture of qualitative and quantitative analysis. We found that our newly identified code smells are prevalent and impactful on the maintenance of DL systems from the developer's perspective.
翻訳日:2022-03-04 07:45:58 公開日:2022-03-02
# (参考訳) 単眼深度予測のためのインスタンスアウェアマルチオブジェクト自己スーパービジョン [全文訳有]

Instance-aware multi-object self-supervision for monocular depth prediction ( http://arxiv.org/abs/2203.00809v1 )

ライセンス: CC BY 4.0
Houssem eddine Boulahbal, Adrian Voicila, Andrew Comport(参考訳) 本稿では,自己教師付き単眼画像対深度予測フレームワークを提案する。このフレームワークは6自由度カメラモーションだけでなく6自由度移動オブジェクトインスタンスも処理するエンドツーエンドフォトメトリック損失を訓練する。 セルフスーパービジョンは、オブジェクトインスタンスを含む深度とシーンの動きを使用して、映像をビデオシーケンスにわたってワープすることで実行される。 提案手法の目新しさは,移動物体を時間にわたってマッチングし,その相互作用とダイナミクスをモデル化するトランスフォーマーネットワークの多頭部注意の利用である。 これにより、各オブジェクトインスタンスに対する正確なロバストなポーズ推定が可能になる。 ほとんどの画像から奥行きの述語フレームワークは、厳密なシーンを前提としており、動的オブジェクトに対してパフォーマンスを劣化させる。 動的対象を考慮に入れているSOTA論文はごくわずかである。 提案手法は標準ベンチマークにおいてこれらの手法よりも優れており,これらのベンチマークに対する動的運動の影響が明らかにされている。 さらに, 提案手法は, sotaビデオ対深度予測フレームワークよりも優れていることを示す。

This paper proposes a self-supervised monocular image-to-depth prediction framework that is trained with an end-to-end photometric loss that handles not only 6-DOF camera motion but also 6-DOF moving object instances. Self-supervision is performed by warping the images across a video sequence using depth and scene motion including object instances. One novelty of the proposed method is the use of a multi-head attention of the transformer network that matches moving objects across time and models their interaction and dynamics. This enables accurate and robust pose estimation for each object instance. Most image-to-depth predication frameworks make the assumption of rigid scenes, which largely degrades their performance with respect to dynamic objects. Only a few SOTA papers have accounted for dynamic objects. The proposed method is shown to largely outperform these methods on standard benchmarks and the impact of the dynamic motion on these benchmarks is exposed. Furthermore, the proposed image-to-depth prediction framework is also shown to outperform SOTA video-to-depth prediction frameworks.
翻訳日:2022-03-04 07:22:08 公開日:2022-03-02
# (参考訳) 量子低ランク近似問題 [全文訳有]

The quantum low-rank approximation problem ( http://arxiv.org/abs/2203.00811v1 )

ライセンス: CC BY 4.0
Nic Ezzell, Zo\"e Holmes, Patrick J. Coles(参考訳) 我々は、有名な低ランク近似問題の量子バージョンを考える。 具体的には、2つの正規化された量子状態、$\rho$ と $\sigma$ の間の距離 $d(\rho,\sigma)$ を考える。 トレース距離とヒルベルト=シュミット距離の両方について、この距離を最小化する最適状態 $\sigma$ を解析的に解く。 ヒルベルト=シュミット距離に対して、一意的な最適状態は、$\sigma = \tau_r +n_r$であり、ここで、$\tau_r = \pi_r \rho \pi_r$ は、$r$ の主成分に$\rho$ を射出して与えられ、$n_r$ は$n_r = \frac{1- \text{tr}(\tau_r)}{r}\pi_r$ によって与えられる正規化係数である。 トレース距離については、この状態も最適であるが、一意に最適ではない。 本稿では,量子コンピュータ上での変分最適化による主成分分析(PCA)の応用について概説する。

We consider a quantum version of the famous low-rank approximation problem. Specifically, we consider the distance $D(\rho,\sigma)$ between two normalized quantum states, $\rho$ and $\sigma$, where the rank of $\sigma$ is constrained to be at most $R$. For both the trace distance and Hilbert-Schmidt distance, we analytically solve for the optimal state $\sigma$ that minimizes this distance. For the Hilbert-Schmidt distance, the unique optimal state is $\sigma = \tau_R +N_R$, where $\tau_R = \Pi_R \rho \Pi_R$ is given by projecting $\rho$ onto its $R$ principal components with projector $\Pi_R$, and $N_R$ is a normalization factor given by $N_R = \frac{1- \text{Tr}(\tau_R)}{R}\Pi_R$. For the trace distance, this state is also optimal but not uniquely optimal, and we provide the full set of states that are optimal. We briefly discuss how our results have application for performing principal component analysis (PCA) via variational optimization on quantum computers.
翻訳日:2022-03-04 07:09:00 公開日:2022-03-02
# (参考訳) 臨床経路のコンピュータ化:文献レビューと今後の研究の方向性 [全文訳有]

Computerization of Clinical Pathways: A Literature Review and Directions for Future Research ( http://arxiv.org/abs/2203.00815v1 )

ライセンス: CC BY 4.0
Ayman Alahmar and Ola Alkhatib(参考訳) 臨床パスウェイズ (CP) は、患者の治療活動を標準化し、リソース使用を最適化し、費用を削減し、医療サービスの質を向上させるために開発された医療管理計画である。 現在使われているほとんどのCPは紙ベースの文書(コンピュータ化されていない)である。 cpコンピュータ化は病院でのcp利用開始以来、活発な研究課題となっている。 本研究は,CP コンピュータ化に焦点をあてた研究を考察し,この重要な研究領域における今後の研究を推奨することを目的とする。 重要な研究としては、医療情報システム(HIS)におけるコンピュータCPの集中化、国際医療用語システムを用いたCP用語の標準化、グローバルCP固有のデジタルコーディングシステムの開発、統合CPメタオントロジーの作成、独立した臨床パスウェイ管理システム(CPMS)の開発、機械学習サブシステムによるCPMSのサポートなどがある。

Clinical Pathways (CP) are medical management plans developed to standardize patient treatment activities, optimize resource usage, reduce expenses, and improve the quality of healthcare services. Most CPs currently in use are paper-based documents (i.e., not computerized). CP computerization has been an active research topic since the inception of CP use in hospitals. This literature review research aims to examine studies that focused on CP computerization and offers recommendations for future research in this important research area. Some critical research suggestions include centralizing computerized CPs in Healthcare Information Systems (HIS), CP term standardization using international medical terminology systems, developing a global CP-specific digital coding system, creating a unified CP meta-ontology, developing independent Clinical Pathway Management Systems (CPMS), and supporting CPMSs with machine learning sub-systems.
翻訳日:2022-03-04 06:53:38 公開日:2022-03-02
# (参考訳) 効果的な解釈可能な政策蒸留を実現するための最小限の経験 [全文訳有]

Keeping Minimal Experience to Achieve Efficient Interpretable Policy Distillation ( http://arxiv.org/abs/2203.00822v1 )

ライセンス: CC BY 4.0
Xiao Liu, Shuyang Liu, Wenbin Li, Shangdong Yang and Yang Gao(参考訳) 深層強化学習は複雑な制御タスクの普遍的なソリューションとなっているが、その現実の応用性はまだ制限されている。 そこで本研究では,ipd(end-to-end interpretable policy distillation)フレームワークであるminimum experience retain (bcmer) による境界特性評価を提案する。 従来のIDDアプローチとは異なり、BCMERは経験の重要性を区別し、ポリシーの類似性がほとんど失われることなく、最小限ではあるが重要な経験プールを維持している。 具体的には、BCMERは2つの基本的なステップを含む。 まず,経験点を境界点と内部点に分割し,重要な境界点を予約する多次元超球面交叉(MHI)手法を提案する。 第2に,境界点に基づく頑健かつ解釈可能な決定ルールを生成する最寄りの近傍モデルを開発する。 大規模な実験により、提案されたBCMERは、経験の量を1.4%〜19.1%に減らし、高いIDD性能を維持することができることがわかった。 一般に、提案したBCMERは、臨界経験を発見し、冗長な経験をなくすため、記憶の制限された経験に適している。

Although deep reinforcement learning has become a universal solution for complex control tasks, its real-world applicability is still limited because lacking security guarantees for policies. To address this problem, we propose Boundary Characterization via the Minimum Experience Retention (BCMER), an end-to-end Interpretable Policy Distillation (IPD) framework. Unlike previous IPD approaches, BCMER distinguishes the importance of experiences and keeps a minimal but critical experience pool with almost no loss of policy similarity. Specifically, the proposed BCMER contains two basic steps. Firstly, we propose a novel multidimensional hyperspheres intersection (MHI) approach to divide experience points into boundary points and internal points, and reserve the crucial boundary points. Secondly, we develop a nearest-neighbor-bas ed model to generate robust and interpretable decision rules based on the boundary points. Extensive experiments show that the proposed BCMER is able to reduce the amount of experience to 1.4%~19.1% (when the count of the naive experiences is 10k) and maintain high IPD performance. In general, the proposed BCMER is more suitable for the experience storage limited regime because it discovers the critical experience and eliminates redundant experience.
翻訳日:2022-03-04 06:41:13 公開日:2022-03-02
# (参考訳) GSCの損失: ディープラーニングの損失を測るガウスのスコア [全文訳有]

GSC Loss: A Gaussian Score Calibrating Loss for Deep Learning ( http://arxiv.org/abs/2203.00833v1 )

ライセンス: CC BY 4.0
Qingsong Zhao, Shuguang Dou, Xiaopeng Ji, Xinyang Jiang, Cairong Zhao, Yin Wang(参考訳) ソフトマックスに統合されたクロスエントロピー(ce)損失は、ほとんどの分類ベースのフレームワークにおいて正統的な要素であるが、分類の悪いサンプルのさらなる意思決定に不可欠な予測スコアの正確な確率分布を得ることができない。 予測スコア校正は予測スコアの分布を学習するための解決策を提供し、モデルに識別表現を明示的に得ることができる。 エントロピー関数を考慮すると、予測されたスコアの不確実性を測定することができる。 しかし、itの勾配変化はモデル最適化の期待とは一致しない。 そこで我々は,ディープニューラルネットワーク(DNN)による予測スコアの校正を行うため,一般ガウススコア校正(GSC)損失を提案した。 10以上のベンチマークデータセットに関する広範囲な実験により、提案されたgsc損失は、様々なビジュアルタスクにおいて一貫性があり、著しいパフォーマンス向上をもたらすことが示されている。 特に,CE損失に基づいた共通改善手法にラベル非依存のGSC損失を埋め込むことができる。

Cross entropy (CE) loss integrated with softmax is an orthodox component in most classification-based frameworks, but it fails to obtain an accurate probability distribution of predicted scores that is critical for further decision-making of poor-classified samples. The prediction score calibration provides a solution to learn the distribution of predicted scores which can explicitly make the model obtain a discriminative representation. Considering the entropy function can be utilized to measure the uncertainty of predicted scores. But, the gradient variation of it is not in line with the expectations of model optimization. To this end, we proposed a general Gaussian Score Calibrating (GSC) loss to calibrate the predicted scores produced by the deep neural networks (DNN). Extensive experiments on over 10 benchmark datasets demonstrate that the proposed GSC loss can yield consistent and significant performance boosts in a variety of visual tasks. Notably, our label-independent GSC loss can be embedded into common improved methods based on the CE loss easily.
翻訳日:2022-03-04 06:25:30 公開日:2022-03-02
# (参考訳) CandidateDrug4Cancer : がんの薬物発見に関するオープンな分子グラフ学習ベンチマーク [全文訳有]

CandidateDrug4Cancer : An Open Molecular Graph Learning Benchmark on Drug Discovery for Cancer ( http://arxiv.org/abs/2203.00836v1 )

ライセンス: CC BY 4.0
Xianbin Ye, Ziliang Li, Fei Ma, Zongbi Yi, Pengyong Li, Jun Wang, Peng Gao, Yixuan Qiao, Guotong Xie(参考訳) 抗がん剤の発見はセレンディピタンスであり,抗がん剤発見のためのスケーラブルでロバストで再現可能なグラフ機械学習研究を容易にする,挑戦的で現実的なベンチマークデータセットである candidatedrug4cancer という,オープン分子グラフ学習ベンチマークを提示した。 candidatedrug4cancer datasetは、がんの29のターゲットで、前臨床、臨床、およびfdaが承認した54869のがん関連薬物分子をカバーしている。 データセット構築に加えて、記述子と表現型グラフニューラルネットワークを用いた効果的なドラッグターゲットインタラクション(DTI)予測ベースラインのベンチマーク実験も実施する。 実験結果から,CandidateDrug4Cance rは分子グラフの学習において重要な課題を示し,がん治療薬の開発に向けた今後の研究の機会が示唆された。

Anti-cancer drug discoveries have been serendipitous, we sought to present the Open Molecular Graph Learning Benchmark, named CandidateDrug4Cancer , a challenging and realistic benchmark dataset to facilitate scalable, robust, and reproducible graph machine learning research for anti-cancer drug discovery. CandidateDrug4Cancer dataset encompasses multiple most-mentioned 29 targets for cancer, covering 54869 cancer-related drug molecules which are ranged from pre-clinical, clinical and FDA-approved. Besides building the datasets, we also perform benchmark experiments with effective Drug Target Interaction (DTI) prediction baselines using descriptors and expressive graph neural networks. Experimental results suggest that CandidateDrug4Cancer presents significant challenges for learning molecular graphs and targets in practical application, indicating opportunities for future researches on developing candidate drugs for treating cancers.
翻訳日:2022-03-04 06:08:01 公開日:2022-03-02
# (参考訳) OmniFusion:Geometry- Aware Fusionによる360度単眼深度推定 [全文訳有]

OmniFusion: 360 Monocular Depth Estimation via Geometry-Aware Fusion ( http://arxiv.org/abs/2203.00838v1 )

ライセンス: CC BY-SA 4.0
Yuyan Li, Yuliang Guo, Zhixin Yan, Xinyu Huang, Ye Duan, Liu Ren(参考訳) 全方位画像に深層学習を適用することの課題は球面歪みである。 構造の詳細が必要な深度推定などの高密度回帰タスクでは、歪んだ360度画像上のバニラCNN層を用いることで、望ましくない情報損失が生じる。 本稿では,球面歪み問題に対処するために,360度単眼深度推定パイプライン \textit{omnifusion} を提案する。 当社のパイプラインでは,360度イメージを不規則なパースペクティブパッチ(タンジェントイメージ)に変換して,cnnによるパッチワイズ予測を取得し,最終出力としてパッチワイズ結果をマージする。 マージ品質に影響を及ぼす主要な問題であるパッチワイズ予測の相違に対処するため,以下のキーコンポーネントを備えた新しいフレームワークを提案する。 まず, 3次元幾何学的特徴と2次元画像特徴を組み合わせることで, パッチ方向の不一致を補償する幾何認識特徴融合機構を提案する。 第2に,自己着脱型トランスフォーマーアーキテクチャを用いてパッチ毎の情報をグローバルに集約することにより,一貫性をさらに向上させる。 最後に,より正確な幾何学的特徴に基づいて,推定深度をさらに精錬する反復的深さ精細化機構を導入する。 実験の結果,本手法は歪み問題を大幅に軽減し,360度単眼深度推定ベンチマークデータセットの最先端性能を実現する。

A well-known challenge in applying deep-learning methods to omnidirectional images is spherical distortion. In dense regression tasks such as depth estimation, where structural details are required, using a vanilla CNN layer on the distorted 360 image results in undesired information loss. In this paper, we propose a 360 monocular depth estimation pipeline, \textit{OmniFusion}, to tackle the spherical distortion issue. Our pipeline transforms a 360 image into less-distorted perspective patches (i.e. tangent images) to obtain patch-wise predictions via CNN, and then merge the patch-wise results for final output. To handle the discrepancy between patch-wise predictions which is a major issue affecting the merging quality, we propose a new framework with the following key components. First, we propose a geometry-aware feature fusion mechanism that combines 3D geometric features with 2D image features to compensate for the patch-wise discrepancy. Second, we employ the self-attention-based transformer architecture to conduct a global aggregation of patch-wise information, which further improves the consistency. Last, we introduce an iterative depth refinement mechanism, to further refine the estimated depth based on the more accurate geometric features. Experiments show that our method greatly mitigates the distortion issue, and achieves state-of-the-art performances on several 360 monocular depth estimation benchmark datasets.
翻訳日:2022-03-04 05:57:57 公開日:2022-03-02
# (参考訳) 参照なし機能はフルリファレンス画像品質推定に有効か? [全文訳有]

Can No-reference features help in Full-reference image quality estimation? ( http://arxiv.org/abs/2203.00845v1 )

ライセンス: CC BY 4.0
Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah(参考訳) 知覚画像品質評価(IQA)メトリクスの開発は、コンピュータビジョンコミュニティにとって大きな関心を集めてきた。 これらの指標の目的は、人間が知覚する画像の品質をモデル化することである。 完全参照iqa研究の最近の研究は、品質予測のためにクエリと参照画像に対応する深い特徴をピクセル単位で比較する。 しかし、クエリ画像に存在する歪みが厳しい場合、ピクセル毎の特徴比較は意味をなさない。 本稿では,全参照IQAタスクにおける非参照機能の利用について検討する。 我々のモデルは完全な参照と参照なしのブランチから成り立っている。 フル参照ブランチは歪画像と参照画像の両方を使用し、No参照ブランチは歪画像のみを使用する。 実験の結果,参照なし機能の利用は画質評価の性能を高めることがわかった。 我々のモデルは、KADID-10KおよびPIPALデータセット上で、最先端のアルゴリズムよりも高いSRCCとKRCCスコアを達成する。

Development of perceptual image quality assessment (IQA) metrics has been of significant interest to computer vision community. The aim of these metrics is to model quality of an image as perceived by humans. Recent works in Full-reference IQA research perform pixelwise comparison between deep features corresponding to query and reference images for quality prediction. However, pixelwise feature comparison may not be meaningful if distortion present in query image is severe. In this context, we explore utilization of no-reference features in Full-reference IQA task. Our model consists of both full-reference and no-reference branches. Full-reference branches use both distorted and reference images, whereas No-reference branch only uses distorted image. Our experiments show that use of no-reference features boosts performance of image quality assessment. Our model achieves higher SRCC and KRCC scores than a number of state-of-the-art algorithms on KADID-10K and PIPAL datasets.
翻訳日:2022-03-04 05:42:05 公開日:2022-03-02
# (参考訳) PUMA: トレーニングデータ除去のための非変更モデル拡張 [全文訳有]

PUMA: Performance Unchanged Model Augmentation for Training Data Removal ( http://arxiv.org/abs/2203.00846v1 )

ライセンス: CC BY 4.0
Ga Wu, Masoud Hashemi, Christopher Srinivasa(参考訳) マークされたトレーニングデータポイントのユニークな特性を取り除きながら、トレーニングモデルのパフォーマンスを維持することは困難である。 最近の研究は、通常、スクラッチからモデルを再トレーニングすることや、マークされたデータポイントのモデル最適化を反転させることによってモデルを洗練することを提案する。 残念なことに、それらの計算の非効率性を除いて、これらのアプローチは、固有の特性だけでなく、共有(およびおそらくは貢献)の情報も取り除いたため、結果のモデルの一般化能力を必然的に損なう。 本稿では, 性能劣化問題に対処するため, Performance Unchanged Model Augmentation~(PUMA)と呼ばれる新しい手法を提案する。 提案するPUMAフレームワークは,各トレーニングデータポイントが各種性能基準に対するモデルの一般化能力に与える影響を明示的にモデル化する。 そして、残りのデータを最適に重み付けすることで、マークされたデータを除去する負の影響を補完する。 PUMAフレームワークの有効性を実証するため、実験において複数の最先端データ除去手法と比較し、PUMAがマーク付きトレーニングデータのユニークな特性を、モデルを再訓練することなく効果的に効率的に除去できることを示した。 1)会員攻撃を愚かにし、 2) 性能劣化を抑える。 さらに,PUMAが運用中のデータ重要度を推定することにより,既存の手法よりも誤りのあるデータポイントのデバッグに有効であることを示す。

Preserving the performance of a trained model while removing unique characteristics of marked training data points is challenging. Recent research usually suggests retraining a model from scratch with remaining training data or refining the model by reverting the model optimization on the marked data points. Unfortunately, aside from their computational inefficiency, those approaches inevitably hurt the resulting model's generalization ability since they remove not only unique characteristics but also discard shared (and possibly contributive) information. To address the performance degradation problem, this paper presents a novel approach called Performance Unchanged Model Augmentation~(PUMA). The proposed PUMA framework explicitly models the influence of each training data point on the model's generalization ability with respect to various performance criteria. It then complements the negative impact of removing marked data by reweighting the remaining data optimally. To demonstrate the effectiveness of the PUMA framework, we compared it with multiple state-of-the-art data removal techniques in the experiments, where we show the PUMA can effectively and efficiently remove the unique characteristics of marked training data without retraining the model that can 1) fool a membership attack, and 2) resist performance degradation. In addition, as PUMA estimates the data importance during its operation, we show it could serve to debug mislabelled data points more efficiently than existing approaches.
翻訳日:2022-03-04 05:33:26 公開日:2022-03-02
# (参考訳) オートエンコーダおよびサロゲートモデルにおける高忠実度不透明スペクトルの伝達学習 [全文訳有]

Transfer Learning of High-Fidelity Opacity Spectra in Autoencoders and Surrogate Models ( http://arxiv.org/abs/2203.00853v1 )

ライセンス: CC BY 4.0
Michael D. Vander Wal and Ryan G. McClarren and Kelli D. Humbird(参考訳) 高エネルギー密度物理学のシミュレーションは高価であり、主に非局所熱力学平衡不透明度を生成する必要がある。 高忠実度スペクトルは、低忠実度スペクトルでは見られないシミュレーションにおける新しい物理を明らかにするが、これらのシミュレーションのコストは、使用中の不純物の忠実度レベルとともにスケールする。 ニューラルネットワークはこれらのスペクトルを再現することができるが、トレーニングデータの忠実度を制限するために、トレーニングするデータが必要である。 本稿では,複数の低忠実度データでトレーニングされたニューラルネットワーク上で転送学習を行うことで,高忠実度クリプトンデータの50サンプルのサンプルを用いて,中央値誤差が3-%から4-%の範囲で高忠実度スペクトルを再現できることを実証する。

Simulations of high energy density physics are expensive, largely in part for the need to produce non-local thermodynamic equilibrium opacities. High-fidelity spectra may reveal new physics in the simulations not seen with low-fidelity spectra, but the cost of these simulations also scale with the level of fidelity of the opacities being used. Neural networks are capable of reproducing these spectra, but neural networks need data to to train them which limits the level of fidelity of the training data. This paper demonstrates that it is possible to reproduce high-fidelity spectra with median errors in the realm of 3\% to 4\% using as few as 50 samples of high-fidelity Krypton data by performing transfer learning on a neural network trained on many times more low-fidelity data.
翻訳日:2022-03-04 05:05:22 公開日:2022-03-02
# (参考訳) マスキング位置エンコーディングによる増分変圧器構造強調画像インペインティング [全文訳有]

Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding ( http://arxiv.org/abs/2203.00867v1 )

ライセンス: CC BY 4.0
Qiaole Dong, Chenjie Cao, Yanwei Fu(参考訳) 画像の塗装は近年大きな進歩を遂げている。 しかし、鮮明なテクスチャと妥当な構造の両方で劣化した画像を復元することは依然として困難である。 いくつかの特定の手法は、畳み込みニューラルネットワーク(CNN)の受容領域が限られているため、全体構造を失いながら、通常のテクスチャにのみ取り組む。 一方、注意に基づくモデルは、構造回復のための長距離依存性をよりよく学習するが、大きな画像サイズを持つ推論のための重い計算によって制限される。 これらの問題に対処するために,画像のインライン化を容易にする構造復元器の追加を提案する。 提案モデルでは,低解像度のスケッチ空間において,強力なアテンションベーストランスフォーマーモデルを用いて全体像構造を復元する。 このようなグレースケール空間は、より大きなスケールにアップサンプリングして、正しい構造情報を伝えるのが容易である。 構造復元器は他の事前学習したインペインティングモデルとゼロ初期化残差付加と効率的に統合できる。 また、マスキング位置符号化戦略を利用して、大きな不規則マスクによる性能向上を図る。 各種データセットに対する大規模な実験は、他の競合相手と比較して、我々のモデルの有効性を検証する。 私たちのコードはhttps://github.com/d qiaole/zits_inpainti ngでリリースされています。

Image inpainting has made significant advances in recent years. However, it is still challenging to recover corrupted images with both vivid textures and reasonable structures. Some specific methods only tackle regular textures while losing holistic structures due to the limited receptive fields of convolutional neural networks (CNNs). On the other hand, attention-based models can learn better long-range dependency for the structure recovery, but they are limited by the heavy computation for inference with large image sizes. To address these issues, we propose to leverage an additional structure restorer to facilitate the image inpainting incrementally. The proposed model restores holistic image structures with a powerful attention-based transformer model in a fixed low-resolution sketch space. Such a grayscale space is easy to be upsampled to larger scales to convey correct structural information. Our structure restorer can be integrated with other pretrained inpainting models efficiently with the zero-initialized residual addition. Furthermore, a masking positional encoding strategy is utilized to improve the performance with large irregular masks. Extensive experiments on various datasets validate the efficacy of our model compared with other competitors. Our codes are released in https://github.com/D Qiaole/ZITS_inpainti ng.
翻訳日:2022-03-04 04:56:26 公開日:2022-03-02
# (参考訳) ハイブリッド最適化型深層畳み込みニューラルネットワークによる物体検出学習モデル [全文訳有]

Hybrid Optimized Deep Convolution Neural Network based Learning Model for Object Detection ( http://arxiv.org/abs/2203.00869v1 )

ライセンス: CC BY 4.0
Venkata Beri(参考訳) 物体識別はコンピュータビジョンにおける最も基本的かつ困難な問題の1つである。 多数の確立されたカテゴリからオブジェクトインスタンスを実画像で発見することを目的としている。 近年,コンピュータビジョンから発達した深層学習に基づく物体検出技術が大衆の関心を集めている。 ディープラーニングフレームワークに基づく物体認識手法は,様々なセンサが取得した移動画像の解釈方法として急速に普及している。 アクティビティやイベント検出、コンテンツベースの画像検索、シーン理解といった様々なコンピュータビジョンタスクに対する幅広い応用により、学者たちはこの問題を解決しようと何十年も費やしてきた。 この目標を念頭に置いて、独自のディープラーニング分類技術を用いて、自律的な物体検出システムを構築する。 ガウスフィルタとコントラスト正規化技術を用いて, 騒音破壊と正規化処理をそれぞれ行うことが, 研究活動の第一段階である。 次に、前処理された画像はエントロピーに基づくセグメンテーションアルゴリズムにより、画像の重要な領域を分離し、異なる発生を区別する。 分類チャレンジは、提案されたHybrid Optimized Dense Convolutional Neural Network (HODCNN)によって完了する。 このフレームワークの主な目標は、収集された入力フレームから異なる項目の正確な認識を支援することである。 提案システムの性能は,既存の機械学習手法とディープラーニング手法を比較して評価する。 実験の結果,提案フレームワークの検出精度は0.9864であり,現行技術よりも高いことがわかった。 その結果、提案するオブジェクト検出モデルは、他の現在の手法よりも優れている。

Object identification is one of the most fundamental and difficult issues in computer vision. It aims to discover object instances in real pictures from a huge number of established categories. In recent years, deep learning-based object detection techniques that developed from computer vision have grabbed the public's interest. Object recognition methods based on deep learning frameworks have quickly become a popular way to interpret moving images acquired by various sensors. Due to its vast variety of applications for various computer vision tasks such as activity or event detection, content-based image retrieval, and scene understanding, academics have spent decades attempting to solve this problem. With this goal in mind, a unique deep learning classification technique is used to create an autonomous object detecting system. The noise destruction and normalising operations, which are carried out using gaussian filter and contrast normalisation techniques, respectively, are the first steps in the study activity. The pre-processed picture is next subjected to entropy-based segmentation algorithms, which separate the image's significant areas in order to distinguish between distinct occurrences. The classification challenge is completed by the suggested Hybrid Optimized Dense Convolutional Neural Network (HODCNN). The major goal of this framework is to aid in the precise recognition of distinct items from the gathered input frames. The suggested system's performance is assessed by comparing it to existing machine learning and deep learning methodologies. The experimental findings reveal that the suggested framework has a detection accuracy of 0.9864, which is greater than current techniques. As a result, the suggested object detection model outperforms other current methods.
翻訳日:2022-03-04 04:38:33 公開日:2022-03-02
# (参考訳) 3次元物体検出のための高密度ボクセル融合 [全文訳有]

Dense Voxel Fusion for 3D Object Detection ( http://arxiv.org/abs/2203.00871v1 )

ライセンス: CC BY 4.0
Anas Mahmoud, Jordan S. K. Hu and Steven L. Waslander(参考訳) カメラとLiDARセンサーは、自動運転車の3Dオブジェクトを検出するのに有用な相補的な外観と幾何学的情報を提供する。 しかし、現在の核融合モデルでは、3Dオブジェクト検出ベンチマーク上で最先端のLiDARのみの手法が実行されている。 提案手法である密度ボクセル融合(dvf)は,複数スケールの多モード密度ボクセル特徴表現を生成し,低点密度領域の表現性を向上させる逐次核融合手法である。 マルチモーダル学習を強化するため,本研究では,ノイズ,検出器固有の2次元予測を回避し,真理2次元境界ボックスラベルを直接訓練する。 さらに,2次元検出の欠如をシミュレートし,トレーニング収束を加速するために,LiDAR地中真実サンプリングを用いる。 DVFとマルチモーダルトレーニングアプローチは、任意のボクセルベースのLiDARバックボーンに、追加の学習可能なパラメータを導入することなく適用することができる。 dvfは、提案時点でkittiの3dカー検出ベンチマークで公開されたすべての核融合手法の中で、既存のスパース核融合検出器よりも優れており、waymo open dataset上のvoxelベースの方法の3d車両検出性能を大幅に改善している。 また,提案するマルチモーダルトレーニング戦略は,誤った2次元予測を用いたトレーニングと比較して,よりよい一般化をもたらすことを示す。

Camera and LiDAR sensor modalities provide complementary appearance and geometric information useful for detecting 3D objects for autonomous vehicle applications. However, current fusion models underperform state-of-art LiDAR-only methods on 3D object detection benchmarks. Our proposed solution, Dense Voxel Fusion (DVF) is a sequential fusion method that generates multi-scale multi-modal dense voxel feature representations, improving expressiveness in low point density regions. To enhance multi-modal learning, we train directly with ground truth 2D bounding box labels, avoiding noisy, detector-specific, 2D predictions. Additionally, we use LiDAR ground truth sampling to simulate missed 2D detections and to accelerate training convergence. Both DVF and the multi-modal training approaches can be applied to any voxel-based LiDAR backbone without introducing additional learnable parameters. DVF outperforms existing sparse fusion detectors, ranking $1^{st}$ among all published fusion methods on KITTI's 3D car detection benchmark at the time of submission and significantly improves 3D vehicle detection performance of voxel-based methods on the Waymo Open Dataset. We also show that our proposed multi-modal training strategy results in better generalization compared to training using erroneous 2D predictions.
翻訳日:2022-03-04 04:29:37 公開日:2022-03-02
# (参考訳) Promptsは自然言語を使ってNLPタスクを解くか? [全文訳有]

Do Prompts Solve NLP Tasks Using Natural Language? ( http://arxiv.org/abs/2203.00902v1 )

ライセンス: CC BY 4.0
Sen Yang, Yunchen Zhang, Leyang Cui and Yue Zhang(参考訳) 大規模な事前学習型言語モデルの改良により,様々な下流タスクにおいて,プロンプトベースの微調整が有効であることが示されている。 多くのプロンプト法が研究されているが、どのタイプのプロンプトが3種類のプロンプト(人間指定プロンプト、スキーマプロンプト、ヌルプロンプト)の中で最も効果的かは不明である。 本研究では,この3種類のプロンプトを,数ショットと全教師付き設定の両方で実証的に比較する。 実験の結果,スキーマプロンプトは一般に最も有効であることがわかった。 さらに、トレーニングデータの規模が大きくなると、パフォーマンスギャップが減少する傾向がある。

Thanks to the advanced improvement of large pre-trained language models, prompt-based fine-tuning is shown to be effective on a variety of downstream tasks. Though many prompting methods have been investigated, it remains unknown which type of prompts are the most effective among three types of prompts (i.e., human-designed prompts, schema prompts and null prompts). In this work, we empirically compare the three types of prompts under both few-shot and fully-supervised settings. Our experimental results show that schema prompts are the most effective in general. Besides, the performance gaps tend to diminish when the scale of training data grows large.
翻訳日:2022-03-04 04:12:29 公開日:2022-03-02
# (参考訳) トラベリングセールスマン問題に対する強化学習と最適輸送の併用 [全文訳有]

Combining Reinforcement Learning and Optimal Transport for the Traveling Salesman Problem ( http://arxiv.org/abs/2203.00903v1 )

ライセンス: CC BY-SA 4.0
Yong Liang Goh, Wee Sun Lee, Xavier Bresson, Thomas Laurent, Nicholas Lim(参考訳) トラベルセールスマン問題は、厳密なアルゴリズムを持つ基本的な組合せ最適化問題である。 しかし、問題が大きくなるにつれて、これらの正確なアルゴリズムは妥当な時間内にソリューションを提供しない。 これを解決するために、現在の研究は、ディープラーニングを利用して妥当なソリューションを構築することに注目している。 このような取り組みは非常に成功したが、遅くて計算集約的な傾向にある。 本稿では,深層強化学習ネットワークにおけるエントロピー正規化最適輸送手法の層としての統合を例示する。 我々は,従来の自己回帰的アプローチよりもはるかに高速に,監督や推論なしに学習できるモデルを構築することができることを示す。 また、ディープラーニングモデルに最適なトランスポートアルゴリズムを組み込むことで、エンドツーエンドのトレーニング中に割り当て制約を強制する利点を実証的に評価する。

The traveling salesman problem is a fundamental combinatorial optimization problem with strong exact algorithms. However, as problems scale up, these exact algorithms fail to provide a solution in a reasonable time. To resolve this, current works look at utilizing deep learning to construct reasonable solutions. Such efforts have been very successful, but tend to be slow and compute intensive. This paper exemplifies the integration of entropic regularized optimal transport techniques as a layer in a deep reinforcement learning network. We show that we can construct a model capable of learning without supervision and inferences significantly faster than current autoregressive approaches. We also empirically evaluate the benefits of including optimal transport algorithms within deep learning models to enforce assignment constraints during end-to-end training.
翻訳日:2022-03-04 04:04:43 公開日:2022-03-02
# (参考訳) 弱教師付き対応学習 [全文訳有]

Weakly Supervised Correspondence Learning ( http://arxiv.org/abs/2203.00904v1 )

ライセンス: CC BY 4.0
Zihan Wang, Zhangjie Cao, Yilun Hao and Dorsa Sadigh(参考訳) 対応学習はロボット工学の基本的な問題であり、状態のマッピング、異なるダイナミクスや実施形態のエージェントのアクションペアを学ぶことを目的としている。 しかし、現在の対応学習法は、厳密なペアリングデータ(収集が難しい場合が多い)を利用するか、サイクルコンシステンシーなどの正規化技術を用いて非ペアデータから教師なしの方法で学習する。 本稿では,厳密なペアデータに対する強い監督と,非ペアデータに対する正規化子による教師なし学習とのトレードオフを生かした,弱い教師付き対応学習手法を提案する。 我々の考えは 2つの弱い監督を 生かすことです 一 複合誤差を低減させる状態及び行動の時間的順序付け、及び 二 ペアデータの代わりに、ペアデータ抽象化により、誤認問題を緩和し、より正確な対応を学ぶこと。 この2つの弱い監督は、現実世界のアプリケーションで簡単にアクセスでき、厳密なペアデータへの注釈のコストを低減し、学習した対応の品質を向上させる。

Correspondence learning is a fundamental problem in robotics, which aims to learn a mapping between state, action pairs of agents of different dynamics or embodiments. However, current correspondence learning methods either leverage strictly paired data -- which are often difficult to collect -- or learn in an unsupervised fashion from unpaired data using regularization techniques such as cycle-consistency -- which suffer from severe misalignment issues. We propose a weakly supervised correspondence learning approach that trades off between strong supervision over strictly paired data and unsupervised learning with a regularizer over unpaired data. Our idea is to leverage two types of weak supervision: i) temporal ordering of states and actions to reduce the compounding error, and ii) paired abstractions, instead of paired data, to alleviate the misalignment problem and learn a more accurate correspondence. The two types of weak supervision are easy to access in real-world applications, which simultaneously reduces the high cost of annotating strictly paired data and improves the quality of the learned correspondence.
翻訳日:2022-03-04 03:54:50 公開日:2022-03-02
# (参考訳) 心理的サンドプレイ画像のための分割意味検出アルゴリズム [全文訳有]

A Split Semantic Detection Algorithm for Psychological Sandplay Image ( http://arxiv.org/abs/2203.00907v1 )

ライセンス: CC BY 4.0
Xiaokun Feng, Xiaotang Chen, Kaiqi Huang(参考訳) 心理的サンドプレイは、重要な心理分析ツールとして、テスターが砂の物体(例えば、砂、川、人格、動物、植生、建物など)を選択し配置する視覚シーンである。 テスターの内界の投影として、テスターの思考や感情を反映した高いレベルの意味情報を含んでいる。 既存のコンピュータビジョン技術のほとんどは、自然画像における客観的な基本的な意味論(オブジェクト名、属性、バウンディングボックスなど)に焦点を合わせているが、その一方で、人工画像における主観的な心理的意味論(感情、思考、感情など)に注意を払っている作品はほとんどない。 後者のセマンティクスを研究対象とし、研究目標としてスプリット(テスターの内的統合を反映する一般的な心理的意味論)を採用し、スプリットセマンティクスの自動検出を実現するために機械学習の手法を用いて、サンドプレイ画像の主観的心理的意味論の検出における機械学習の適用を探る。 この目的のために,分割特徴を表す一次元ベクトルを得るための特徴次元削減抽出アルゴリズムを提案し,多層パーセプトロンネットワークに基づく分割意味検出器を構築し,検出結果を得る。 実サンドプレイデータセットにおける実験結果は,提案アルゴリズムの有効性を示す。

Psychological sandplay, as an important psychological analysis tool, is a visual scene constructed by the tester selecting and placing sand objects (e.g., sand, river, human figures, animals, vegetation, buildings, etc.). As the projection of the tester's inner world, it contains high-level semantic information reflecting the tester's thoughts and feelings. Most of the existing computer vision technologies focus on the objective basic semantics (e.g., object's name, attribute, boundingbox, etc.) in the natural image, while few related works pay attention to the subjective psychological semantics (e.g., emotion, thoughts, feelings, etc.) in the artificial image. We take the latter semantics as the research object, take "split" (a common psychological semantics reflecting the inner integration of testers) as the research goal, and use the method of machine learning to realize the automatic detection of split semantics, so as to explore the application of machine learning in the detection of subjective psychological semantics of sandplay images. To this end, we present a feature dimensionality reduction and extraction algorithm to obtain a one-dimensional vector representing the split feature, and build the split semantic detector based on Multilayer Perceptron network to get the detection results. Experimental results on the real sandplay datasets show the effectiveness of our proposed algorithm.
翻訳日:2022-03-04 03:32:31 公開日:2022-03-02
# (参考訳) 双方向任意画像リスケーリングに向けて--協調最適化とサイクルイデムポテンス [全文訳有]

Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and Cycle Idempotence ( http://arxiv.org/abs/2203.00911v1 )

ライセンス: CC0 1.0
Zhihong Pan, Baopu Li, Dongliang He, Mingde Yao, Wenhao Wu, Tianwei Lin, Xin Li, Errui Ding(参考訳) 深層学習に基づく単一画像超解像モデルの研究が盛んに行われ、高分解能画像のアップスケール化やダウンスケール分解カーネルのダウンスケール化を実現している。 このようなモデルの現実世界の適用性を改善するため、任意のスケールアップ要因に最適化されたモデルを開発することへの関心が高まっている。 提案手法は, 任意のリスケーリング, スケールアップ, ダウンスケーリングを統一プロセスとして扱う最初の方法である。 両方向の協調最適化により,提案手法はスケールアップとダウンスケーリングを同時に学習し,双方向の任意画像再スケーリングを実現する。 これは、現在の任意のアップスケーリングモデルのパフォーマンスを大きなマージンで改善すると同時に、ダウンスケール画像における視覚の知覚品質を維持することを学ぶ。 提案モデルはさらに,ダウンスケーリング-スケールアップサイクルを繰り返し適用した場合の再構成精度の重大な劣化を伴わず,サイクル等化試験においてロバストであることが示される。 この堅牢性は、このサイクルを1つのイメージに複数回適用することが可能な、野生のイメージ再スケーリングに有用である。 モデルがそのようなタスクでトレーニングされていない場合でも、任意の大きなスケールと非対称なスケールのテストでもうまく機能する。 本モデルの優れた性能を示すために,広範な実験を行った。

Deep learning based single image super-resolution models have been widely studied and superb results are achieved in upscaling low-resolution images with fixed scale factor and downscaling degradation kernel. To improve real world applicability of such models, there are growing interests to develop models optimized for arbitrary upscaling factors. Our proposed method is the first to treat arbitrary rescaling, both upscaling and downscaling, as one unified process. Using joint optimization of both directions, the proposed model is able to learn upscaling and downscaling simultaneously and achieve bidirectional arbitrary image rescaling. It improves the performance of current arbitrary upscaling models by a large margin while at the same time learns to maintain visual perception quality in downscaled images. The proposed model is further shown to be robust in cycle idempotence test, free of severe degradations in reconstruction accuracy when the downscaling-to-upsca ling cycle is applied repetitively. This robustness is beneficial for image rescaling in the wild when this cycle could be applied to one image for multiple times. It also performs well on tests with arbitrary large scales and asymmetric scales, even when the model is not trained with such tasks. Extensive experiments are conducted to demonstrate the superior performance of our model.
翻訳日:2022-03-04 03:22:33 公開日:2022-03-02
# (参考訳) pufa-gan: 3dポイントクラウドアップサンプリングのための周波数認識型生成逆ネットワーク [全文訳有]

PUFA-GAN: A Frequency-Aware Generative Adversarial Network for 3D Point Cloud Upsampling ( http://arxiv.org/abs/2203.00914v1 )

ライセンス: CC0 1.0
Hao Liu, Hui Yuan, Junhui Hou, Raouf Hamzaoui, Wei Gao(参考訳) そこで本研究では,アップサンプリングされたポイントを基礎面上に均等に分散させるだけでなく,クリーンな高周波領域を効率的に生成できる,ポイントクラウドアップサンプリングのための生成型逆ネットワークを提案する。 ネットワーク生成装置は、動的グラフ階層的残差集約ユニットと、ポイント特徴抽出およびアップサンプリングのための階層的残差集約ユニットとを含む。 前者はマルチスケールのポイントワイド記述的特徴を抽出し、後者は階層的残差でリッチな特徴の詳細をキャプチャする。 適切なエッジを生成するために,識別器はグラフフィルタを用いて高周波点を抽出・保持する。 生成された高分解能点雲とそれに対応する高周波点は、判別器が点雲の大域的および高周波特性を学ぶのに役立つ。 また、入力された低分解能点雲の基底面にアップサンプリングされた点が残るように、アイデンティティ分布損失関数を提案する。 高周波領域におけるアップサンプリング点の正則性を評価するために,2つの評価指標を導入する。 客観的および主観的な結果から,本手法が生成する点雲の視覚的品質は最先端手法よりも優れていることが示された。

We propose a generative adversarial network for point cloud upsampling, which can not only make the upsampled points evenly distributed on the underlying surface but also efficiently generate clean high frequency regions. The generator of our network includes a dynamic graph hierarchical residual aggregation unit and a hierarchical residual aggregation unit for point feature extraction and upsampling, respectively. The former extracts multiscale point-wise descriptive features, while the latter captures rich feature details with hierarchical residuals. To generate neat edges, our discriminator uses a graph filter to extract and retain high frequency points. The generated high resolution point cloud and corresponding high frequency points help the discriminator learn the global and high frequency properties of the point cloud. We also propose an identity distribution loss function to make sure that the upsampled points remain on the underlying surface of the input low resolution point cloud. To assess the regularity of the upsampled points in high frequency regions, we introduce two evaluation metrics. Objective and subjective results demonstrate that the visual quality of the upsampled point clouds generated by our method is better than that of the state-of-the-art methods.
翻訳日:2022-03-04 03:03:59 公開日:2022-03-02
# (参考訳) 外部記憶を用いたマルチモーダルダイナミクスの連続学習 [全文訳有]

Continual Learning of Multi-modal Dynamics with External Memory ( http://arxiv.org/abs/2203.00936v1 )

ライセンス: CC BY 4.0
Abdullah Akg\"ul, Gozde Unal, Melih Kandemir(参考訳) 本研究では,新しい動作モードが順次出現した場合に,モデルが動的環境に適合する問題について検討する。 学習モデルは、新しいモードが現れることを認識しているが、個々のトレーニングシーケンスの真のモードにアクセスできない。 我々は,ニューラル・エピソード記憶において,遭遇したシーケンスのモードの記述子を保持する新しい連続学習法を考案した。 我々はメモリの重み付けに先立ってディリクレプロセスを採用し、モード記述子の効率的な保存を促進する。 本手法は,過去のタスクの類似モードの記述子を現在のシーケンスのモードに検索し,その記述子を制御入力として遷移カーネルに入力することにより,タスク間での知識の伝達を継続学習する。 本稿では,本手法の連続学習性能をメインストリームパラメータ転送手法と比較する。

We study the problem of fitting a model to a dynamical environment when new modes of behavior emerge sequentially. The learning model is aware when a new mode appears, but it does not have access to the true modes of individual training sequences. We devise a novel continual learning method that maintains a descriptor of the mode of an encountered sequence in a neural episodic memory. We employ a Dirichlet Process prior on the attention weights of the memory to foster efficient storage of the mode descriptors. Our method performs continual learning by transferring knowledge across tasks by retrieving the descriptors of similar modes of past tasks to the mode of a current sequence and feeding this descriptor into its transition kernel as control input. We observe the continual learning performance of our method to compare favorably to the mainstream parameter transfer approach.
翻訳日:2022-03-04 02:39:16 公開日:2022-03-02
# (参考訳) parapose: 合成データを用いたポーズ推定のためのパラメータとドメインのランダム化最適化 [全文訳有]

ParaPose: Parameter and Domain Randomization Optimization for Pose Estimation using Synthetic Data ( http://arxiv.org/abs/2203.00945v1 )

ライセンス: CC BY 4.0
Frederik Hagelskjaer and Anders Glent Buch(参考訳) ポーズ推定は、シーン内の物体の6次元位置を決定するタスクである。 ポーズ推定はロボットのセットアップの能力と柔軟性を支援する。 しかし、適切に実行するには、システムはユースケースに向けて設定されなければならない。 この構成は時間を要するため、ポーズ推定やロボットシステムの使用性が制限される。 ディープラーニングは、データセットから直接パラメータを学習することで、この構成手順を克服する手法である。 しかし、このトレーニングデータを取得するのも非常に時間がかかる。 合成トレーニングデータの使用は、このデータ収集の問題を回避するが、ドメインギャップ問題を克服するためには、トレーニング手順の設定が必要である。 さらに、ポーズ推定パラメータも設定する必要がある。 この構成は、十分な結果が得られるまでパラメータが手動で調整されるので、冗談でgrad student descendとして知られている。 本稿では,合成データのみを用いた自動構成法を提案する。 これはネットワークトレーニング中にドメインのランダム化を学習し、ドメインのランダム化を使ってポーズ推定パラメータを最適化することで達成される。 開発されたアプローチでは、挑戦的なOCCLUSIONデータセットを82.0%リコールする最先端のパフォーマンスを示し、これまでのすべてのメソッドを大きなマージンで上回っている。 これらの結果は純粋合成データを用いたポーズ推定の自動設定の有効性を示す。

Pose estimation is the task of determining the 6D position of an object in a scene. Pose estimation aid the abilities and flexibility of robotic set-ups. However, the system must be configured towards the use case to perform adequately. This configuration is time-consuming and limits the usability of pose estimation and, thereby, robotic systems. Deep learning is a method to overcome this configuration procedure by learning parameters directly from the dataset. However, obtaining this training data can also be very time-consuming. The use of synthetic training data avoids this data collection problem, but a configuration of the training procedure is necessary to overcome the domain gap problem. Additionally, the pose estimation parameters also need to be configured. This configuration is jokingly known as grad student descent as parameters are manually adjusted until satisfactory results are obtained. This paper presents a method for automatic configuration using only synthetic data. This is accomplished by learning the domain randomization during network training, and then using the domain randomization to optimize the pose estimation parameters. The developed approach shows state-of-the-art performance of 82.0 % recall on the challenging OCCLUSION dataset, outperforming all previous methods with a large margin. These results prove the validity of automatic set-up of pose estimation using purely synthetic data.
翻訳日:2022-03-04 02:22:13 公開日:2022-03-02
# (参考訳) 計算効率と統計的に最適ロバストな低ランク行列推定

Computationally Efficient and Statistically Optimal Robust Low-rank Matrix Estimation ( http://arxiv.org/abs/2203.00953v1 )

ライセンス: CC BY 4.0
Yinan Shen and Jingyang Li and Jian-Feng Cai and Dong Xia(参考訳) 重項雑音下での低位行列推定は, 計算量と統計量の両方において困難である。 凸アプローチは統計的に最適であることが証明されているが、特にロバストな損失関数は通常スムースではないため計算コストが高い。 より最近では、サブ勾配降下による計算速度の速い非凸アプローチが提案されているが、残念ながらサブガウス雑音下でも統計的に一貫した推定器を提供していない。 本稿では,線形収束により計算効率が向上するだけでなく,ガウス雑音や重み付き雑音に対して統計的に最適である,新しいリーマン部分勾配アルゴリズムを提案する。 一般の枠組みとして収束理論が確立され,絶対損失,フーバー損失,量子損失に対する特定の応用が研究されている。 既存の非凸法と比較して, 2相収束の驚くべき現象が明らかになった。 フェーズ1では、rsgradは徐々に崩壊するステップを必要とする典型的な非スムース最適化のように振る舞う。 しかし、第1相は、既存の文献で既に観察されている統計的に準最適推定器のみを提供する。 興味深いことに、位相 2 のとき、RsGrad は滑らかで強凸な目的関数を最小化するように線型収束し、したがって一定の段階化が成立する。 位相2収束の根底にあるのは、無作為なノイズが近接する領域における非スムースなロバストな損失に対して平滑化効果である。 数値シミュレーションにより, 理論的な発見を確認し, rsgradが先行手法よりも優れていることを示す。

Low-rank matrix estimation under heavy-tailed noise is challenging, both computationally and statistically. Convex approaches have been proven statistically optimal but suffer from high computational costs, especially since robust loss functions are usually non-smooth. More recently, computationally fast non-convex approaches via sub-gradient descent are proposed, which, unfortunately, fail to deliver a statistically consistent estimator even under sub-Gaussian noise. In this paper, we introduce a novel Riemannian sub-gradient (RsGrad) algorithm which is not only computationally efficient with linear convergence but also is statistically optimal, be the noise Gaussian or heavy-tailed. Convergence theory is established for a general framework and specific applications to absolute loss, Huber loss and quantile loss are investigated. Compared with existing non-convex methods, ours reveals a surprising phenomenon of dual-phase convergence. In phase one, RsGrad behaves as in a typical non-smooth optimization that requires gradually decaying stepsizes. However, phase one only delivers a statistically sub-optimal estimator which is already observed in existing literature. Interestingly, during phase two, RsGrad converges linearly as if minimizing a smooth and strongly convex objective function and thus a constant stepsize suffices. Underlying the phase-two convergence is the smoothing effect of random noise to the non-smooth robust losses in an area close but not too close to the truth. Numerical simulations confirm our theoretical discovery and showcase the superiority of RsGrad over prior methods.
翻訳日:2022-03-04 02:09:43 公開日:2022-03-02
# (参考訳) GRASP EARTH:惑星の変化を発見するための直感的ソフトウェア [全文訳有]

GRASP EARTH: Intuitive Software for Discovering Changes on the Planet ( http://arxiv.org/abs/2203.00955v1 )

ライセンス: CC BY 4.0
Waku Hatakeyama, Shirou Kawakita, Ryohei Izawa, Masanari Kimura(参考訳) 都市開発、森林破壊、自然災害などの地球上の変化を検出することは、多くの注目を集めている研究分野の1つである。 これらの問題を解決する有望なツールの一つが衛星画像である。 しかし、衛星画像は大量のストレージを必要とするため、利用者は災害や開発の可能性を検出するのに適さないエリア・オブ・関心を最初に設定する必要がある。 この問題に対処するため,Google Earth Engineをベースとした簡易な変更検出アプリケーションGRASP EARTHを開発した。 GRASP EARTHは衛星画像を容易に処理でき、災害監視や都市開発監視に利用されています。

Detecting changes on the Earth, such as urban development, deforestation, or natural disaster, is one of the research fields that is attracting a great deal of attention. One promising tool to solve these problems is satellite imagery. However, satellite images require huge amount of storage, therefore users are required to set Area of Interests first, which was not suitable for detecting potential areas for disaster or development. To tackle with this problem, we develop the novel tool, namely GRASP EARTH, which is the simple change detection application based on Google Earth Engine. GRASP EARTH allows us to handle satellite imagery easily and it has used for disaster monitoring and urban development monitoring.
翻訳日:2022-03-04 02:08:30 公開日:2022-03-02
# (参考訳) FMCW LiDARによる移動物体追跡の学習 [全文訳有]

Learning Moving-Object Tracking with FMCW LiDAR ( http://arxiv.org/abs/2203.00959v1 )

ライセンス: CC BY 4.0
Yi Gu, Hongzhi Cheng, Kafeng Wang, Dejing Dou, Chengzhong Xu and Hui Kong(参考訳) 本稿では,新しいLiDARセンサである周波数変調連続波(FMCW)を用いた学習型移動物体追跡手法を提案する。 既存の市販LiDARセンサと比較して、FMCW LiDARは点雲の各3D点にドップラー速度情報を付加することができる。 これにより、半自動的な方法で基底真理としてインスタンスラベルを生成することができる。 ラベルが与えられた場合、我々は、同じインスタンスから機能を埋め込みスペースにまとめて、異なるインスタンスから機能を分離し、トラッキング品質を改善するコントラスト学習フレームワークを提案する。 記録された運転データに対して広範囲な実験を行い,本手法がベースライン法を大差で上回ることを示した。

In this paper, we propose a learning-based moving-object tracking method utilizing our newly developed LiDAR sensor, Frequency Modulated Continuous Wave (FMCW) LiDAR. Compared with most existing commercial LiDAR sensors, our FMCW LiDAR can provide additional Doppler velocity information to each 3D point of the point clouds. Benefiting from this, we can generate instance labels as ground truth in a semi-automatic manner. Given the labels, we propose a contrastive learning framework, which pulls together the features from the same instance in embedding space and pushes apart the features from different instances, to improve the tracking quality. Extensive experiments are conducted on our recorded driving data, and the results show that our method outperforms the baseline methods by a large margin.
翻訳日:2022-03-04 01:59:17 公開日:2022-03-02
# (参考訳) 弱教師付きセマンティックセグメンテーションのためのクラス再活性化マップ [全文訳有]

Class Re-Activation Maps for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.00962v1 )

ライセンス: CC BY 4.0
Zhaozheng Chen, Tan Wang, Xiongwei Wu, Xian-Sheng Hua, Hanwang Zhang, Qianru Sun(参考訳) クラスアクティベーションマップ(CAM)の抽出は、弱い教師付きセマンティックセグメンテーション(WSSS)のための疑似マスクを生成する最も標準的なステップである。 しかし、不満足な擬似マスクのくちばしは、CAMで広く使われているバイナリクロスエントロピー損失(BCE)であることがわかった。 具体的には、BCEの総和クラスプーリングの性質により、CAMの各ピクセルは、同じ受容場にある複数のクラスに応答する可能性がある。 その結果、クラスが与えられた場合、そのホットなCAMピクセルは他のクラスに属する領域に誤って侵入するか、非ホットなピクセルは実際にはクラスの一部である可能性がある。 そこで本研究では, ソフトマックスクロスエントロピー損失(SCE)を用いて, 収束CAMをBCEに再活性化する手法を提案する。 画像が与えられた場合、CAMを使って各クラスの特徴画素を抽出し、それらをクラスラベルと共に使用して、SCEで(バックボーンの後)別の完全に接続されたレイヤを学習します。 収束すると,CAMと同様の方法でReCAMを抽出する。 SCEの対照的な性質により、画素応答は異なるクラスに切り離されるため、マスクの曖昧さは期待できない。 PASCAL VOCとMS~COCOの評価は、ReCAMが高品質なマスクを生成するだけでなく、オーバーヘッドの少ないCAM版でもプラグアンドプレイをサポートすることを示している。

Extracting class activation maps (CAM) is arguably the most standard step of generating pseudo masks for weakly-supervised semantic segmentation (WSSS). Yet, we find that the crux of the unsatisfactory pseudo masks is the binary cross-entropy loss (BCE) widely used in CAM. Specifically, due to the sum-over-class pooling nature of BCE, each pixel in CAM may be responsive to multiple classes co-occurring in the same receptive field. As a result, given a class, its hot CAM pixels may wrongly invade the area belonging to other classes, or the non-hot ones may be actually a part of the class. To this end, we introduce an embarrassingly simple yet surprisingly effective method: Reactivating the converged CAM with BCE by using softmax cross-entropy loss (SCE), dubbed \textbf{ReCAM}. Given an image, we use CAM to extract the feature pixels of each single class, and use them with the class label to learn another fully-connected layer (after the backbone) with SCE. Once converged, we extract ReCAM in the same way as in CAM. Thanks to the contrastive nature of SCE, the pixel response is disentangled into different classes and hence less mask ambiguity is expected. The evaluation on both PASCAL VOC and MS~COCO shows that ReCAM not only generates high-quality masks, but also supports plug-and-play in any CAM variant with little overhead.
翻訳日:2022-03-04 01:48:07 公開日:2022-03-02
# (参考訳) ランキングベース損失と大規模バッチトレーニングによるポイントクラウドによる位置認識の改善 [全文訳有]

Improving Point Cloud Based Place Recognition with Ranking-based Loss and Large Batch Training ( http://arxiv.org/abs/2203.00972v1 )

ライセンス: CC BY 4.0
Jacek Komorowski(参考訳) 本稿では,場所認識のための識別的3dポイントクラウド記述子を簡易かつ効果的な学習ベースで計算する手法を提案する。 最近の最先端の手法は、多スケールの点変換器と特徴集合モジュールのピラミッドの組み合わせのような比較的複雑なアーキテクチャを持つ。 本手法は, チャネルアテンションブロックで強化されたスパースボキセル化表現に基づく, シンプルで効率的な3次元畳み込み特徴抽出を用いる。 本稿では,画像検索における最近の進歩を取り入れ,異なる平均精度近似に基づく損失関数の修正版を提案する。 このような損失関数は、最良の結果を得るために非常に大きなバッチでトレーニングを必要とする。 これは多段バックプロパゲーションを使用することで実現される。 人気のあるベンチマークの実験的評価は、我々のアプローチの有効性を証明し、最先端の技術を一貫して改善している

The paper presents a simple and effective learning-based method for computing a discriminative 3D point cloud descriptor for place recognition purposes. Recent state-of-the-art methods have relatively complex architectures such as multi-scale oyramid of point Transformers combined with a pyramid of feature aggregation modules. Our method uses a simple and efficient 3D convolutional feature extraction, based on a sparse voxelized representation, enhanced with channel attention blocks. We employ recent advances in image retrieval and propose a modified version of a loss function based on a differentiable average precision approximation. Such loss function requires training with very large batches for the best results. This is enabled by using multistaged backpropagation. Experimental evaluation on the popular benchmarks proves the effectiveness of our approach, with a consistent improvement over the state of the art
翻訳日:2022-03-04 01:26:35 公開日:2022-03-02
# (参考訳) 深層学習による乱流チャネルの時間ダイナミクス予測

Predicting the temporal dynamics of turbulent channels through deep learning ( http://arxiv.org/abs/2203.00974v1 )

ライセンス: CC BY 4.0
Giuseppe Borrelli, Luca Guastoni, Hamidreza Eivazi, Philipp Schlatter, Ricardo Vinuesa(参考訳) リカレントニューラルネットワーク(RNN)の成功は、流れ制御、最適化、乱流特性の再現、乱流予測とモデリングなど、乱流に関連する多くのアプリケーションで実証されている。 本研究は, 微小乱流流の時間的変化を再現するこれらのネットワークの能力を評価することを目的とする。 まず,フローからサンプリングされた時系列のフーリエ領域(fft-pod)におけるモーダル分解に基づくデータ駆動モデルを得る。 この乱流の場合、壁の近くの最も関連するコヒーレント構造を正確にシミュレートすることができます。 長期記憶(LSTM)ネットワークとクープマンベースのフレームワーク(KNF)は、最小チャネルフローモードの時間ダイナミクスを予測するために訓練される。 異なる構成の試験では、研究中の流れの複雑さを考えると、LSTMと比較してKNF法の限界が強調される。 LSTMの長期予測は、統計的観点からは優れた一致を示し、参照に関して最良のモデルに対して2%未満の誤差がある。 さらに, リアプノフ指数を用いたカオス的挙動の解析や, ポアンカレ写像による動的挙動の解析は, 乱流の時間的ダイナミクスを再現するLSTMの能力を強調している。 異なる乱流構造を同定した別の還元次モデル(rom)が検討され、最小チャネルの時間的ダイナミクスを予測する良い可能性を示し続けている。

The success of recurrent neural networks (RNNs) has been demonstrated in many applications related to turbulence, including flow control, optimization, turbulent features reproduction as well as turbulence prediction and modeling. With this study we aim to assess the capability of these networks to reproduce the temporal evolution of a minimal turbulent channel flow. We first obtain a data-driven model based on a modal decomposition in the Fourier domain (which we denote as FFT-POD) of the time series sampled from the flow. This particular case of turbulent flow allows us to accurately simulate the most relevant coherent structures close to the wall. Long-short-term-memo ry (LSTM) networks and a Koopman-based framework (KNF) are trained to predict the temporal dynamics of the minimal-channel-flow modes. Tests with different configurations highlight the limits of the KNF method compared to the LSTM, given the complexity of the flow under study. Long-term prediction for LSTM show excellent agreement from the statistical point of view, with errors below 2% for the best models with respect to the reference. Furthermore, the analysis of the chaotic behaviour through the use of the Lyapunov exponents and of the dynamic behaviour through Poincar\'e maps emphasizes the ability of the LSTM to reproduce the temporal dynamics of turbulence. Alternative reduced-order models (ROMs), based on the identification of different turbulent structures, are explored and they continue to show a good potential in predicting the temporal dynamics of the minimal channel.
翻訳日:2022-03-04 01:13:05 公開日:2022-03-02
# (参考訳) 連鎖一般化境界

Chained Generalisation Bounds ( http://arxiv.org/abs/2203.00977v1 )

ライセンス: CC BY 4.0
Eugenio Clerico, Amitis Shidani, George Deligiannidis, Arnaud Doucet(参考訳) 本研究は,教師付き学習アルゴリズムの期待一般化誤差の上限を連鎖法を用いて導出する方法について述べる。 一般理論フレームワークを開発することにより、損失関数の正則性に基づく一般化境界と、損失から勾配への正則性仮定を持ち上げることで得られる鎖付き境界との双対性を確立する。 これにより、文献から束縛された相互情報の再導出と、ワッサースタイン距離やその他の確率メトリクスに基づいて、新しい連鎖情報理論一般化境界を得ることができる。 特にアルゴリズムによって選択される仮説の分布が非常に集中している場合,連鎖一般化境界は,その標準値よりもかなり厳密であることを示す。 キーワード:一般化境界、連鎖、情報理論境界、相互情報、ワッサーシュタイン距離、PAC-Bayes。

This work discusses how to derive upper bounds for the expected generalisation error of supervised learning algorithms by means of the chaining technique. By developing a general theoretical framework, we establish a duality between generalisation bounds based on the regularity of the loss function, and their chained counterparts, which can be obtained by lifting the regularity assumption from the loss onto its gradient. This allows us to re-derive the chaining mutual information bound from the literature, and to obtain novel chained information-theoreti c generalisation bounds, based on the Wasserstein distance and other probability metrics. We show on some toy examples that the chained generalisation bound can be significantly tighter than its standard counterpart, particularly when the distribution of the hypotheses selected by the algorithm is very concentrated. Keywords: Generalisation bounds; Chaining; Information-theoreti c bounds; Mutual information; Wasserstein distance; PAC-Bayes.
翻訳日:2022-03-04 01:12:05 公開日:2022-03-02
# (参考訳) 補充材料を用いた新しい二重切断ハーフスペースを利用したラッソのGAPスクリーニング [全文訳有]

Beyond GAP screening for Lasso by exploiting new dual cutting half-spaces with supplementary material ( http://arxiv.org/abs/2203.00987v1 )

ライセンス: CC BY 4.0
Thu-Le Tran and Cl\'ement Elvira and Hong-Phuong Dang and C\'edric Herzet(参考訳) 本稿では,lassoの新しい安全スクリーニングテストを提案する。 本手法はドーム形状を持つ安全な領域を基本とし,双対実現可能集合を含む半空間集合の正準表現(本論文では「二重切断半空間」と呼ぶ)を利用する。 提案された安全領域は、Fercoqらによって提案された最先端の"GAP Sphere"と"GAP Dome"に、同じ計算負担を伴いながら常に含まれていることが示されている。 数値実験により,新しいドームはギャップ領域よりも強力なスクリーニング試験を考案し,ラッソを解くための大幅な高速化につながることを確認した。

In this paper, we propose a novel safe screening test for Lasso. Our procedure is based on a safe region with a dome geometry and exploits a canonical representation of the set of half-spaces (referred to as "dual cutting half-spaces" in this paper) containing the dual feasible set. The proposed safe region is shown to be always included in the state-of-the-art "GAP Sphere" and "GAP Dome" proposed by Fercoq et al. (and strictly so under very mild conditions) while involving the same computational burden. Numerical experiments confirm that our new dome enables to devise more powerful screening tests than GAP regions and lead to significant acceleration to solve Lasso.
翻訳日:2022-03-04 01:11:04 公開日:2022-03-02
# (参考訳) 連続的特徴選択:連続学習における純粋特徴 [全文訳有]

Continual Feature Selection: Spurious Features in Continual Learning ( http://arxiv.org/abs/2203.01012v1 )

ライセンス: CC BY 4.0
Timoth\'ee Lesort(参考訳) 連続学習 (CL) は、データの分布が静的でない学習環境に対処する研究分野である。 本稿では,連続学習アルゴリズムに対する特徴の影響について考察する。 実際、学習アルゴリズムは一般化できない機能を過剰に満たすことで課題を解決できることが示される。 これらの現象とその影響をよりよく理解するために,様々な分散一般化と連続学習アルゴリズムを通して研究する領域インクリメンタルシナリオを提案する。 本研究は, 連続学習アルゴリズムが2つの課題に直面することを示す。(1) 突発的特徴課題: ある特徴は, 列車データ中のラベルとよく相関するが, 列車と試験の共変によるテストデータには関係しない。 2) 局所的なスプリアス機能課題: ある機能はタスク内のラベルとよく相関するが、タスクシーケンス全体には関連しない。 課題は、(一般的に)スプリアスでもローカルスプリアスでもない一般的な特徴を学ぶことです。 後者は,破滅的な忘れ込みを伴う連続学習における性能低下の大きな原因であることを示す。 その結果,特徴選択問題を克服する最善の解法は,特徴量(SF)とラベルの相関によって異なることがわかった。 バニラリプレイ(vanilla replay)アプローチは、sfsに対処するための強力なアプローチであるように思われる。 本稿では,スプリアス・ローカル・スプリアスの影響を説明することにより,連続学習におけるパフォーマンスの低下を理解するための異なる方法を提案する。

Continual Learning (CL) is the research field addressing learning settings where the data distribution is not static. This paper studies spurious features' influence on continual learning algorithms. Indeed, we show that learning algorithms solve tasks by overfitting features that are not generalizable. To better understand these phenomena and their impact, we propose a domain incremental scenario that we study through various out-of-distribution generalizations and continual learning algorithms. The experiments of this paper show that continual learning algorithms face two related challenges: (1) the spurious features challenge: some features are well correlated with labels in train data but not in test data due to a covariate shift between train and test. (2) the local spurious features challenge: some features correlate well with labels within a task but not within the whole task sequence. The challenge is to learn general features that are neither spurious (in general) nor locally spurious. We prove that the latter is a major cause of performance decrease in continual learning along with catastrophic forgetting. Our results indicate that the best solution to overcome the feature selection problems varies depending on the correlation between spurious features (SFs) and labels. The vanilla replay approach seems to be a powerful approach to deal with SFs, which could explain its good performance in the continual learning literature. This paper presents a different way of understanding performance decrease in continual learning by describing the influence of spurious/local spurious features.
翻訳日:2022-03-04 00:59:57 公開日:2022-03-02
# (参考訳) Maxpoolingの理論的表現性

The Theoretical Expressiveness of Maxpooling ( http://arxiv.org/abs/2203.01016v1 )

ライセンス: CC BY 4.0
Kyle Matoba and Nikolaos Dimitriadis and Fran\c{c}ois Fleuret(参考訳) 深層ニューラルネットワークがアート画像分類器の最先端になってから10年が経ち、画像中の近くのピクセルの最大値を取る関数である最大プールの使用を減らす傾向があった。 画像分類器の初期世代では,最大プーリングが顕著であったため,この傾向と正当性について理解したい。 本研究では,ReLUに基づく最大プール化の近似を解析し,最大プール化をReLUアクティベーションを用いて効率的に再現できないことを示す理論的枠組みを開発した。 最適な近似のクラスの誤差を分析し、その誤差はカーネルサイズで指数関数的に小さくできるが、指数関数的に複雑な近似を必要とする。 我々の研究は、新しいアーキテクチャにおける最大プールからこの傾向を理解するための理論的基礎を与える。 最大プーリングと最適近似の差の主な原因は、プール内のmax値と他の値との一般的な大きな差であり、他のアーキテクチャ上の決定で克服できるか、あるいは自然画像では一般的ではないと結論づける。

Over the decade since deep neural networks became state of the art image classifiers there has been a tendency towards less use of max pooling: the function that takes the largest of nearby pixels in an image. Since max pooling featured prominently in earlier generations of image classifiers, we wish to understand this trend, and whether it is justified. We develop a theoretical framework analyzing ReLU based approximations to max pooling, and prove a sense in which max pooling cannot be efficiently replicated using ReLU activations. We analyze the error of a class of optimal approximations, and find that whilst the error can be made exponentially small in the kernel size, doing so requires an exponentially complex approximation. Our work gives a theoretical basis for understanding the trend away from max pooling in newer architectures. We conclude that the main cause of a difference between max pooling and an optimal approximation, a prevalent large difference between the max and other values within pools, can be overcome with other architectural decisions, or is not prevalent in natural images.
翻訳日:2022-03-04 00:44:02 公開日:2022-03-02
# (参考訳) TableFormer: トランスフォーマーによるテーブル構造理解 [全文訳有]

TableFormer: Table Structure Understanding with Transformers ( http://arxiv.org/abs/2203.01017v1 )

ライセンス: CC BY 4.0
Ahmed Nassar, Nikolaos Livathinos, Maksym Lysak, Peter Staar(参考訳) テーブルは簡潔でコンパクトな表現で貴重なコンテンツを整理する。 この内容は, 検索エンジンや知識グラフなどのシステムにおいて, 予測能力を高めるために非常に有用である。 残念ながら、テーブルには様々な形とサイズがあります。 さらに、複雑なカラム/ローヘッダの設定、複数行の行、さまざまな種類の分離ライン、エントリの欠如などを持つことができる。 したがって、画像からテーブル構造を正しく識別することは、非自明な作業である。 本稿では,新しい表構造同定モデルを提案する。 後者は、最新のエンドツーエンドディープラーニングモデル(PubTabNetの encoder-dual-decoder )を2つの重要な方法で改善する。 まず,テーブルセルのための新しいオブジェクト検出デコーダを提案する。 このようにして、プログラムによるPDFからテーブルセルの内容をPDFソースから直接取得し、カスタムOCRデコーダのトレーニングを避けることができる。 このアーキテクチャ変更により、より正確なテーブルコンテント抽出が可能になり、非英語のテーブルに取り組めます。 次に、LSTMデコーダを変換器ベースのデコーダに置き換える。 このアップグレードは、以前の最先端ツリー編集距離スコア(teds)を単純なテーブルでは91%から98.5%に、複雑なテーブルでは88.7%から95%に大幅に改善した。

Tables organize valuable content in a concise and compact representation. This content is extremely valuable for systems such as search engines, Knowledge Graph's, etc, since they enhance their predictive capabilities. Unfortunately, tables come in a large variety of shapes and sizes. Furthermore, they can have complex column/row-header configurations, multiline rows, different variety of separation lines, missing entries, etc. As such, the correct identification of the table-structure from an image is a non-trivial task. In this paper, we present a new table-structure identification model. The latter improves the latest end-to-end deep learning model (i.e. encoder-dual-decoder from PubTabNet) in two significant ways. First, we introduce a new object detection decoder for table-cells. In this way, we can obtain the content of the table-cells from programmatic PDF's directly from the PDF source and avoid the training of the custom OCR decoders. This architectural change leads to more accurate table-content extraction and allows us to tackle non-english tables. Second, we replace the LSTM decoders with transformer based decoders. This upgrade improves significantly the previous state-of-the-art tree-editing-distanc e-score (TEDS) from 91% to 98.5% on simple tables and from 88.7% to 95% on complex tables.
翻訳日:2022-03-04 00:42:32 公開日:2022-03-02
# (参考訳) 生成的対立ネットワークにおける非現実的補間に対する差別 [全文訳有]

Discriminating Against Unrealistic Interpolations in Generative Adversarial Networks ( http://arxiv.org/abs/2203.01035v1 )

ライセンス: CC BY 4.0
Henning Petzka, Ted Kronvall, Cristian Sminchisescu(参考訳) 深層生成モデルの潜在空間における補間は、生成したサンプルの意味的に意味のある混合物を合成する標準的なツールの1つである。 生成関数は非線形であるため、潜在空間において一般的に用いられる線形補間はサンプル空間の最も短い経路を生じず、非スムース補間となる。 したがって、最近の研究は、生成されたサンプルの多様体上での最短経路を強制する適切な計量を持つ潜時空間を備えている。 しかし、これらはしばしば実サンプルの多様体から遠ざかる可能性があり、経路に沿ってサンプルの品質を評価する追加の方法を必要とする滑らかだが非現実的な生成をもたらす。 Generative Adversarial Networks (GANs) は、構築により、その識別器ネットワークを用いてサンプル品質を測定する。 本稿では,最短経路に沿った低試料品質の領域を避けるために,判別器を効果的に使用できることを示す。 判別器ネットワークを再利用して潜在空間の計量を変化させることで、事前学習されたGANの補間を改善するための軽量な解法を提案する。

Interpolations in the latent space of deep generative models is one of the standard tools to synthesize semantically meaningful mixtures of generated samples. As the generator function is non-linear, commonly used linear interpolations in the latent space do not yield the shortest paths in the sample space, resulting in non-smooth interpolations. Recent work has therefore equipped the latent space with a suitable metric to enforce shortest paths on the manifold of generated samples. These are often, however, susceptible of veering away from the manifold of real samples, resulting in smooth but unrealistic generation that requires an additional method to assess the sample quality along paths. Generative Adversarial Networks (GANs), by construction, measure the sample quality using its discriminator network. In this paper, we establish that the discriminator can be used effectively to avoid regions of low sample quality along shortest paths. By reusing the discriminator network to modify the metric on the latent space, we propose a lightweight solution for improved interpolations in pre-trained GANs.
翻訳日:2022-03-04 00:27:18 公開日:2022-03-02
# (参考訳) SelfKG:知識グラフにおける自己監督型エンティティアライメント [全文訳有]

SelfKG: Self-Supervised Entity Alignment in Knowledge Graphs ( http://arxiv.org/abs/2203.01044v1 )

ライセンス: CC BY 4.0
Xiao Liu, Haoyun Hong, Xinghao Wang, Zeyi Chen, Evgeny Kharlamov, Yuxiao Dong, Jie Tang(参考訳) 異なる知識グラフ(kgs)にまたがる等価なエンティティを識別することを目的としたエンティティアライメントは、webスケールのkgsを構築する上で基本的な問題である。 開発期間中、ラベルの監督は正確なアライメントのために必要とされている。 自己監督学習の最近の進歩にインスパイアされた私たちは、エンティティアライメントの監督を取り除ける範囲を探求する。 一般に、ラベル情報(正のエンティティペア)は、各正のペア内の整列したエンティティを近接させるプロセスを監督するために使用される。 しかし、我々の理論的分析から、エンティティアライメントの学習は、ラベル付き負のペアを互いに遠ざけることよりも、ラベル付き負のペアを遠ざけることの方が有益であることが示唆された。 この発見を活用することで,エンティティアライメントのための自己教師型学習目標を開発する。 我々は、ラベル管理なしでエンティティを調整するためのこの目的を最適化するための効率的な戦略をSelfKGに提示する。 ベンチマークデータセットに関する広範囲な実験により、監視のないselfkgは、最先端の教師付きベースラインと同等の結果をマッチングまたは達成できることが示されている。 SelfKGのパフォーマンスは、自己教師型学習がKGにおけるエンティティアライメントに大きな可能性をもたらすことを示唆している。 コードとデータはhttps://github.com/t hudm/selfkgで入手できる。

Entity alignment, aiming to identify equivalent entities across different knowledge graphs (KGs), is a fundamental problem for constructing Web-scale KGs. Over the course of its development, the label supervision has been considered necessary for accurate alignments. Inspired by the recent progress of self-supervised learning, we explore the extent to which we can get rid of supervision for entity alignment. Commonly, the label information (positive entity pairs) is used to supervise the process of pulling the aligned entities in each positive pair closer. However, our theoretical analysis suggests that the learning of entity alignment can actually benefit more from pushing unlabeled negative pairs far away from each other than pulling labeled positive pairs close. By leveraging this discovery, we develop the self-supervised learning objective for entity alignment. We present SelfKG with efficient strategies to optimize this objective for aligning entities without label supervision. Extensive experiments on benchmark datasets demonstrate that SelfKG without supervision can match or achieve comparable results with state-of-the-art supervised baselines. The performance of SelfKG suggests that self-supervised learning offers great potential for entity alignment in KGs. The code and data are available at https://github.com/T HUDM/SelfKG.
翻訳日:2022-03-04 00:08:48 公開日:2022-03-02
# (参考訳) アスペクトベース感情分析に関する調査研究 : 課題,方法,課題 [全文訳有]

A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges ( http://arxiv.org/abs/2203.01054v1 )

ライセンス: CC BY 4.0
Wenxuan Zhang, Xin Li, Yang Deng, Lidong Bing, Wai Lam(参考訳) 重要なきめ細かな感情分析問題として、アスペクトレベルで人々の意見を分析し理解することを目的としたアスペクトベース感情分析(absa)が、この10年でかなりの関心を集めている。 異なるシナリオでabsaを扱うために、アスペクト項、アスペクトカテゴリ、意見項、感情極性など、さまざまな感情要素とその関係を分析する様々なタスクが導入されている。 初期のABSAの作業は単一の感情要素に焦点を当てていたが、複数の要素を含む複雑なABSAタスクの多くは、より完全なアスペクトレベルの感情情報を取得するために近年研究されている。 しかし, 各種ABSAタスクとその対応ソリューションの体系的レビューはいまだ不十分であり, 本調査を補完することを目指している。 より具体的には、関連する感情要素の軸から既存の研究を組織するABSAの新しい分類法を提供し、最近の複合ABSAタスクの進歩に重点を置いている。 ソリューションの観点からは、ABSAの性能を新たな段階へと改善したABSAのための事前学習言語モデルの利用を要約する。 さらに、クロスドメイン/言語シナリオにおけるより実用的なABSAシステム構築手法についても論じる。 最後に,今後のABSAの方向性を展望する上で,今後の課題について検討する。

As an important fine-grained sentiment analysis problem, aspect-based sentiment analysis (ABSA), aiming to analyze and understand people's opinions at the aspect level, has been attracting considerable interest in the last decade. To handle ABSA in different scenarios, various tasks have been introduced for analyzing different sentiment elements and their relations, including the aspect term, aspect category, opinion term, and sentiment polarity. Unlike early ABSA works focusing on a single sentiment element, many compound ABSA tasks involving multiple elements have been studied in recent years for capturing more complete aspect-level sentiment information. However, a systematic review of various ABSA tasks and their corresponding solutions is still lacking, which we aim to fill in this survey. More specifically, we provide a new taxonomy for ABSA which organizes existing studies from the axes of concerned sentiment elements, with an emphasis on recent advances of compound ABSA tasks. From the perspective of solutions, we summarize the utilization of pre-trained language models for ABSA, which improved the performance of ABSA to a new stage. Besides, techniques for building more practical ABSA systems in cross-domain/lingual scenarios are discussed. Finally, we review some emerging topics and discuss some open challenges to outlook potential future directions of ABSA.
翻訳日:2022-03-03 23:02:17 公開日:2022-03-02
# (参考訳) 不連続構成とbert--オランダを事例として [全文訳有]

Discontinuous Constituency and BERT: A Case Study of Dutch ( http://arxiv.org/abs/2203.01063v1 )

ライセンス: CC BY 4.0
Konstantinos Kogkalidis and Gijs Winholds(参考訳) 本稿では,オランダ語で発生する非文脈自由パターンの評価体系におけるbertの構文能力の定量化に着手した。 我々は、動詞のネスティングや動詞の隆起を制御する言語現象を捉えた文法を導出する、軽度に文脈に敏感な形式に基づくテストスイートを考案する。 小さな語彙と組み合わせた文法は、動詞と目的語の組み合わせに注釈を付けた多くの自然主義的発話の集合を提供し、注意に基づくスパン選択プローブの評価試験ベッドとして機能する。 広範な分析によって裏付けられた結果から,調査対象のモデルでは,検査対象の暗黙的な獲得に失敗していることが示唆された。

In this paper, we set out to quantify the syntactic capacity of BERT in the evaluation regime of non-context free patterns, as occurring in Dutch. We devise a test suite based on a mildly context-sensitive formalism, from which we derive grammars that capture the linguistic phenomena of control verb nesting and verb raising. The grammars, paired with a small lexicon, provide us with a large collection of naturalistic utterances, annotated with verb-subject pairings, that serve as the evaluation test bed for an attention-based span selection probe. Our results, backed by extensive analysis, suggest that the models investigated fail in the implicit acquisition of the dependencies examined.
翻訳日:2022-03-03 22:08:16 公開日:2022-03-02
# (参考訳) 強化学習ベンチマークの信頼性検証 [全文訳有]

Reliable validation of Reinforcement Learning Benchmarks ( http://arxiv.org/abs/2203.01075v1 )

ライセンス: CC BY-SA 4.0
Matthias M\"uller-Brockhausen, Aske Plaat, Mike Preuss(参考訳) 強化学習(rl)はゲームaiとai全般における最もダイナミックな研究分野の1つであり、その顕著なテスト問題として多種多様なゲームが使われている。 しかし、現在のアルゴリズムAI研究に影響を及ぼす複製可能性の危機にさらされている。 強化学習におけるベンチマークは検証可能な結果によって改善される可能性がある。 atariなど、さまざまなアルゴリズムを比較するためにスコアを使用するベンチマーク環境は数多く存在する。 それでもレビュアーは、正確なトレーニング曲線を再現することは困難であるため、数字が真理値を表すと信じなければならない。 実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。 そのため、最小限のトレースの概念に依存しています。 これらは決定論的RL環境におけるアクションシーケンスの再シミュレーションを可能にし、その結果、大規模な計算クラスタを必要とせずに、レビューアが実験結果の検証、再利用、手動による検査を可能にする。 また、提示された報酬グラフの検証、個々のエピソードの検査、結果データ(ベースライン)の再使用をフォローアップ論文で適切に比較することができる。 我々は,既存のRLと再現性エコシステムに適合するように,Gymで動作するプラグアンドプレイコードを提供する。 最小限のトレースでは、オフラインのRLデータセットで使用される通常のMDPトレースと比較して、最大$\approx 10^4:1$ (94GBから8MB)のデータ圧縮比が可能です。 本稿では,様々なゲームに対する概念実証結果を提案する。

Reinforcement Learning (RL) is one of the most dynamic research areas in Game AI and AI as a whole, and a wide variety of games are used as its prominent test problems. However, it is subject to the replicability crisis that currently affects most algorithmic AI research. Benchmarking in Reinforcement Learning could be improved through verifiable results. There are numerous benchmark environments whose scores are used to compare different algorithms, such as Atari. Nevertheless, reviewers must trust that figures represent truthful values, as it is difficult to reproduce an exact training curve. We propose improving this situation by providing access to the original experimental data to validate study results. To that end, we rely on the concept of minimal traces. These allow re-simulation of action sequences in deterministic RL environments and, in turn, enable reviewers to verify, re-use, and manually inspect experimental results without needing large compute clusters. It also permits validation of presented reward graphs, an inspection of individual episodes, and re-use of result data (baselines) for proper comparison in follow-up papers. We offer plug-and-play code that works with Gym so that our measures fit well in the existing RL and reproducibility eco-system. Our approach is freely available, easy to use, and adds minimal overhead, as minimal traces allow a data compression ratio of up to $\approx 10^4:1$ (94GB to 8MB for Atari Pong) compared to a regular MDP trace used in offline RL datasets. The paper presents proof-of-concept results for a variety of games.
翻訳日:2022-03-03 21:55:42 公開日:2022-03-02
# (参考訳) cancellable templateの一般化とminutia cylinder-codeの実現 [全文訳有]

A Generalized Approach for Cancellable Template and Its Realization for Minutia Cylinder-Code ( http://arxiv.org/abs/2203.01095v1 )

ライセンス: CC BY 4.0
Xingbo Dong, Zhe Jin and KokSheik Wong(参考訳) ハッシュ技術は最近、生体認証テンプレートを保護することに多くの注目を集めている。 例えば、最近報告されたハッシュ技術であるindex-of-max(iom)は、ランキングベースの局所性センシティブハッシュ技術であり、順序付きおよび固定長のバイオメトリックテンプレートを保護するための可能性を示している。 しかし、バイオメトリックテンプレートは必ずしも順序と固定長の形式ではなく、従来のハッシュ技術の使用を制限する指紋ミツイアのような、順序のない可変サイズの点集合であるかもしれない。 本稿では,iamハッシュの一般化版であるgiomを提案し,非順序および可変サイズのバイオメトリックテンプレートを利用可能とした。 本研究では,有名な可変サイズ特徴ベクトルであるフィンガーフィンガー・ミネシアシリンダコード(mcc)を用いて実現する。 gIoMは、MCCをインデックスドメインに変換し、インデックスベースの特徴表現を形成する。 したがって、変換表現からのmccの反転は計算不可能であり、性能を維持しながら非可逆性を達成することができる。 公衆指紋データベースFVC2002とFVC2004は、他の手法と公正に比較するためのベンチマークとして用いられる。 さらに、セキュリティとプライバシ分析は、gIoMがテンプレート保護の基準を満たすことを示唆している。

Hashing technology gains much attention in protecting the biometric template lately. For instance, Index-of-Max (IoM), a recent reported hashing technique, is a ranking-based locality sensitive hashing technique, which illustrates the feasibility to protect the ordered and fixed-length biometric template. However, biometric templates are not always in the form of ordered and fixed-length, rather it may be an unordered and variable size point set e.g. fingerprint minutiae, which restricts the usage of the traditional hashing technology. In this paper, we proposed a generalized version of IoM hashing namely gIoM, and therefore the unordered and variable size biometric template can be used. We demonstrate a realization using a well-known variable size feature vector, fingerprint Minutia Cylinder-Code (MCC). The gIoM transforms MCC into index domain to form indexing-based feature representation. Consequently, the inversion of MCC from the transformed representation is computational infeasible, thus to achieve non-invertibility while the performance is preserved. Public fingerprint databases FVC2002 and FVC2004 are employed for experiment as benchmark to demonstrate a fair comparison with other methods. Moreover, the security and privacy analysis suggest that gIoM meets the criteria of template protection: non-invertibility, revocability, and non-linkability.
翻訳日:2022-03-03 21:33:04 公開日:2022-03-02
# (参考訳) 複合統計的テストを用いたモデル非依存分布検出 [全文訳有]

Model-agnostic out-of-distribution detection using combined statistical tests ( http://arxiv.org/abs/2203.01097v1 )

ライセンス: CC BY 4.0
Federico Bergamin, Pierre-Alexandre Mattei, Jakob D. Havtorn, Hugo Senetaire, Hugo Schmutz, Lars Maal{\o}e, S{\o}ren Hauberg, Jes Frellsen(参考訳) 本稿では,学習された生成モデルを用いた分布外検出法を提案する。 これらの手法は古典的な統計テストに基づいており、任意の微分可能生成モデルに適用できるという意味ではモデルに依存しない。 この考え方は古典的パラメトリックテスト(ラオのスコアテスト)と最近導入された定性テストを組み合わせることである。 これら2つのテスト統計は理論的によく確立されており、典型性テストの確率とスコアテストの勾配に基づいて異なる情報源を活用している。 Fisherの手法を総合的に組み合わせることで、より正確なアウト・オブ・ディストリビューションテストが実現できることを示す。 また, 統計的検査問題として, 配当検出をキャストすることの利点についても論じ, 特に, 配当検出に偽陽性率制御が有用であることに留意する。 単純さと汎用性にもかかわらず、これらの手法は、分散を前提にせずに、モデル固有の分散外検出アルゴリズムと競合することができる。

We present simple methods for out-of-distribution detection using a trained generative model. These techniques, based on classical statistical tests, are model-agnostic in the sense that they can be applied to any differentiable generative model. The idea is to combine a classical parametric test (Rao's score test) with the recently introduced typicality test. These two test statistics are both theoretically well-founded and exploit different sources of information based on the likelihood for the typicality test and its gradient for the score test. We show that combining them using Fisher's method overall leads to a more accurate out-of-distribution test. We also discuss the benefits of casting out-of-distribution detection as a statistical testing problem, noting in particular that false positive rate control can be valuable for practical out-of-distribution detection. Despite their simplicity and generality, these methods can be competitive with model-specific out-of-distribution detection algorithms without any assumptions on the out-distribution.
翻訳日:2022-03-03 21:17:34 公開日:2022-03-02
# (参考訳) HPCシステムにおけるデータ駆動型AIモデルのハイパーパラメータ最適化 [全文訳有]

Hyperparameter optimization of data-driven AI models on HPC systems ( http://arxiv.org/abs/2203.01112v1 )

ライセンス: CC BY 4.0
Eric Wulff and Maria Girone and Joosep Pata(参考訳) The European Center of Excellence in Exascale Computing "Research on AIand Simulation-based Engineering at Exascale" (CoE RAISE)では、研究者がExascaleに向けた新しいスケーラブルなAI技術を開発した。 本研究は、複数の計算ノード上で分散トレーニングを用いた大規模ハイパーパラメータ最適化を実現するために、高性能コンピューティングリソースを運用する。 これは、プロジェクト内で開発されたAIとHPCのクロスメソッドを活用する、データ駆動型ユースケースに関するRAISEの取り組みの一部である。 並列化可能かつ資源効率のよいハイパーパラメータ最適化手法の需要に応じて、高度なハイパーパラメータ探索アルゴリズムをベンチマークし比較する。 Random Search、Hyperband、ASHAなどの評価アルゴリズムは、使用する計算リソースあたりの精度と精度の両方でテストされ比較される。 例えば、高エネルギー物理学における機械学習粒子流再構成のタスクのために開発されたmlpfと呼ばれるグラフニューラルネットワークモデルは、最適化のベースモデルとして機能する。 その結果,超パラメータ最適化によりMPPFの性能が大幅に向上し,大規模高性能コンピューティングリソースがなければ実現不可能であった。 また, MLPFの場合, ASHAアルゴリズムとベイジアン最適化を組み合わせることで, 計算資源当たりの処理性能が最大になることを示した。

In the European Center of Excellence in Exascale computing "Research on AI- and Simulation-Based Engineering at Exascale" (CoE RAISE), researchers develop novel, scalable AI technologies towards Exascale. This work exercises High Performance Computing resources to perform large-scale hyperparameter optimization using distributed training on multiple compute nodes. This is part of RAISE's work on data-driven use cases which leverages AI- and HPC cross-methods developed within the project. In response to the demand for parallelizable and resource efficient hyperparameter optimization methods, advanced hyperparameter search algorithms are benchmarked and compared. The evaluated algorithms, including Random Search, Hyperband and ASHA, are tested and compared in terms of both accuracy and accuracy per compute resources spent. As an example use case, a graph neural network model known as MLPF, developed for the task of Machine-Learned Particle-Flow reconstruction in High Energy Physics, acts as the base model for optimization. Results show that hyperparameter optimization significantly increased the performance of MLPF and that this would not have been possible without access to large-scale High Performance Computing resources. It is also shown that, in the case of MLPF, the ASHA algorithm in combination with Bayesian optimization gives the largest performance increase per compute resources spent out of the investigated algorithms.
翻訳日:2022-03-03 20:44:50 公開日:2022-03-02
# (参考訳) IoTデータストリームにおけるパターン認識とイベント検出 [全文訳有]

Pattern Recognition and Event Detection on IoT Data-streams ( http://arxiv.org/abs/2203.01114v1 )

ライセンス: CC BY 4.0
Christos Karras, Aristeidis Karras and Spyros Sioutas(参考訳) ビッグデータストリームはおそらく最も基本的な概念の1つである。 しかし、データストリームは、その急速なペースと情報ライフタイムの制限のため、処理が難しいことが多い。 ストリーム全体あるいはその大きな部分にわたって関数を格納、送信、計算しながら、ストリームサンプルを収集、通信することは困難である。 この研究に答えて、多くのストリーミング特化ソリューションが開発された。 ストリーム技術は、計算能力やメモリなどの1つ以上のリソースの容量と、時間や精度の制限が制限されることを意味する。 貯留層サンプリングアルゴリズムは確率的に重要な結果を選択し保存する。 固有事象を検出するための一般化サンプリングアルゴリズムフレームワークを用いた重み付きランダムサンプリングアプローチは、この研究の重要な研究目標である。 簡単に言うと、すべての実現可能なコンポーネントにわたるジョイントストリーム分布の段階的な推定によって、フルストリームに代表されるkストリーム要素が決定される。 推定信頼度が高いと、kサンプルが均等に選択される。 複雑性は o(min(k,n-k)) であり、n は検査される項目の数である。 イベントは通常、外れ値と見なされるため、要素パターンを抽出して、ここで提案したk-meansの代替バージョンにプッシュするのに十分である。 提案手法は,各クラスタの2乗誤差の和(sse)を計算し,収束の尺度としてだけでなく,要素分布の近似精度の定量化や間接的評価にも利用される。 このクラスタリングにより、通常のイベントセンタロイドからの距離に基づいてストリーム内の異常値の検出が可能になる。 重み付きサンプリングとres-meansはストリームイベント識別の典型的なアプローチを上回っている。 検出されたイベントは、典型的なイベントのクラスタとともに、知識グラフとして表示される。

Big data streams are possibly one of the most essential underlying notions. However, data streams are often challenging to handle owing to their rapid pace and limited information lifetime. It is difficult to collect and communicate stream samples while storing, transmitting and computing a function across the whole stream or even a large segment of it. In answer to this research issue, many streaming-specific solutions were developed. Stream techniques imply a limited capacity of one or more resources such as computing power and memory, as well as time or accuracy limits. Reservoir sampling algorithms choose and store results that are probabilistically significant. A weighted random sampling approach using a generalised sampling algorithmic framework to detect unique events is the key research goal of this work. Briefly, a gradually developed estimate of the joint stream distribution across all feasible components keeps k stream elements judged representative for the full stream. Once estimate confidence is high, k samples are chosen evenly. The complexity is O(min(k,n-k)), where n is the number of items inspected. Due to the fact that events are usually considered outliers, it is sufficient to extract element patterns and push them to an alternate version of k-means as proposed here. The suggested technique calculates the sum of squared errors (SSE) for each cluster, and this is utilised not only as a measure of convergence, but also as a quantification and an indirect assessment of the element distribution's approximation accuracy. This clustering enables for the detection of outliers in the stream based on their distance from the usual event centroids. The findings reveal that weighted sampling and res-means outperform typical approaches for stream event identification. Detected events are shown as knowledge graphs, along with typical clusters of events.
翻訳日:2022-03-03 20:37:25 公開日:2022-03-02
# (参考訳) 画像符号化のためのハイブリッドモデルベース/データ駆動グラフ変換 [全文訳有]

Hybrid Model-based / Data-driven Graph Transform for Image Coding ( http://arxiv.org/abs/2203.01186v1 )

ライセンス: CC BY 4.0
Saghar Bagheri, Tam Thuc Do, Gene Cheung, Antonio Ortega(参考訳) 信号表現をスパシフィケートするトランスフォーメーションコーディングは、画像圧縮パイプラインにおいて依然として不可欠である。 経験的共分散行列 $\bar{C}$ から計算した Karhunen-Lo\`{e}ve 変換 (KLT) は定常過程に理論的に最適であるが、実際には非定常像から十分な統計データを収集して$\bar{C}$ を確実に推定することは困難である。 本稿では、予測内残差ブロックを符号化するために、変換行列の最初の$K$固有ベクトルは安定性のために非対称離散正弦変換(ADST)から導出され、残りの$N-K$は性能のために$\bar{C}$から計算されるハイブリッドモデルベース/データ駆動アプローチを追求する。 変換計算はグラフ学習問題として提案され、実対称行列のヒルベルト空間において最初の$k$固有ベクトルを共有する凸錐の内部でグラフィカルラッソ対象を最小化するグラフラプラシアン行列を求める。 拡張ラグランジュ緩和と近位勾配(PG)を用いて効率よく問題を解く。 webp をベースラインイメージコーデックとして使用した結果,本手法のハイブリッドグラフ変換はデフォルト離散コサイン変換 (dct) よりもエネルギー圧縮性が向上し,klt よりも安定性が向上した。

Transform coding to sparsify signal representations remains crucial in an image compression pipeline. While the Karhunen-Lo\`{e}ve transform (KLT) computed from an empirical covariance matrix $\bar{C}$ is theoretically optimal for a stationary process, in practice, collecting sufficient statistics from a non-stationary image to reliably estimate $\bar{C}$ can be difficult. In this paper, to encode an intra-prediction residual block, we pursue a hybrid model-based / data-driven approach: the first $K$ eigenvectors of a transform matrix are derived from a statistical model, e.g., the asymmetric discrete sine transform (ADST), for stability, while the remaining $N-K$ are computed from $\bar{C}$ for performance. The transform computation is posed as a graph learning problem, where we seek a graph Laplacian matrix minimizing a graphical lasso objective inside a convex cone sharing the first $K$ eigenvectors in a Hilbert space of real symmetric matrices. We efficiently solve the problem via augmented Lagrangian relaxation and proximal gradient (PG). Using WebP as a baseline image codec, experimental results show that our hybrid graph transform achieved better energy compaction than default discrete cosine transform (DCT) and better stability than KLT.
翻訳日:2022-03-03 20:11:48 公開日:2022-03-02
# (参考訳) 道路網におけるGNNの視覚的特徴符号化 [全文訳有]

Visual Feature Encoding for GNNs on Road Networks ( http://arxiv.org/abs/2203.01187v1 )

ライセンス: CC BY 4.0
Oliver Stromann, Alireza Razavi and Michael Felsberg(参考訳) 本稿では,道路網データに適用したグラフニューラルネットワークに視覚特徴のエンコードを学ぶための新しい手法を提案する。 本稿では,最先端のビジョンバックボーンネットワークとグラフニューラルネットワークを組み合わせたアーキテクチャを提案する。 より具体的には、様々なResNetアーキテクチャを用いて衛星画像の符号化により、オープンストリートマップ道路網上で道路型分類タスクを実行する。 リモートセンシングのためのNWPU-RESISC45画像分類データセットを事前学習し、それをImageNet-pretrained ResNetモデルと比較して視覚特徴エンコーダとして評価することにより、さらに微調整が可能となる。 その結果、視覚特徴エンコーダは低レベルの視覚的特徴よりも優れているだけでなく、NWPU-RESISC45のような一般的なリモートセンシングデータセットに対する視覚特徴エンコーダの微調整により、道路型分類のような機械学習タスクにおけるGNNの性能をさらに向上させることができることがわかった。

In this work, we present a novel approach to learning an encoding of visual features into graph neural networks with the application on road network data. We propose an architecture that combines state-of-the-art vision backbone networks with graph neural networks. More specifically, we perform a road type classification task on an Open Street Map road network through encoding of satellite imagery using various ResNet architectures. Our architecture further enables fine-tuning and a transfer-learning approach is evaluated by pretraining on the NWPU-RESISC45 image classification dataset for remote sensing and comparing them to purely ImageNet-pretrained ResNet models as visual feature encoders. The results show not only that the visual feature encoders are superior to low-level visual features, but also that the fine-tuning of the visual feature encoder to a general remote sensing dataset such as NWPU-RESISC45 can further improve the performance of a GNN on a machine learning task like road type classification.
翻訳日:2022-03-03 19:59:56 公開日:2022-03-02
# (参考訳) 安全ロボットナビゲーションのためのモデルフリーニューラルリアプノフ制御 [全文訳有]

Model-free Neural Lyapunov Control for Safe Robot Navigation ( http://arxiv.org/abs/2203.01190v1 )

ライセンス: CC BY 4.0
Zikang Xiong, Joe Eappen, Ahmed H. Qureshi, and Suresh Jagannathan(参考訳) モデルフリーのDeep Reinforcement Learning(DRL)コントローラは、様々な困難な非線形制御タスクに対して有望な結果を示した。 モデルフリーのDRLアルゴリズムは未知のダイナミクスや高次元の問題を解くことができるが、安全性の保証は欠如している。 安全制約は報酬関数の一部としてエンコードできるが、この修正された報酬で訓練されたrlコントローラとセーフコントローラの間には大きなギャップがある。 対照的に、報酬を伴う安全性制約を暗黙的に符号化する代わりに、DRLトレーニングループの制御ポリシーとTNLF(Twin Neural Lyapunov Function)を明示的に学習し、学習したTNLFを使用してランタイムモニターを構築する。 モニタは、プランナーから生成された経路と組み合わせて、学習したコントローラに衝突のない制御軌跡を提供するための適切な経路を選択する。 本手法は,安全保証の強化を図りながらDRLからスケーラビリティの利点を継承する。 提案手法の有効性を,高次元ナビゲーションタスクにおけるDRL法と制限付きDRL法との比較により検証した。

Model-free Deep Reinforcement Learning (DRL) controllers have demonstrated promising results on various challenging non-linear control tasks. While a model-free DRL algorithm can solve unknown dynamics and high-dimensional problems, it lacks safety assurance. Although safety constraints can be encoded as part of a reward function, there still exists a large gap between an RL controller trained with this modified reward and a safe controller. In contrast, instead of implicitly encoding safety constraints with rewards, we explicitly co-learn a Twin Neural Lyapunov Function (TNLF) with the control policy in the DRL training loop and use the learned TNLF to build a runtime monitor. Combined with the path generated from a planner, the monitor chooses appropriate waypoints that guide the learned controller to provide collision-free control trajectories. Our approach inherits the scalability advantages from DRL while enhancing safety guarantees. Our experimental evaluation demonstrates the effectiveness of our approach compared to DRL with augmented rewards and constrained DRL methods over a range of high-dimensional safety-sensitive navigation tasks.
翻訳日:2022-03-03 19:47:31 公開日:2022-03-02
# (参考訳) ビット制約チャネル上の線形確率帯域

Linear Stochastic Bandits over a Bit-Constrained Channel ( http://arxiv.org/abs/2203.01198v1 )

ライセンス: CC BY 4.0
Aritra Mitra, Hamed Hassani and George J. Pappas(参考訳) 大規模分散学習の主な課題の1つは、厳密なコミュニケーション制約にある。 最近のいくつかの研究は静的最適化問題に対するこの問題に対処しているが、不確実性の下でのシーケンシャルな意思決定は、この点に関してあまり検討されていない。 このギャップに動機づけられ,ビット制約されたチャネル上での新しい線形確率バンディット定式化を導入する。 具体的には,環境と対話するエージェントが未知のモデルパラメータの符号化された推定値を,有限容量の通信チャネル上のサーバに送信する。 サーバの目標は、これらの見積もりに基づいてアクションを取り、累積的な後悔を最小限に抑えることです。 この目的のために,2つの主成分に係わる新しい汎用アルゴリズムフレームワークを開発した。 (i)統計濃度境界を利用する適応符号化機構、 (二 誤りのエンコーディングを理由とする信頼度に基づく意思決定原則。) 主な結果として、未知のモデルが$d$-dimensionalである場合、チャネル容量は$O(d)$ bits で、順序-最適後悔を達成するのに十分であることを示す。 提案手法の一般性を示すため, 標準正則性条件を満たす非線形観測モデルに対して, 同じ結果が引き続き成り立つことを示す。 最後に、より単純な非構造的マルチアームバンディット問題に対して、最適な後悔境界を達成するのに1ドルのビットチャネル容量が十分であることを示す。 全体として、我々の研究は、有限容量チャネルに対する統計的意思決定の道を開くための重要な第一歩を踏み出した。

One of the primary challenges in large-scale distributed learning stems from stringent communication constraints. While several recent works address this challenge for static optimization problems, sequential decision-making under uncertainty has remained much less explored in this regard. Motivated by this gap, we introduce a new linear stochastic bandit formulation over a bit-constrained channel. Specifically, in our setup, an agent interacting with an environment transmits encoded estimates of an unknown model parameter to a server over a communication channel of finite capacity. The goal of the server is to take actions based on these estimates to minimize cumulative regret. To this end, we develop a novel and general algorithmic framework that hinges on two main components: (i) an adaptive encoding mechanism that exploits statistical concentration bounds, and (ii) a decision-making principle based on confidence sets that account for encoding errors. As our main result, we prove that when the unknown model is $d$-dimensional, a channel capacity of $O(d)$ bits suffices to achieve order-optimal regret. To demonstrate the generality of our approach, we then show that the same result continues to hold for non-linear observation models satisfying standard regularity conditions. Finally, we establish that for the simpler unstructured multi-armed bandit problem, $1$ bit channel-capacity is sufficient for achieving optimal regret bounds. Overall, our work takes a significant first step towards paving the way for statistical decision-making over finite-capacity channels.
翻訳日:2022-03-03 19:31:10 公開日:2022-03-02
# (参考訳) RGB-Dカメラによるコンテナの局所化と質量推定 [全文訳有]

Container Localisation and Mass Estimation with an RGB-D Camera ( http://arxiv.org/abs/2203.01207v1 )

ライセンス: CC BY 4.0
Tommaso Apicella, Giulia Slavic, Edoardo Ragusa, Paolo Gastaldo and Lucio Marcenaro(参考訳) 人間とロボットの相互作用の研究分野において、視覚情報のみを利用する人物が操作する容器の質量の自動推定は困難な課題である。 主な課題は、閉塞物、異なる充填材、照明条件である。 物体の質量は、ロボットが容器をつかむために必要な力を正しく制御するための重要な情報を構成する。 本稿では,操作済みのコンテナを1つのRGB-Dカメラで検出し,その空の質量,すなわちコンテンツの有無に関わらず推定する手法を提案する。 提案手法は,まず,固定前面からの距離に基づいて複数の候補容器を自動的に選択し,次に軽量モデルの質量予測を推定して最終推定を行う。 その結果,提案手法では,異なる照明条件や充填条件下で71.08%のスコアを得た空容器質量を推定できることがわかった。

In the research area of human-robot interactions, the automatic estimation of the mass of a container manipulated by a person leveraging only visual information is a challenging task. The main challenges consist of occlusions, different filling materials and lighting conditions. The mass of an object constitutes key information for the robot to correctly regulate the force required to grasp the container. We propose a single RGB-D camera-based method to locate a manipulated container and estimate its empty mass i.e., independently of the presence of the content. The method first automatically selects a number of candidate containers based on the distance with the fixed frontal view, then averages the mass predictions of a lightweight model to provide the final estimation. Results on the CORSMAL Containers Manipulation dataset show that the proposed method estimates empty container mass obtaining a score of 71.08% under different lighting or filling conditions.
翻訳日:2022-03-03 19:29:57 公開日:2022-03-02
# (参考訳) ニューラルネットワークの滑らかさに対する定量的幾何学的アプローチ

A Quantitative Geometric Approach to Neural Network Smoothness ( http://arxiv.org/abs/2203.01212v1 )

ライセンス: CC BY 4.0
Zi Wang, Gautam Prakriya, Somesh Jha(参考訳) ニューラルネットワークの高速かつ正確なリプシッツ定数推定は、ディープラーニングの重要なタスクである。 研究者たちは最近、ニューラルネットワークの精度と滑らかさの間に固有のトレードオフがあることを発見し、緩いリプシッツ定数推定によるネットワークのトレーニングは、強い正規化を課し、モデルの精度を著しく損なう可能性がある。 本研究では,リプシッツ定数推定に対処するために,定量的幾何学的手法である統一的理論的枠組みを提案する。 この枠組みを採用することで、リプシッツ定数の計算硬度とその近似可能性を含むいくつかの理論結果が直ちに得られる。 さらに、量的幾何学的視点は、あるノルムのテクニックが通常別のノルムに転送されないという最近の経験的観察に関する洞察を与えることもできる。 また、この量的幾何学的アプローチから誘導されるアルゴリズムをGeoLIPツールに実装する。 これらのアルゴリズムは半定値プログラミング(SDP)に基づいている。 我々の経験的評価は、GeoLIPが$\ell_\infty$-pertur bationsのリプシッツ定数推定の既存のツールよりもスケーラブルで正確であることを示している。 さらに,理論上も経験的にも,近年のSDP技術との複雑な関係を示す。 この統一された定量的幾何学的視点は、ニューラルネットワークの滑らかさと堅牢性の研究に新たな洞察と理論ツールをもたらすと信じている。

Fast and precise Lipschitz constant estimation of neural networks is an important task for deep learning. Researchers have recently found an intrinsic trade-off between the accuracy and smoothness of neural networks, so training a network with a loose Lipschitz constant estimation imposes a strong regularization and can hurt the model accuracy significantly. In this work, we provide a unified theoretical framework, a quantitative geometric approach, to address the Lipschitz constant estimation. By adopting this framework, we can immediately obtain several theoretical results, including the computational hardness of Lipschitz constant estimation and its approximability. Furthermore, the quantitative geometric perspective can also provide some insights into recent empirical observations that techniques for one norm do not usually transfer to another one. We also implement the algorithms induced from this quantitative geometric approach in a tool GeoLIP. These algorithms are based on semidefinite programming (SDP). Our empirical evaluation demonstrates that GeoLIP is more scalable and precise than existing tools on Lipschitz constant estimation for $\ell_\infty$-pertur bations. Furthermore, we also show its intricate relations with other recent SDP-based techniques, both theoretically and empirically. We believe that this unified quantitative geometric perspective can bring new insights and theoretical tools to the investigation of neural-network smoothness and robustness.
翻訳日:2022-03-03 19:20:47 公開日:2022-03-02
# (参考訳) トルコのNLP「ムカイセ」が復活 [全文訳有]

Mukayese: Turkish NLP Strikes Back ( http://arxiv.org/abs/2203.01215v1 )

ライセンス: CC BY 4.0
Ali Safaya, Emirhan Kurtulu\c{s}, Arda G\"okto\u{g}an, Deniz Yuret(参考訳) 言語 x に十分なリソースを持つことは、リソース不足の言語クラスから解放されるが、必ずしもリソース不足のクラスからではない。 本稿では,トルコ語における組織的ベンチマークの欠如の問題に対処する。 我々は、トルコ語などの言語が、NLPアプリケーションの最先端に置き忘れられていることを実証する。 解決法として,複数のNLPタスクを含むトルコ語のNLPベンチマークセットであるMukayeseを紹介する。 私たちはベンチマーク毎に1つ以上のデータセットを作成し、2つ以上のベースラインを提供します。 さらに,トルコ語における言語モデリング,文分割,スペルチェックのための4つの新しいベンチマークデータセットを提案する。 すべてのデータセットとベースラインは以下の通りである。

Having sufficient resources for language X lifts it from the under-resourced languages class, but not necessarily from the under-researched class. In this paper, we address the problem of the absence of organized benchmarks in the Turkish language. We demonstrate that languages such as Turkish are left behind the state-of-the-art in NLP applications. As a solution, we present Mukayese, a set of NLP benchmarks for the Turkish language that contains several NLP tasks. We work on one or more datasets for each benchmark and present two or more baselines. Moreover, we present four new benchmarking datasets in Turkish for language modeling, sentence segmentation, and spell checking. All datasets and baselines are available under: https://github.com/a lisafaya/mukayese
翻訳日:2022-03-03 19:19:43 公開日:2022-03-02
# (参考訳) 共変量の欠如を伴う学習条件付き変分オートエンコーダ [全文訳有]

Learning Conditional Variational Autoencoders with Missing Covariates ( http://arxiv.org/abs/2203.01218v1 )

ライセンス: CC BY 4.0
Siddharth Ramchandran, Gleb Tikhonov, Otto L\"onnroth, Pekka Tiikkainen, Harri L\"ahdesm\"aki(参考訳) 条件変分オートエンコーダ(CVAE)は、補助共変量で生成モデルを条件付けすることで標準VAEフレームワークを拡張する汎用的な深部生成モデルである。 元のCVAEモデルは、データサンプルは独立であると仮定するが、より最近の条件付きVAEモデル(例えばガウス過程(GP)以前のVAE)は、すべてのデータサンプルにまたがる複雑な相関構造を説明できる。 部分的に観測されたデータセットから標準的なVAEを学習するためのいくつかの手法が提案されているが、条件付きVAEには不足している。 本研究では,補助共変量も欠落値を含むことができるデータセットから条件付きvaesを学習する手法を提案する。 提案手法は条件付きvaesを共変量の事前分布で補強し,その後方を不定形変分推論を用いて推定する。 訓練時,本手法は欠落した共変量に関する不確かさを軽減し,同時に証拠を最小限に抑える。 我々は,ミニバッチに適合するCVAEとGP前のVAEを計算効率よく学習する手法を開発した。 シミュレーションデータセットと臨床実験を行った結果,提案手法は,非時間的,時間的および縦方向のデータセットから条件的vaesを学習する従来の手法よりも優れていることがわかった。

Conditional variational autoencoders (CVAEs) are versatile deep generative models that extend the standard VAE framework by conditioning the generative model with auxiliary covariates. The original CVAE model assumes that the data samples are independent, whereas more recent conditional VAE models, such as the Gaussian process (GP) prior VAEs, can account for complex correlation structures across all data samples. While several methods have been proposed to learn standard VAEs from partially observed datasets, these methods fall short for conditional VAEs. In this work, we propose a method to learn conditional VAEs from datasets in which auxiliary covariates can contain missing values as well. The proposed method augments the conditional VAEs with a prior distribution for the missing covariates and estimates their posterior using amortised variational inference. At training time, our method marginalises the uncertainty associated with the missing covariates while simultaneously maximising the evidence lower bound. We develop computationally efficient methods to learn CVAEs and GP prior VAEs that are compatible with mini-batching. Our experiments on simulated datasets as well as on a clinical trial study show that the proposed method outperforms previous methods in learning conditional VAEs from non-temporal, temporal, and longitudinal datasets.
翻訳日:2022-03-03 18:16:43 公開日:2022-03-02
# (参考訳) ビデオ質問の回答: データセット、アルゴリズム、課題 [全文訳有]

Video Question Answering: Datasets, Algorithms and Challenges ( http://arxiv.org/abs/2203.01225v1 )

ライセンス: CC BY 4.0
Yaoyao Zhong, Wei Ji, Junbin Xiao, Yicong Li, Weihong Deng, Tat-Seng Chua(参考訳) Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。 近年のジョイントビジョンと言語理解の研究動向に注目が集まっている。 しかし、ImageQAと比較すると、VideoQAはほとんど未調査であり、徐々に進歩している。 異なるアルゴリズムが継続的に提案され、異なるビデオQAデータセットで成功したが、分類する意味のある調査がないことが、その進歩を著しく妨げている。 そこで本研究では,データセット,アルゴリズム,ユニークな課題に着目し,ビデオQAの明確な分類と包括的分析を行う。 次に,ビデオコンテンツの認識に向けた推論qaに対する事実的qa以上の研究動向を指摘するとともに,将来的な探索に向けた有望な方向性を結論付ける。

Video Question Answering (VideoQA) aims to answer natural language questions according to the given videos. It has earned increasing attention with recent research trends in joint vision and language understanding. Yet, compared with ImageQA, VideoQA is largely underexplored and progresses slowly. Although different algorithms have continually been proposed and shown success on different VideoQA datasets, we find that there lacks a meaningful survey to categorize them, which seriously impedes its advancements. This paper thus provides a clear taxonomy and comprehensive analyses to VideoQA, focusing on the datasets, algorithms, and unique challenges. We then point out the research trend of studying beyond factoid QA to inference QA towards the cognition of video contents, Finally, we conclude some promising directions for future exploration.
翻訳日:2022-03-03 17:53:58 公開日:2022-03-02
# (参考訳) supervised hebbian learning: 説明可能なaiを目指して [全文訳有]

Supervised Hebbian learning: toward eXplainable AI ( http://arxiv.org/abs/2203.01304v1 )

ライセンス: CC BY 4.0
Francesco Alemanno, Miriam Aquaro, Ido Kanter, Adriano Barra, Elena Agliari(参考訳) ニューラルネットワークの文献において、"em hebbian learning" は伝統的にホップフィールドモデルとその一般化である "em store" アーチタイプ(すなわちシナプス行列を形成するために一度だけ経験される定型パターン)の手順を指す。 しかし、機械学習における「機械学習」という言葉は、マシンが供給されたデータセット(例えば、これらのアーチタイプのぼやけた例)から特徴を抽出し、利用できないアーチタイプの独自の表現を作る能力を指す。 ここでは, ホップフィールドモデルにぼやけた例を施すと, ネットワークがアーチタイプを推測できるような, 教師なし学習プロトコルと教師なし学習プロトコルの両方を定義でき, システム性能のフェーズ図を記述するために, 適切な制御パラメータ(データセットサイズとその品質を含む)を検出できることを示す。 また、ランダムな構造のないデータセットに対しては、教師付き学習ルールを備えたホップフィールドモデルが制限ボルツマンマシンと同値であることを示し、最適なトレーニングルーチンを示唆する。 この研究は、eXplainable AI(XAI)への確固たる道を開いた。

In neural network's Literature, {\em Hebbian learning} traditionally refers to the procedure by which the Hopfield model and its generalizations {\em store} archetypes (i.e., definite patterns that are experienced just once to form the synaptic matrix). However, the term {\em learning} in Machine Learning refers to the ability of the machine to extract features from the supplied dataset (e.g., made of blurred examples of these archetypes), in order to make its own representation of the unavailable archetypes. Here we prove that, if we feed the Hopfield model with blurred examples, we can define both {\em supervised} and {\em unsupervised} learning protocols by which the network can possibly infer the archetypes and we detect the correct control parameters (including the dataset size and its quality) to depict a phase diagram for the system performance. We also prove that, for random, structureless datasets, the Hopfield model equipped with a supervised learning rule is equivalent to a restricted Boltzmann machine and this suggests an optimal training routine; the robustness of results is also checked numerically for structured datasets. This work contributes to pave a solid way toward eXplainable AI (XAI).
翻訳日:2022-03-03 17:36:30 公開日:2022-03-02
# 統計学における有向距離の統一的枠組み

A Unifying Framework for Some Directed Distances in Statistics ( http://arxiv.org/abs/2203.00863v1 )

ライセンス: Link先を確認
Michel Broniatowski and Wolfgang Stummer(参考訳) 確率分布間の密度に基づく有向距離(特に発散)は、統計学や隣接する情報理論、人工知能、機械学習の分野で広く使われている。 著名な例としては、例えば全現最大推定法と密接な関係にあるkullback-leibler information distance (relative entropy) や、有名な2乗法で使われるpearson's chisquare- distanceがある。 もう一つの統計推論の系統は分布関数に基づく分岐(例えば、(重み付けされた)cracker-von misesテスト統計(英語版)がアンダーソン・ダーリングテスト統計(英語版)(アンダーソン・ダーリングテスト統計)に基づいており、これはしばしば適合度調査に適用される。 本稿では、上記の密度ベースと分布関数ベースの分散アプローチの両方をカバーする一般的なフレームワークを提供する。 この枠組みから、多くの古典的および最先端(新しいものを含む)の手順を構造化的に抽出する。 さらに,有望な相互情報の代替として,確率変数間の依存の新たな概念を導出する。 いくつかの変分表現も議論されている。

Density-based directed distances -- particularly known as divergences -- between probability distributions are widely used in statistics as well as in the adjacent research fields of information theory, artificial intelligence and machine learning. Prominent examples are the Kullback-Leibler information distance (relative entropy) which e.g. is closely connected to the omnipresent maximum likelihood estimation method, and Pearson's chisquare-distance which e.g. is used for the celebrated chisquare goodness-of-fit test. Another line of statistical inference is built upon distribution-functio n-based divergences such as e.g. the prominent (weighted versions of) Cramer-von Mises test statistics respectively Anderson-Darling test statistics which are frequently applied for goodness-of-fit investigations; some more recent methods deal with (other kinds of) cumulative paired divergences and closely related concepts. In this paper, we provide a general framework which covers in particular both the above-mentioned density-based and distribution-functio n-based divergence approaches; the dissimilarity of quantiles respectively of other statistical functionals will be included as well. From this framework, we structurally extract numerous classical and also state-of-the-art (including new) procedures. Furthermore, we deduce new concepts of dependence between random variables, as alternatives to the celebrated mutual information. Some variational representations are discussed, too.
翻訳日:2022-03-03 16:34:09 公開日:2022-03-02
# メッシュネットワークを用いたUAV支援分散学習

UAV-Aided Decentralized Learning over Mesh Networks ( http://arxiv.org/abs/2203.01008v1 )

ライセンス: Link先を確認
Matteo Zecchin, David Gesbert, Marios Kountouris(参考訳) 分散学習は、デバイス間通信(D2D)のみに依存する機械学習(ML)モデルを協調的にトレーニングする、無線ネットワークデバイスに権限を与える。 分散最適化アルゴリズムの収束速度はネットワーク接続の程度に大きく依存し、より密度の高いネットワークトポロジが収束時間の短縮につながることが知られている。 その結果、実世界のメッシュネットワークのローカル接続は、無線ノードの通信範囲が限られているため、分散学習プロトコルの効率が損なわれ、実行不可能になる可能性がある。 本研究では,飛行中継として使用される無人航空機(UAV)が,このような困難な状況下での分散型学習手順の促進に果たす役割について検討する。 本論文は,UAVトラジェクトリを最適化し,ユーザグループ間のインテリジェンスを伝達するために,UAVが逐次訪問する一連の経路ポイントとして定義する。 次に、メッシュネットワーク上の分散学習におけるUAVの本質的な役割を強調する一連の実験を紹介します。

Decentralized learning empowers wireless network devices to collaboratively train a machine learning (ML) model relying solely on device-to-device (D2D) communication. It is known that the convergence speed of decentralized optimization algorithms severely depends on the degree of the network connectivity, with denser network topologies leading to shorter convergence time. Consequently, local connectivity of real world mesh networks, due to the limited communication range of its wireless nodes, undermines the efficiency of decentralized learning protocols, rendering them potentially impracticable. In this work we investigate the role of an unmanned aerial vehicle (UAV), used as flying relay, in facilitating decentralized learning procedures in such challenging conditions. We propose an optimized UAV trajectory, that is defined as a sequence of waypoints that the UAV visits sequentially in order to transfer intelligence across sparsely connected group of users. We then provide a series of experiments highlighting the essential role of UAVs in the context of decentralized learning over mesh networks.
翻訳日:2022-03-03 16:33:46 公開日:2022-03-02
# フィールドモニタリングデータを用いた実験に基づく自動故障検出アルゴリズムの設計に関する実践的勧告

Practical Recommendations for the Design of Automatic Fault Detection Algorithms Based on Experiments with Field Monitoring Data ( http://arxiv.org/abs/2203.01103v1 )

ライセンス: Link先を確認
Eduardo Abdon Sarquis Filho, Bj\"orn M\"uller, Nicolas Holland, Christian Reise, Klaus Kiefer, Bernd Kollosch, Paulo J. Costa Branco(参考訳) 自動故障検出(AFD)は太陽光発電システムポートフォリオの運用と保守を最適化するための重要な技術である。 PVシステムの故障を検出するための非常に一般的なアプローチは、測定された性能とシミュレーションされた性能の比較に基づいている。 このアプローチは多くの著者によって検討されてきたが、性能評価の共通基盤が欠如していることから、AFDアルゴリズムの設計にどのような影響があるのかはいまだ不明である。 本研究では,ドイツに設置した80基の屋上型PVシステムにおいて58ヶ月以上にわたって収集されたモニタリングデータを用いて,実運転条件下で一連のAFDアルゴリズムを検証した。 その結果、この種のafdアルゴリズムは最大82.8%のエネルギー損失を90%以上の特異性で検出できる可能性が示された。 一般に、シミュレーションの精度が高ければ高いほど、特異性が高くなる。 精度の低いシミュレーションを使用することで、特異性を減らすコストで感度を高めることができる。 測定を個別に分析することで、アルゴリズムはシミュレーションの精度に敏感になる。 統計的解析に機械学習クラスタリングアルゴリズムを用いた場合,モデル精度が低かった場合においても,誤報を未然に防ぐことができた。 わずかに高いレベルの偽の警告を許容できる場合、Shewhartチャートを使用した日々のPRの分析は、モデリングやクラスタリングのより複雑なアルゴリズムを必要としない、非常に単純なソリューションで高い感度を提供する。

Automatic fault detection (AFD) is a key technology to optimize the Operation and Maintenance of photovoltaic (PV) systems portfolios. A very common approach to detect faults in PV systems is based on the comparison between measured and simulated performance. Although this approach has been explored by many authors, due to the lack a common basis for evaluating their performance, it is still unclear what are the influencing aspects in the design of AFD algorithms. In this study, a series of AFD algorithms have been tested under real operating conditions, using monitoring data collected over 58 months on 80 rooftop-type PV systems installed in Germany. The results shown that this type of AFD algorithm have the potential to detect up to 82.8% of the energy losses with specificity above 90%. In general, the higher the simulation accuracy, the higher the specificity. The use of less accurate simulations can increase sensitivity at the cost of decreasing specificity. Analyzing the measurements individually makes the algorithm less sensitive to the simulation accuracy. The use of machine learning clustering algorithm for the statistical analysis showed exceptional ability to prevent false alerts, even in cases where the modeling accuracy is not high. If a slightly higher level of false alerts can be tolerated, the analysis of daily PR using a Shewhart chart provides the high sensitivity with an exceptionally simple solution with no need for more complex algorithms for modeling or clustering.
翻訳日:2022-03-03 16:33:30 公開日:2022-03-02
# ベイズ検索の代替としての畳み込みニューラルネットワーク

Convolutional neural networks as an alternative to Bayesian retrievals ( http://arxiv.org/abs/2203.01236v1 )

ライセンス: Link先を確認
Francisco Ardevol Martinez, Michiel Min, Inga Kamp, Paul I. Palmer(参考訳) 太陽系外惑星の観測は、現在ベイズ検索技術で分析されている。 使用するモデルの計算負荷のため、モデルの複雑さと計算時間の間に妥協が必要となる。 将来の施設からのデータ分析では、検索の計算負荷を増大させる複雑なモデルが必要となり、太陽系外惑星の観測を解釈するためのより高速なアプローチが求められている。 我々の目標は、太陽系外惑星透過スペクトルの機械学習検索をネストサンプリングと比較し、統計学的に有意なスペクトルサンプルのベイズ検索と同等に信頼性があるかどうかを、桁違いに高速で理解することである。 我々は合成透過スペクトルとその対応する惑星および大気パラメータの格子を生成し、一方は自由化学モデル、もう一方は平衡化学モデルを用いて生成する。 各グリッドは、HST/WFC3とJWST/NIRSpecの両方をシミュレートするために再結合され、合計4つのデータセットが生成される。 畳み込みニューラルネットワーク(CNN)は、それぞれのデータセットでトレーニングされる。 我々は,ネストサンプリングと機械学習を用いて,モデルタイプと楽器の組み合わせ毎に1,000のシミュレーション観測を行った。 また、実際のWFC3伝送スペクトルの検索にも両方の手法を用いる。 最後に、モデルの誤った仮定に対して、機械学習とネストサンプリングがいかに堅牢であるかをテストします。 CNNは、パラメータの予測値と真値の間の決定係数を低くする。 ネステッドサンプリングは検索の約8%で不確実性を過小評価する一方、CNNはそれらを正確に推定する。 実際のWFC3観測では、ネストサンプリングと機械学習はスペクトルの約86%に対して$2\sigma$で一致している。 誤った仮定で検索を行う場合、ネストサンプリングはケースの12%から41%で不確実性を過小評価するが、CNNでは10%以下である。

Exoplanet observations are currently analysed with Bayesian retrieval techniques. Due to the computational load of the models used, a compromise is needed between model complexity and computing time. Analysis of data from future facilities, will need more complex models which will increase the computational load of retrievals, prompting the search for a faster approach for interpreting exoplanet observations. Our goal is to compare machine learning retrievals of exoplanet transmission spectra with nested sampling, and understand if machine learning can be as reliable as Bayesian retrievals for a statistically significant sample of spectra while being orders of magnitude faster. We generate grids of synthetic transmission spectra and their corresponding planetary and atmospheric parameters, one using free chemistry models, and the other using equilibrium chemistry models. Each grid is subsequently rebinned to simulate both HST/WFC3 and JWST/NIRSpec observations, yielding four datasets in total. Convolutional neural networks (CNNs) are trained with each of the datasets. We perform retrievals on a 1,000 simulated observations for each combination of model type and instrument with nested sampling and machine learning. We also use both methods to perform retrievals on real WFC3 transmission spectra. Finally, we test how robust machine learning and nested sampling are against incorrect assumptions in our models. CNNs reach a lower coefficient of determination between predicted and true values of the parameters. Nested sampling underestimates the uncertainty in ~8% of retrievals, whereas CNNs estimate them correctly. For real WFC3 observations, nested sampling and machine learning agree within $2\sigma$ for ~86% of spectra. When doing retrievals with incorrect assumptions, nested sampling underestimates the uncertainty in ~12% to ~41% of cases, whereas this is always below ~10% for the CNN.
翻訳日:2022-03-03 16:32:40 公開日:2022-03-02
# 複雑な作用に対する流れに基づく状態密度

Flow-based density of states for complex actions ( http://arxiv.org/abs/2203.01243v1 )

ライセンス: Link先を確認
Jan M. Pawlowski, Julian M. Urban(参考訳) 正規化フローに基づく新しいサンプリングアルゴリズムは、格子計算におけるエルゴディディティ問題を解く可能性がある。 さらに、従来の方法ではアクセスが難しい熱力学量を計算するためにフローが使用できることも指摘されている。 このことは、それらは複素作用問題に対する状態密度アプローチにも適用可能であることを示唆している。 特に、フローベースサンプリングは、従来の対数関数の導関数の測定と積分による再構成戦略とは対照的に、直接的に密度を計算するために用いられる。 この手順を回避して、数値積分による誤差の蓄積を完全に回避し、全体正規化係数を明示的に決定することができる。 本稿では,2成分スカラー場理論の文脈において,O(2)$対称性が虚外場によって明確に破られるような手法を実証する。 まず、正確に解くことができるゼロ次元の場合に集中する。 本手法では, 分割関数のLee-Yang零点の配置に成功していることを示す。 次に, フローベースアプローチにより, 従来の手法で計算した密度を1次元および2次元モデルで正しく再現できることを確認した。

Emerging sampling algorithms based on normalizing flows have the potential to solve ergodicity problems in lattice calculations. Furthermore, it has been noted that flows can be used to compute thermodynamic quantities which are difficult to access with traditional methods. This suggests that they are also applicable to the density-of-states approach to complex action problems. In particular, flow-based sampling may be used to compute the density directly, in contradistinction to the conventional strategy of reconstructing it via measuring and integrating the derivative of its logarithm. By circumventing this procedure, the accumulation of errors from the numerical integration is avoided completely and the overall normalization factor can be determined explicitly. In this proof-of-principle study, we demonstrate our method in the context of two-component scalar field theory where the $O(2)$ symmetry is explicitly broken by an imaginary external field. First, we concentrate on the zero-dimensional case which can be solved exactly. We show that with our method, the Lee-Yang zeroes of the associated partition function can be successfully located. Subsequently, we confirm that the flow-based approach correctly reproduces the density computed with conventional methods in one- and two-dimensional models.
翻訳日:2022-03-03 16:32:13 公開日:2022-03-02
# NetworKitを用いたクラウド上でのタンパク質RINのインタラクティブ可視化

Interactive Visualization of Protein RINs using NetworKit in the Cloud ( http://arxiv.org/abs/2203.01263v1 )

ライセンス: Link先を確認
Eugenio Angriman, Fabian Brandt-Tumescheit, Leon Franke, Alexander van der Grinten, Henning Meyerhenke(参考訳) ネットワーク分析は様々なアプリケーションドメインに適用されている。 本稿では,タンパク質動態,特に残基相互作用ネットワーク(RIN)の例について考察する。 この文脈では、ネットワーク分析のための確立されたパッケージであるnetworkitを使って、ドメインサイエンティストが大規模な計算サーバー上で可視化と分析のワークフローを実行できるクラウドベースの環境を構築します。 このアプローチの汎用性を示すために、rinビジュアライゼーションのためのカスタムjupyterベースのウィジェットを構築するためにそれを使用します。 既存のrinビジュアライゼーションアプローチとは対照的に、我々のウィジェットはpythonコードの簡単な修正によって簡単にカスタマイズできます。 また、分析パイプライン(例えば、Pythonを使ってRINデータを下流の機械学習タスクに供給する)に簡単に統合できる。

Network analysis has been applied in diverse application domains. In this paper, we consider an example from protein dynamics, specifically residue interaction networks (RINs). In this context, we use NetworKit -- an established package for network analysis -- to build a cloud-based environment that enables domain scientists to run their visualization and analysis workflows on large compute servers, without requiring extensive programming and/or system administration knowledge. To demonstrate the versatility of this approach, we use it to build a custom Jupyter-based widget for RIN visualization. In contrast to existing RIN visualization approaches, our widget can easily be customized through simple modifications of Python code, while both supporting a good feature set and providing near real-time speed. It is also easily integrated into analysis pipelines (e.g., that use Python to feed RIN data into downstream machine learning tasks).
翻訳日:2022-03-03 16:31:57 公開日:2022-03-02
# 機械学習モデルは、計算触媒に必要な伝達性で計算結果を予測する

Machine learning models predict calculation outcomes with the transferability necessary for computational catalysis ( http://arxiv.org/abs/2203.01276v1 )

ライセンス: Link先を確認
Chenru Duan, Aditya Nandy, Husain Adamji, Yuriy Roman-Leshkov, and Heather J. Kulik(参考訳) 仮想高スループットスクリーニング(VHTS)と機械学習(ML)は単一部位遷移金属触媒の設計を大幅に加速させた。 しかしながら、触媒のVHTSはしばしば高い計算失敗率と計算資源を浪費している。 動的分類器アプローチ、すなわち、オンザフライでの幾何最適化をモニタする畳み込みニューラルネットワークを示し、触媒設計に優れた性能と伝達性を利用する。 反応中間体を1つだけ訓練したにもかかわらず, 動的分類器はメタン-メタノールのラジカルリバウンド機構の代表触媒サイクルにおいて, 全ての反応中間体に対して良好に作用することを示した。 動的分類器はまた、正確性やモデルの信頼性を損なうことなく、訓練データに欠けている化学的に異なる中間体と金属中心に一般化する。 この優れたモデル伝達性をオンザフライ電子構造と密度汎関数計算および動的分類器の畳み込み層から生成される幾何情報の利用に合理化する。 モデル不確実性定量化と組み合わせて、動的分類器は考慮される全ての反応中間体の計算に費やされたであろう計算資源の半分以上を節約する。

Virtual high throughput screening (VHTS) and machine learning (ML) have greatly accelerated the design of single-site transition-metal catalysts. VHTS of catalysts, however, is often accompanied with high calculation failure rate and wasted computational resources due to the difficulty of simultaneously converging all mechanistically relevant reactive intermediates to expected geometries and electronic states. We demonstrate a dynamic classifier approach, i.e., a convolutional neural network that monitors geometry optimization on the fly, and exploit its good performance and transferability for catalyst design. We show that the dynamic classifier performs well on all reactive intermediates in the representative catalytic cycle of the radical rebound mechanism for methane-to-methanol despite being trained on only one reactive intermediate. The dynamic classifier also generalizes to chemically distinct intermediates and metal centers absent from the training data without loss of accuracy or model confidence. We rationalize this superior model transferability to the use of on-the-fly electronic structure and geometric information generated from density functional theory calculations and the convolutional layer in the dynamic classifier. Combined with model uncertainty quantification, the dynamic classifier saves more than half of the computational resources that would have been wasted on unsuccessful calculations for all reactive intermediates being considered.
翻訳日:2022-03-03 16:30:39 公開日:2022-03-02
# (参考訳) WaveY-Net:高速電磁シミュレーションと最適化のための物理強化深層学習 [全文訳有]

WaveY-Net: Physics-augmented deep learning for high-speed electromagnetic simulation and optimization ( http://arxiv.org/abs/2203.01248v1 )

ライセンス: CC BY 4.0
Mingkun Chen, Robert Lupoiu, Chenkai Mao, Der-Han Huang, Jiaqi Jiang, Philippe Lalanne, and Jonathan A. Fan(参考訳) 構造媒体内の電磁界分布の計算は、フォトニックデバイスの最適化と検証の中心となる。 誘電体フォトニック構造全体の電磁界分布を高速かつ高精度に予測できる,データと物理のハイブリッド畳み込みニューラルネットワークwavey-netを提案する。 この精度は、ニューラルネットワークがシステムの磁場近傍分布のみを学習し、マクスウェル方程式の離散的な定式化を損失関数の物理的制約として、磁場から電場を計算する手段として使うように訓練することで達成される。 モデルシステムとして, 周期型シリコンナノ構造アレイのサロゲートシミュレータを構築し, 局所的および大域的メタグラフィーのフリーフォーム最適化において, 高速シミュレータを直接かつ効果的に利用できることを示す。 我々は、物理学を応用したネットワークが、多くのフォトニックシステムに対するマクスウェルシミュレーターの代替となり、それらが設計される方法を変えると予測している。

The calculation of electromagnetic field distributions within structured media is central to the optimization and validation of photonic devices. We introduce WaveY-Net, a hybrid data- and physics-augmented convolutional neural network that can predict electromagnetic field distributions with ultra fast speeds and high accuracy for entire classes of dielectric photonic structures. This accuracy is achieved by training the neural network to learn only the magnetic near-field distributions of a system and to use a discrete formalism of Maxwell's equations in two ways: as physical constraints in the loss function and as a means to calculate the electric fields from the magnetic fields. As a model system, we construct a surrogate simulator for periodic silicon nanostructure arrays and show that the high speed simulator can be directly and effectively used in the local and global freeform optimization of metagratings. We anticipate that physics-augmented networks will serve as a viable Maxwell simulator replacement for many classes of photonic systems, transforming the way they are designed.
翻訳日:2022-03-03 16:28:35 公開日:2022-03-02
# 4次元自動車レーダを用いた自己監督型シーンフロー推定

Self-Supervised Scene Flow Estimation with 4D Automotive Radar ( http://arxiv.org/abs/2203.01137v1 )

ライセンス: Link先を確認
Fangqiang Ding, Zhijun Pan, Yimin Deng, Jianning Deng, Chris Xiaoxuan Lu(参考訳) シーンフローにより、自動運転車は複数の独立した物体の任意の動きを推論することができる。 最近LiDARからのシーンフローの推定が進んでいるが、4Dレーダーからのシーンフローをどのように推定するかはほとんど分かっていない。 LiDARの点雲と比較すると、レーダーデータは大幅に小さく、ノイズが高く、解像度もはるかに低い。 レーダシーンフロー用の注釈付きデータセットも存在せず、現実世界で取得するのにコストがかかる。 これらの要因は, レーダシーンフロー推定を課題とする。 本研究の目的は,4次元レーダポイント雲からのシーンフローを,自己教師付き学習を利用して推定することである。 ロバストなシーンフロー推定アーキテクチャと3つの新しい損失は、難解なレーダーデータに対応するように設計されている。 実世界実験により,本手法は野生のレーダシーンフローをロバストに推定でき,動作セグメンテーションの下流タスクを効果的にサポートできることを確認した。

Scene flow allows autonomous vehicles to reason about the arbitrary motion of multiple independent objects which is the key to long-term mobile autonomy. While estimating the scene flow from LiDAR has progressed recently, it remains largely unknown how to estimate the scene flow from a 4D radar - an increasingly popular automotive sensor for its robustness against adverse weather and lighting conditions. Compared with the LiDAR point clouds, radar data are drastically sparser, noisier and in much lower resolution. Annotated datasets for radar scene flow are also in absence and costly to acquire in the real world. These factors jointly pose the radar scene flow estimation as a challenging problem. This work aims to address the above challenges and estimate scene flow from 4D radar point clouds by leveraging self-supervised learning. A robust scene flow estimation architecture and three novel losses are bespoken designed to cope with intractable radar data. Real-world experimental results validate that our method is able to robustly estimate the radar scene flow in the wild and effectively supports the downstream task of motion segmentation.
翻訳日:2022-03-03 16:10:42 公開日:2022-03-02
# DisARM: 3D検出のための変位認識リレーションモジュール

DisARM: Displacement Aware Relation Module for 3D Detection ( http://arxiv.org/abs/2203.01152v1 )

ライセンス: Link先を確認
Yao Duan, Chenyang Zhu, Yuqing Lan, Renjiao Yi, Xinwang Liu, Kai Xu(参考訳) 本稿では,ポイントクラウドシーンにおける3Dオブジェクト検出性能を向上させるニューラルネットワークモジュールであるDisplacement Aware Relation Module (DisARM)を紹介する。 この手法の核となる考え方は、インスタンスの幾何が不完全あるいは機能的でない場合の差異を判断するために、コンテキスト情報が非常に重要であるということです。 提案間の関係がコンテキストを記述する上でよい表現であることがわかった。 しかし、検出のための全てのオブジェクトまたはパッチの提案間の関係は非効率であり、局所的およびグローバル的関係の不均衡な組み合わせは、トレーニングを誤解させる余分なノイズをもたらす。 すべての関係を扱うのではなく、最も代表的なもの、あるいはアンカー間の関係によるトレーニングが検出性能を大幅に向上させることがわかった。 優れたアンカーは、曖昧さがなく、他のアンカーとも独立な意味認識であるべきです。 アンカーを見つけるために,まず,オブジェクトネスアウェアサンプリングアプローチによる予備関係アンカーモジュールを作成し,その後,コンテキスト情報の利用性向上のために関係重要度を重み付ける変位ベースモジュールを考案する。 この軽量な関係モジュールは、最先端検出器に差し込む際にオブジェクトインスタンス検出の精度を著しく向上させる。 SUN RGB-D と ScanNet V2 の両面において,本手法が最先端の性能を達成することを示す。

We introduce Displacement Aware Relation Module (DisARM), a novel neural network module for enhancing the performance of 3D object detection in point cloud scenes. The core idea of our method is that contextual information is critical to tell the difference when the instance geometry is incomplete or featureless. We find that relations between proposals provide a good representation to describe the context. However, adopting relations between all the object or patch proposals for detection is inefficient, and an imbalanced combination of local and global relations brings extra noise that could mislead the training. Rather than working with all relations, we found that training with relations only between the most representative ones, or anchors, can significantly boost the detection performance. A good anchor should be semantic-aware with no ambiguity and independent with other anchors as well. To find the anchors, we first perform a preliminary relation anchor module with an objectness-aware sampling approach and then devise a displacement-based module for weighing the relation importance for better utilization of contextual information. This lightweight relation module leads to significantly higher accuracy of object instance detection when being plugged into the state-of-the-art detectors. Evaluations on the public benchmarks of real-world scenes show that our method achieves state-of-the-art performance on both SUN RGB-D and ScanNet V2.
翻訳日:2022-03-03 16:10:25 公開日:2022-03-02
# 一様B線を用いたLIDAR計測による高速・ロバスト地表面推定

Fast and Robust Ground Surface Estimation from LIDAR Measurements using Uniform B-Splines ( http://arxiv.org/abs/2203.01180v1 )

ライセンス: Link先を確認
Sascha Wirges, Kevin R\"osch, Frank Bieder, Christoph Stiller(参考訳) 自動走行車におけるLIDAR測定から地上面を高速かつ頑健に推定する手法を提案する。 地表面は、様々な測定密度に対して頑健なUBSとしてモデル化され、それ以前の滑らかさを制御する単一のパラメータを持つ。 本稿では, 線形問題として再計算し, 効率よく解ける頑健なLS最適化問題として, 推定過程をモデル化する。 SemanticKITTIデータセットを用いて、ポイントワイドな意味アノテーションを基底点と非基底点に分類して定量的評価を行う。 最後に、実世界のシナリオにおける研究車両のアプローチを検証する。

We propose a fast and robust method to estimate the ground surface from LIDAR measurements on an automated vehicle. The ground surface is modeled as a UBS which is robust towards varying measurement densities and with a single parameter controlling the smoothness prior. We model the estimation process as a robust LS optimization problem which can be reformulated as a linear problem and thus solved efficiently. Using the SemanticKITTI data set, we conduct a quantitative evaluation by classifying the point-wise semantic annotations into ground and non-ground points. Finally, we validate the approach on our research vehicle in real-world scenarios.
翻訳日:2022-03-03 16:10:03 公開日:2022-03-02
# 微分可能なIFSフラクタル

Differentiable IFS Fractals ( http://arxiv.org/abs/2203.01231v1 )

ライセンス: Link先を確認
Cory Braker Scott(参考訳) 微分可能なレンダリングパイプラインを用いた反復関数システム(ifs)フラクタルのレンダリングについて紹介する。 微分レンダリングは、グラフィックスと機械学習の交差点における最近のイノベーションである。 これは、特定の基準を満たすフラクタルを生成する多くの可能性を開く。 本稿では,対象画像に類似したIFSフラクタルを生成する方法について述べる。

I present my explorations in rendering Iterated Function System (IFS) fractals using a differentiable rendering pipeline. Differentiable rendering is a recent innovation at the intersection of graphics and machine learning. This opens up many possibilities for generating fractals that meet particular criteria. In this paper I show how my method can be used to generate an IFS fractal that resembles a target image.
翻訳日:2022-03-03 16:09:50 公開日:2022-03-02
# 再分権のための集中フェアネス

Centralized Fairness for Redistricting ( http://arxiv.org/abs/2203.00872v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Hayley Grape, Brian Brubach(参考訳) 代表制では、各選挙区が代表を選出する地区に分割されることが多い。 しかし、これらの制度は、特定の政党からより多くの代表を選出する地区を描くことを含む党派ゲリマンディングの実践に弱いことが証明されている。 さらに、コンピュータベースの手法は、他者よりも大いに有利な地区を描く能力を劇的に向上させた。 ポジティブな側面として、研究者たちは、gerrymandered a redistricting mapをランダムに生成された大きな地区マップと比較することによって、どのように再帰マップを再現するかを測定するツールを開発した。 地区地図が「時代遅れ」かどうかを検証しようとするこれらの取り組みは、現実世界の影響を生んでいるが、地区図の最良の方法に関する疑問は非常にオープンである。 再制限プロセスを自動化する多くの試みが提案されているが、実際は採用されていない。 典型的には、特定の特性(例えば、地区の地理的コンパクト性や党派的競合性)を最適化することに集中し、その特性が望ましいと主張した。 本研究では、最も「典型的」な再限定写像を見つけるための別のアプローチをとる。 より正確には、再帰写像上のよく動機づけられた距離測度の族を導入する。 次に,サンプリング技術を用いて地図の膨大なコレクションを生成することにより,コレクションからの距離の和を最小化するマップ,すなわち最も「中央」なマップを選択する。 スケーラブルな線形時間アルゴリズムを作成し,サンプル複雑性の保証を行う。 実世界の再限定問題に対するアルゴリズムの有効性を実証的に示す。

In representative democracy, the electorate is often partitioned into districts with each district electing a representative. However, these systems have proven vulnerable to the practice of partisan gerrymandering which involves drawing districts that elect more representatives from a given political party. Additionally, computer-based methods have dramatically enhanced the ability to draw districts that drastically favor one party over others. On the positive side, researchers have recently developed tools for measuring how gerrymandered a redistricting map is by comparing it to a large set of randomly-generated district maps. While these efforts to test whether a district map is "gerrymandered" have achieved real-world impact, the question of how best to draw districts remains very open. Many attempts to automate the redistricting process have been proposed, but not adopted into practice. Typically, they have focused on optimizing certain properties (e.g., geographical compactness or partisan competitiveness of districts) and argued that the properties are desirable. In this work, we take an alternative approach which seeks to find the most "typical" redistricting map. More precisely, we introduce a family of well-motivated distance measures over redistricting maps. Then, by generating a large collection of maps using sampling techniques, we select the map which minimizes the sum of the distances from the collection, i.e., the most "central" map. We produce scalable, linear-time algorithms and derive sample complexity guarantees. Empirically, we show the validity of our algorithms over real world redistricting problems.
翻訳日:2022-03-03 16:09:45 公開日:2022-03-02
# 統計的パラメトリック音声合成のための直感的韻律特徴を用いた話者適応

Speaker Adaption with Intuitive Prosodic Features for Statistical Parametric Speech Synthesis ( http://arxiv.org/abs/2203.00951v1 )

ライセンス: Link先を確認
Pengyu Cheng and Zhenhua Ling(参考訳) 本稿では,統計的パラメトリック音声合成のための直観的韻律特徴を用いた話者適応法を提案する。 この手法で用いられる直感的な韻律の特徴は、ピッチ、ピッチ範囲、発話速度、エネルギーであり、異なる話者の全体的な韻律特性と直接的に関係している。 直感的な韻律的特徴を発話レベルまたは話者レベルで抽出し、既存の話者エンコーディングベースおよび話者エンベディングベース適応フレームワークにさらに統合する。 音響モデルはTacotron2に基づくシーケンス対シーケンスモデルである。 音声特徴を復号化するためのテキストエンコーダ出力や話者ベクトルと直感的韻律特徴を結合し, 実験により, 直感的韻律特徴を伴わない基本手法よりも, 客観的, 主観的性能を向上できることを示した。 また,提案する発話レベルの韻律特徴を持つ話者適応法は,すべての比較手法において合成音声の最適類似性が得られた。

In this paper, we propose a method of speaker adaption with intuitive prosodic features for statistical parametric speech synthesis. The intuitive prosodic features employed in this method include pitch, pitch range, speech rate and energy considering that they are directly related with the overall prosodic characteristics of different speakers. The intuitive prosodic features are extracted at utterance-level or speaker-level, and are further integrated into the existing speaker-encoding-bas ed and speaker-embedding-ba sed adaptation frameworks respectively. The acoustic models are sequence-to-sequence ones based on Tacotron2. Intuitive prosodic features are concatenated with text encoder outputs and speaker vectors for decoding acoustic features.Experimenta l results have demonstrated that our proposed methods can achieve better objective and subjective performance than the baseline methods without intuitive prosodic features. Besides, the proposed speaker adaption method with utterance-level prosodic features has achieved the best similarity of synthetic speech among all compared methods.
翻訳日:2022-03-03 16:09:18 公開日:2022-03-02
# 生命の3領域にわたるタンパク質相互作用ネットワークの組織的多様性の特徴

Characterizing the organizational diversity of protein interaction networks across three domains of life ( http://arxiv.org/abs/2203.00999v1 )

ライセンス: Link先を確認
Vikram Singh and Vikram Singh(参考訳) ネットワークは物理的、化学的、生物学的、社会的な世界からデザインされた球体まで、あらゆる場所で存在している。 異なるタイプのネットワークを識別するために活用できる高次組織が存在する場合、生命の3つの領域全てを包含する16の系統に属する4,738のタンパク質相互作用ネットワーク(PIN)を探索する。 提案手法は,ネットワークノードの位置情報を利用して,2-5の大きさの誘導グラフレットに現れる自己正則軌道の周波数を適切に正規化する。 ネットワークのトポロジーには、そのローカルアーキテクチャとその振る舞いを形作るいくつかの進化的制約が課されている。 これらの規則(機能)により、ネットワークの種類は共通のネットワーク空間内のそれぞれの位置を占める。 ディープニューラルネットワークは、差分表現された軌道上で訓練され、予測精度は85%となった。 以上より,自然界はピンのスーパーファミリに特定のデザイン空間を割り当てている可能性が示唆された。

Networks exist everywhere in nature from the physical, chemical, biological or social worlds to the designed spheres. To explore, if there exists some higher-order organization that can be exploited to distinguish different types of networks, we study 4,738 protein interaction networks (PINs) belonging to 16 phyla encompassing all the three domains of life. Our method utilizes positional information of a network's nodes by appropriately normalizing the frequency of automorphic orbits appearing in the induced graphlets of sizes 2-5. There are some evolutionary constraints imposed on the network's topology which shape its local architecture as well as its behavior. According to these rules (features), each type of network occupies its respective position within a common network space. A deep neural network was trained on differentially expressed orbits resulting in a prediction accuracy of 85%. Our results indicate that nature has, probably, allocated a specific band of design space to various superfamilies of PINs.
翻訳日:2022-03-03 16:09:00 公開日:2022-03-02
# 貧困・福祉領域における衛星画像と機械学習に基づく知識抽出

Satellite Image and Machine Learning based Knowledge Extraction in the Poverty and Welfare Domain ( http://arxiv.org/abs/2203.01068v1 )

ライセンス: Link先を確認
Ola Hall, Mattias Ohlsson and Thortseinn R\"ognvaldsson(参考訳) 人工知能と機械学習の最近の進歩は、人間開発指標、特に資産ベースの貧困を測定する方法の段階的な変化を生み出した。 衛星画像と機械学習の組み合わせは、対面インタビューや家庭調査のようなワークホース手法で達成されるのと同じようなレベルで貧困を見積もる能力を持っている。 静的推定を超えた重要な問題は、この技術が科学的な発見に寄与し、貧困と福祉分野における新たな知識をもたらすかどうかである。 科学的洞察を得るための基礎はドメイン知識であり、それが説明可能性と科学的一貫性に変換される。 我々は,この文脈において,透明性,解釈可能性,説明可能性という3つの要素に注目した文献をレビューし,貧困,機械学習,衛星画像nexusとの関連性について検討する。 この分野のレビューは、説明可能な機械学習(トランスペアレンス、解釈可能性、ドメイン知識)の3つのコア要素の状況が多様であり、科学的洞察と発見のために設定された要件を完全に満たしていないことを示している。 我々は,本研究の広く普及と受容を支援するために説明可能性の重要性を論じる。

Recent advances in artificial intelligence and machine learning have created a step change in how to measure human development indicators, in particular asset based poverty. The combination of satellite imagery and machine learning has the capability to estimate poverty at a level similar to what is achieved with workhorse methods such as face-to-face interviews and household surveys. An increasingly important issue beyond static estimations is whether this technology can contribute to scientific discovery and consequently new knowledge in the poverty and welfare domain. A foundation for achieving scientific insights is domain knowledge, which in turn translates into explainability and scientific consistency. We review the literature focusing on three core elements relevant in this context: transparency, interpretability, and explainability and investigate how they relates to the poverty, machine learning and satellite imagery nexus. Our review of the field shows that the status of the three core elements of explainable machine learning (transparency, interpretability and domain knowledge) is varied and does not completely fulfill the requirements set up for scientific insights and discoveries. We argue that explainability is essential to support wider dissemination and acceptance of this research, and explainability means more than just interpretability.
翻訳日:2022-03-03 16:08:43 公開日:2022-03-02
# Avant-Satie! ERIKを用いて自律型社会ロボットのアニメーションにタスク関連表現性をエンコードする

Avant-Satie! Using ERIK to encode task-relevant expressivity into the animation of autonomous social robots ( http://arxiv.org/abs/2203.01176v1 )

ライセンス: Link先を確認
Tiago Ribeiro, Ana Paiva(参考訳) ERIKは、アルゴリズムと限定されたユーザインタラクションシナリオの両方において、以前に提示され評価された表現的逆キネマティクス技術である。 自律型社会ロボットは、視線追跡中に姿勢に基づく表現情報を伝達することができる。 これまでのシナリオから,サポート対象のクレームのさらなる検証を目的とした,新たなシナリオを開発した。 実験では,完全自律型アデリーノロボットを特徴とし,erikは与えられたタスクの実行中のユーザのアクション選択を,非言語表現型キューを通じて指示するために使用できると結論づけた。

ERIK is an expressive inverse kinematics technique that has been previously presented and evaluated both algorithmically and in a limited user-interaction scenario. It allows autonomous social robots to convey posture-based expressive information while gaze-tracking users. We have developed a new scenario aimed at further validating some of the unsupported claims from the previous scenario. Our experiment features a fully autonomous Adelino robot, and concludes that ERIK can be used to direct a user's choice of actions during execution of a given task, fully through its non-verbal expressive queues.
翻訳日:2022-03-03 16:08:20 公開日:2022-03-02
# 音声自己教師付き学習:調査

Audio Self-supervised Learning: A Survey ( http://arxiv.org/abs/2203.01205v1 )

ライセンス: Link先を確認
Shuo Liu, Adria Mallol-Ragolta, Emilia Parada-Cabeleiro, Kun Qian, Xin Jing, Alexander Kathan, Bin Hu, Bjoern W. Schuller(参考訳) 知識とスキルを一般化する人間の認知能力に触発されて、SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせず、大規模データから一般的な表現を見つけることを目的としている。 コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。 現在、オーディオSSLの知識を要約した包括的なレビューが欠落している。 このギャップを埋めるために、本研究では、音声および音声処理アプリケーションに使用されるSSL方式の概要について述べる。 本稿では,マルチモーダルSSLフレームワークにおけるオーディオモダリティを利用した実証研究と,コンピュータオーディション領域におけるSSLのパワーを評価するための既存のベンチマークを要約する。 最後に、オープンな問題について議論し、オーディオSSLの開発における今後の方向性を指摘する。

Inspired by the humans' cognitive ability to generalise knowledge and skills, Self-Supervised Learning (SSL) targets at discovering general representations from large-scale data without requiring human annotations, which is an expensive and time consuming task. Its success in the fields of computer vision and natural language processing have prompted its recent adoption into the field of audio and speech processing. Comprehensive reviews summarising the knowledge in audio SSL are currently missing. To fill this gap, in the present work, we provide an overview of the SSL methods used for audio and speech processing applications. Herein, we also summarise the empirical works that exploit the audio modality in multi-modal SSL frameworks, and the existing suitable benchmarks to evaluate the power of SSL in the computer audition domain. Finally, we discuss some open problems and point out the future directions on the development of audio SSL.
翻訳日:2022-03-03 16:08:08 公開日:2022-03-02
# dyadicコラボレーティブオブジェクト操作タスクにおける触覚コミュニケーションの役割

The role of haptic communication in dyadic collaborative object manipulation tasks ( http://arxiv.org/abs/2203.01287v1 )

ライセンス: Link先を確認
Yiming Liu, Raz Leib, William Dudley, Ali Shafti, A. Aldo Faisal, David W. Franklin(参考訳) 直感的で効率的な人間とロボットのコラボレーションは、人間とロボットの相互観察可能性、すなわち、お互いの意図や動作を解釈できる2つの実体に依存する。 これは、人間のセンシングや意図のデコード、人間-ロボットのターンテイクやシーケンシャルなタスク計画などを含む無数の方法によって修復される。 しかし、物理的相互作用は力、トルク、触覚を通した豊富なコミュニケーションチャネルを確立しており、人間とロボットの相互作用の産業的実装では見過ごされがちである。 本研究では,人間の協調作業におけるハプティクスの役割について検討し,人間ロボットチームにおける物理的コミュニケーションの統合方法を明らかにする。 1人の参加者が双方向に、または2人の参加者がダイアディカルに、触覚情報なしで、ボード上の目標位置でボールのバランスをとるタスクを提示する。 このタスクでは、2つのサイドがリアルタイムで互いに協調し、ターゲットのボールのバランスをとる必要がある。 トレーニングでは,ボールの完成時間と速度ピーク数が減少し,参加者は徐々に制動戦略に整合することが明らかとなった。 さらに,触覚情報の存在が性能の向上(完成時間の短縮)に寄与し,協調運動全体の増加につながった。 その結果,触覚フィードバックが利用可能であれば,人間同士の協調性が向上することがわかった。 これらの結果は、人間の意図を推測し、ロボットの動作を人間に解釈可能にするツールとして、人間とロボットの物理的相互作用における触覚コミュニケーションの重要性も示している。

Intuitive and efficient physical human-robot collaboration relies on the mutual observability of the human and the robot, i.e. the two entities being able to interpret each other's intentions and actions. This is remedied by a myriad of methods involving human sensing or intention decoding, as well as human-robot turn-taking and sequential task planning. However, the physical interaction establishes a rich channel of communication through forces, torques and haptics in general, which is often overlooked in industrial implementations of human-robot interaction. In this work, we investigate the role of haptics in human collaborative physical tasks, to identify how to integrate physical communication in human-robot teams. We present a task to balance a ball at a target position on a board either bimanually by one participant, or dyadically by two participants, with and without haptic information. The task requires that the two sides coordinate with each other, in real-time, to balance the ball at the target. We found that with training the completion time and number of velocity peaks of the ball decreased, and that participants gradually became consistent in their braking strategy. Moreover we found that the presence of haptic information improved the performance (decreased completion time) and led to an increase in overall cooperative movements. Overall, our results show that humans can better coordinate with one another when haptic feedback is available. These results also highlight the likely importance of haptic communication in human-robot physical interaction, both as a tool to infer human intentions and to make the robot behaviour interpretable to humans.
翻訳日:2022-03-03 16:07:54 公開日:2022-03-02
# 最適輸送問題の解法のための高速化確率アルゴリズム

An Accelerated Stochastic Algorithm for Solving the Optimal Transport Problem ( http://arxiv.org/abs/2203.00813v1 )

ライセンス: Link先を確認
Yiling Xie, Yiling Luo, Xiaoming Huo(参考訳) 本研究では,2つの離散分布間の最適移動量(ot)問題を解くために,分散還元法(pdasgd)を用いた主元-双進加速度確率勾配降下法を提案する。 PDASGDは複数の離散分布のWasserstein Barycenter(WB)の計算にも利用できる。 OTとWBのいずれの場合も、提案アルゴリズムは文学において最もよく知られた収束率(計算複雑性の順序という形で)を享受する。 PDASGDは確率的な性質のため、本質的に実装が容易である:イテレーション毎の計算は他の非確率的な計算よりもはるかに高速である。 合成データと実データの両方について数値実験を行い,pdasgdの効率改善を実証した。

We propose a novel accelerated stochastic algorithm -- primal-dual accelerated stochastic gradient descent with variance reduction (PDASGD) -- for solving the optimal transport (OT) problem between two discrete distributions. PDASGD can also be utilized to compute for the Wasserstein barycenter (WB) of multiple discrete distributions. In both the OT and WB cases, the proposed algorithm enjoys the best-known convergence rate (in the form of order of computational complexity) in the literature. PDASGD is easy to implement in nature, due to its stochastic property: computation per iteration can be much faster than other non-stochastic counterparts. We carry out numerical experiments on both synthetic and real data; they demonstrate the improved efficiency of PDASGD.
翻訳日:2022-03-03 16:07:05 公開日:2022-03-02
# スパイクウィグナー行列における対数度比の漸近正規性と弱検出の基本限界

Asymptotic Normality of Log Likelihood Ratio and Fundamental Limit of the Weak Detection for Spiked Wigner Matrices ( http://arxiv.org/abs/2203.00821v1 )

ライセンス: Link先を確認
Hye Won Chung, Jiho Lee, Ji Oon Lee(参考訳) ランクワンスパイクされたウィグナーモデルにおける信号の存在を検出する問題を考える。 先行してラデマッハから信号が引き出されると仮定すると、スパイクされたモデルとヌルモデルとの対数確率比は、信号対雑音比が一定の閾値以下であるときにガウスに収束する。 また, 限界ガウスの平均と分散から, type-i 誤差の和とラピエーション比テストの type-ii 誤差の和の極限を計算する。

We consider the problem of detecting the presence of a signal in a rank-one spiked Wigner model. Assuming that the signal is drawn from the Rademacher prior, we prove that the log likelihood ratio of the spiked model against the null model converges to a Gaussian when the signal-to-noise ratio is below a certain threshold. From the mean and the variance of the limiting Gaussian, we also compute the limit of the sum of the Type-I error and the Type-II error of the likelihood ratio test.
翻訳日:2022-03-03 16:06:52 公開日:2022-03-02
# Faith-Shap: The Faithful Shapley Shapley Interaction Index

Faith-Shap: The Faithful Shapley Shapley Interaction Index ( http://arxiv.org/abs/2203.00870v1 )

ライセンス: Link先を確認
Che-Ping Tsai, Chih-Kuan Yeh, Pradeep Ravikumar(参考訳) 当初、連立ゲームにおける個々のプレイヤーへの属性を割り当てるために設計されたシェープ値は、ブラックボックス機械学習モデルの入力機能への属性を提供するための説明可能な機械学習において、一般的なアプローチとなっている。 シャプリー値の重要な魅力は、非常に自然な公理的性質を一意的に満たしていることである。 しかし、Shapley値を拡張して、個々のプレイヤーではなく相互作用への帰属を割り当てることは、非自明である: 元のShapley値に対する自然な公理の集合として、相互作用のコンテキストに拡張され、もはやユニークな相互作用インデックスは指定されない。 したがって、多くの提案は、一意な相互作用指標を得るために効率の重要な公理を犠牲にしながら、付加的な「自然な」公理を導入する。 本研究では, 相反公理を導入するのではなく, 擬似ブーリアン連立ゲーム値関数に対する最も忠実な線形近似の係数としてシャプリー値の観点を採用する。 線型を$\ell$-order多項式近似に拡張することで、忠実な相互作用指数の一般族を定義することができる。 さらに、標準個々のシャプリー公理(ダミー、対称性、線型性、効率)の相互作用拡張を満たすために忠実な相互作用指標を要求することにより、シャプリー値の相互作用への自然な一般化として、Fith-Shapを示すユニークなFithfulShapley相互作用指数が得られることを示す。 次に,前述した相互作用指標との信頼関係の対比を行い,その興味深い代数的性質についてさらに検討する。 我々はさらに,いくつかの説明的実験を通じて,信頼感を計算し,さらに定性的な洞察を与える計算効率を示す。

Shapley values, which were originally designed to assign attributions to individual players in coalition games, have become a commonly used approach in explainable machine learning to provide attributions to input features for black-box machine learning models. A key attraction of Shapley values is that they uniquely satisfy a very natural set of axiomatic properties. However, extending the Shapley value to assigning attributions to interactions rather than individual players, an interaction index, is non-trivial: as the natural set of axioms for the original Shapley values, extended to the context of interactions, no longer specify a unique interaction index. Many proposals thus introduce additional less "natural" axioms, while sacrificing the key axiom of efficiency, in order to obtain unique interaction indices. In this work, rather than introduce additional conflicting axioms, we adopt the viewpoint of Shapley values as coefficients of the most faithful linear approximation to the pseudo-Boolean coalition game value function. By extending linear to $\ell$-order polynomial approximations, we can then define the general family of faithful interaction indices}. We show that by additionally requiring the faithful interaction indices to satisfy interaction-extensio ns of the standard individual Shapley axioms (dummy, symmetry, linearity, and efficiency), we obtain a unique FaithfulShapley Interaction index, which we denote Faith-Shap, as a natural generalization of the Shapley value to interactions. We then provide some illustrative contrasts of Faith-Shap with previously proposed interaction indices, and further investigate some of its interesting algebraic properties. We further show the computational efficiency of computing Faith-Shap, together with some additional qualitative insights, via some illustrative experiments.
翻訳日:2022-03-03 16:04:34 公開日:2022-03-02
# ランダムグループフェアランキングのサンプリング

Sampling Random Group Fair Rankings ( http://arxiv.org/abs/2203.00887v1 )

ライセンス: Link先を確認
Sruthi Gorantla, Amit Deshpande, Anand Louis(参考訳) 本稿では,異なる敏感な集団の項目のランクリストをマージするランダム化グループフェアランキングの問題を考察し,上位階層における各グループの表示における下層と上層の境界を満たしながら検討する。 ランダム化されたグループフェアランキングの定式化は、暗黙のバイアス、不完全関連情報、あるいは関連スコアやユーティリティ値の代わりに順序付けのみを利用できる場合でも有効です。 公理的アプローチをとり、一貫性と公平性公理の自然な集合を満たすランダム群フェアランキングをサンプリングするために、一意な分布 $\mathcal{d}$ が存在することを示す。 さらに、$\mathcal{d}$ は各ランクのすべてのグループの表現制約を満たすが、決定論的ランキングでは満足できない特徴である。 ランダム群フェアランキングを$\mathcal{D}$からサンプリングする3つのアルゴリズムを提案する。 最初のアルゴリズムは、グループ数で指数関数的に、正確に$\mathcal{d}$からランクを抽出します。 第2のアルゴリズムは、$\mathcal{d}$からランダムグループフェアランキングを正確にサンプリングし、各グループの表現における上界と下界の差が小さい場合、第1のアルゴリズムよりも高速である。 我々の第3のアルゴリズムは、分布 $\epsilon$-close から $\mathcal{D}$ に全変動距離でランク付けし、全ての入力パラメータのランニング時間多項式と、すべてのグループに対して上界と下界の表現制約の間に大きなギャップがある場合の1/\epsilon$ を予想している。 我々は,実世界のデータセット上の上位ランクにおけるグループフェアネスと各ランクの表現について,上記のアルゴリズムの保証を実験的に検証する。

In this paper, we consider the problem of randomized group fair ranking that merges given ranked list of items from different sensitive demographic groups while satisfying given lower and upper bounds on the representation of each group in the top ranks. Our randomized group fair ranking formulation works even when there is implicit bias, incomplete relevance information, or when only ordinal ranking is available instead of relevance scores or utility values. We take an axiomatic approach and show that there is a unique distribution $\mathcal{D}$ to sample a random group fair ranking that satisfies a natural set of consistency and fairness axioms. Moreover, $\mathcal{D}$ satisfies representation constraints for every group at every rank, a characteristic that cannot be satisfied by any deterministic ranking. We propose three algorithms to sample a random group fair ranking from $\mathcal{D}$. Our first algorithm samples rankings from $\mathcal{D}$ exactly, in time exponential in the number of groups. Our second algorithm samples random group fair rankings from $\mathcal{D}$ exactly and is faster than the first algorithm when the gap between upper and lower bounds on the representation for each group is small. Our third algorithm samples rankings from a distribution $\epsilon$-close to $\mathcal{D}$ in total variation distance, and has expected running time polynomial in all input parameters and $1/\epsilon$ when there is a large gap between upper and lower bound representation constraints for all the groups. We experimentally validate the above guarantees of our algorithms for group fairness in top ranks and representation in every rank on real-world data sets.
翻訳日:2022-03-03 16:04:00 公開日:2022-03-02
# MIAShield: 会員の事前排除による会員推測攻撃の防止

MIAShield: Defending Membership Inference Attacks via Preemptive Exclusion of Members ( http://arxiv.org/abs/2203.00915v1 )

ライセンス: Link先を確認
Ismat Jarin and Birhanu Eshete(参考訳) メンバーシップ推論攻撃(mias)において、敵はモデルの予測を観察し、サンプルがモデルのトレーニングデータの一部であるかどうかを判断する。 既存のMIA防御は、強い正規化、知識蒸留、信頼性マスキング、あるいは差分プライバシーを通じて、ターゲットサンプルの存在を隠蔽する。 そこで我々は,MIAShieldを提案する。MIAShieldは,メンバーの存在を隠蔽する代わりに,メンバーサンプルのプリエンプティブ排除に基づく新しいMIAディフェンスである。 ミアシエルドの鍵となる洞察は、モデルの有用性を損なうことなく予測時に予め除外することにより、ターゲットサンプルの存在から生じる強いメンバーシップ信号の弱化である。 そこで我々は,モデル信頼度,正確か近似的なサンプルシグネチャ,および学習に基づくメンバーデータポイントの除外を利用した,先入観的排除法を設計し,評価する。 実用上、MIAShieldはトレーニングデータを非結合サブセットに分割し、各サブセットをトレーニングしてモデルのアンサンブルを構築する。 サブセットの解離は、対象のサンプルが1つのサブセットに属することを保証し、プリエンプティブな除外ゴールを促進するためにサンプルを分離する。 3つのベンチマーク画像分類データセット上でMIAShieldを評価する。 我々は,MIAShieldが多岐にわたるMIAの会員推定(ランダムな推測)を効果的に緩和し,最先端の防衛技術と比較してはるかに優れたプライバシー利用トレードオフを実現し,適応的敵に対する耐性を保っていることを示す。

In membership inference attacks (MIAs), an adversary observes the predictions of a model to determine whether a sample is part of the model's training data. Existing MIA defenses conceal the presence of a target sample through strong regularization, knowledge distillation, confidence masking, or differential privacy. We propose MIAShield, a new MIA defense based on preemptive exclusion of member samples instead of masking the presence of a member. The key insight in MIAShield is weakening the strong membership signal that stems from the presence of a target sample by preemptively excluding it at prediction time without compromising model utility. To that end, we design and evaluate a suite of preemptive exclusion oracles leveraging model-confidence, exact or approximate sample signature, and learning-based exclusion of member data points. To be practical, MIAShield splits a training data into disjoint subsets and trains each subset to build an ensemble of models. The disjointedness of subsets ensures that a target sample belongs to only one subset, which isolates the sample to facilitate the preemptive exclusion goal. We evaluate MIAShield on three benchmark image classification datasets. We show that MIAShield effectively mitigates membership inference (near random guess) for a wide range of MIAs, achieves far better privacy-utility trade-off compared with state-of-the-art defenses, and remains resilient against an adaptive adversary.
翻訳日:2022-03-03 16:03:30 公開日:2022-03-02
# 短時間負荷予測のための動的注意付きES-dRNN

ES-dRNN with Dynamic Attention for Short-Term Load Forecasting ( http://arxiv.org/abs/2203.00937v1 )

ライセンス: Link先を確認
Slawek Smyl, Grzegorz Dudek, Pawe{\l} Pe{\l}ka(参考訳) 短期負荷予測(STLF)は、時系列の複雑な性質が複数の季節性やばらつきを表わすため、難しい問題である。 本稿では,指数的スムース化と拡張型リカレントニューラルネットワーク(ES-dRNN)と動的注意機構を組み合わせたハイブリッド予測モデルの拡張を提案する。 入力ベクトル成分の動的重み付けのための注意機構を実装した,新しいゲート型リカレントセル -- 注意型拡張リカレントセルを提案する。 最も関連するコンポーネントはより大きな重みに割り当てられ、その後動的に微調整される。 このアテンションメカニズムは、モデルが入力情報を選択するのに役立ち、適応時系列処理、クロスラーニング、多重拡張などのES-dRNNで実装された他のメカニズムとともに、確立された統計的および最先端の機械学習予測モデルと比較して、精度が大幅に向上する。 これは、35のヨーロッパ諸国のstlfに関する広範な実験研究で確認された。

Short-term load forecasting (STLF) is a challenging problem due to the complex nature of the time series expressing multiple seasonality and varying variance. This paper proposes an extension of a hybrid forecasting model combining exponential smoothing and dilated recurrent neural network (ES-dRNN) with a mechanism for dynamic attention. We propose a new gated recurrent cell -- attentive dilated recurrent cell, which implements an attention mechanism for dynamic weighting of input vector components. The most relevant components are assigned greater weights, which are subsequently dynamically fine-tuned. This attention mechanism helps the model to select input information and, along with other mechanisms implemented in ES-dRNN, such as adaptive time series processing, cross-learning, and multiple dilation, leads to a significant improvement in accuracy when compared to well-established statistical and state-of-the-art machine learning forecasting models. This was confirmed in the extensive experimental study concerning STLF for 35 European countries.
翻訳日:2022-03-03 16:03:03 公開日:2022-03-02
# GAP: 集約摂動を伴う微分プライベートグラフニューラルネットワーク

GAP: Differentially Private Graph Neural Networks with Aggregation Perturbation ( http://arxiv.org/abs/2203.00949v1 )

ライセンス: Link先を確認
Sina Sajadmanesh, Ali Shahin Shamsabadi, Aur\'elien Bellet, Daniel Gatica-Perez(参考訳) グラフニューラルネットワーク(GNN)は、各ノードの局所的近傍から情報を再帰的に集約することでノード表現を学習するグラフデータ用に設計された強力なモデルである。 しかしながら、予測グラフベースのアプリケーションにおける最先端のパフォーマンスにもかかわらず、近年の研究により、グラフデータが機密情報を含む場合、GNNは重大なプライバシー上の懸念を生じさせることが示されている。 そこで本研究では,差分プライバシー(DP)を用いたGNN学習の問題点について考察する。 我々は,GNNのアグリゲーション関数の出力にキャリブレーションされた確率ノイズを加えることで,ノードとエッジのプライバシを保護し,単一のエッジ(エッジレベルのプライバシ)や単一ノードとその隣のエッジ(ノードレベルのプライバシ)の存在を統計的に曖昧にする新たなGNNであるGAPを提案する。 モデルのフォワードパス毎にプライバシコストの蓄積を回避するために、私たちは、gnnアーキテクチャをプライベートラーニングの仕様に合わせて調整します。 特に,まず,近傍集約を逐次適用し,各集約ステップの出力を摂動させることで,プライベートアグリゲーションを事前計算する。 次に、ノード毎の分類タスクに対して、結果の摂動集約に対してディープニューラルネットワークをプライベートにトレーニングする。 GAPのこれまでのアプローチに対する大きな利点は、トレーニングのためだけでなく、トレーニングのプライバシ予算以外の追加コストなしで、エッジレベルとノードレベルのDPを推論時に保証することです。 R'enyi DPを用いてGAPの正式なプライバシー保証を理論的に分析する。 3つの実世界のグラフデータセットで実施した実証実験は、gapが適切なプライバシ-正確性トレードオフを達成し、既存のアプローチを大きく上回っていることを示している。

Graph Neural Networks (GNNs) are powerful models designed for graph data that learn node representation by recursively aggregating information from each node's local neighborhood. However, despite their state-of-the-art performance in predictive graph-based applications, recent studies have shown that GNNs can raise significant privacy concerns when graph data contain sensitive information. As a result, in this paper, we study the problem of learning GNNs with Differential Privacy (DP). We propose GAP, a novel differentially private GNN that safeguards the privacy of nodes and edges using aggregation perturbation, i.e., adding calibrated stochastic noise to the output of the GNN's aggregation function, which statistically obfuscates the presence of a single edge (edge-level privacy) or a single node and all its adjacent edges (node-level privacy). To circumvent the accumulation of privacy cost at every forward pass of the model, we tailor the GNN architecture to the specifics of private learning. In particular, we first precompute private aggregations by recursively applying neighborhood aggregation and perturbing the output of each aggregation step. Then, we privately train a deep neural network on the resulting perturbed aggregations for any node-wise classification task. A major advantage of GAP over previous approaches is that we guarantee edge-level and node-level DP not only for training, but also at inference time with no additional costs beyond the training's privacy budget. We theoretically analyze the formal privacy guarantees of GAP using R\'enyi DP. Empirical experiments conducted over three real-world graph datasets demonstrate that GAP achieves a favorable privacy-accuracy trade-off and significantly outperforms existing approaches.
翻訳日:2022-03-03 16:02:46 公開日:2022-03-02
# L4KDE: KinoDynamic Treeの拡張学習

L4KDE: Learning for KinoDynamic Tree Expansion ( http://arxiv.org/abs/2203.00975v1 )

ライセンス: Link先を確認
Tin Lai, Weiming Zhi, Tucker Hermans, Fabio Ramos(参考訳) キノダイナミック計画のためのKinoDynamic Tree Expansion (L4KDE) 法について述べる。 高速探索ランダムツリー(RRT)のような木に基づく計画手法は、連続的な状態空間の運動計画において、グローバルに最適な計画を見つけるための主要なアプローチである。 これらのアプローチの中心は、拡張木(tree-expansion)であり、新しいノードを拡張木に追加する手順である。 本研究では,木系計画のキノダイナミック変種について検討し,システム力学とキネマティック制約が知られている。 新しくサンプリングされた座標を接続するノードを素早く選択することに関心があるため、既存の手法ではサンプリングされた座標に遷移するコストの低いノードを見つけるために最適化できないのが普通である。 代わりに、座標間のユークリッド距離のようなメトリクスを使って、探索木に接続する候補ノードを選択する。 この問題に対処するためにL4KDEを提案する。 L4KDEはニューラルネットワークを使用してクエリ状態間の遷移コストを予測し、バッチで効率よく計算し、ほぼ確実に漸近的最適性を保証する一方で、一般的に使用されるヒューリスティックスよりもはるかに高い品質の遷移コストを見積もる。 本稿は,L4KDEが持つ様々な課題に対する性能改善を実証的に実証し,同じモデルクラスの異なるインスタンスをまたいで一般化する機能と,最新のツリーベースのモーションプランナのスイートを併用する機能について述べる。

We present the Learning for KinoDynamic Tree Expansion (L4KDE) method for kinodynamic planning. Tree-based planning approaches, such as rapidly exploring random tree (RRT), are the dominant approach to finding globally optimal plans in continuous state-space motion planning. Central to these approaches is tree-expansion, the procedure in which new nodes are added into an ever-expanding tree. We study the kinodynamic variants of tree-based planning, where we have known system dynamics and kinematic constraints. In the interest of quickly selecting nodes to connect newly sampled coordinates, existing methods typically cannot optimise to find nodes which have low cost to transition to sampled coordinates. Instead they use metrics like Euclidean distance between coordinates as a heuristic for selecting candidate nodes to connect to the search tree. We propose L4KDE to address this issue. L4KDE uses a neural network to predict transition costs between queried states, which can be efficiently computed in batch, providing much higher quality estimates of transition cost compared to commonly used heuristics while maintaining almost-surely asymptotic optimality guarantee. We empirically demonstrate the significant performance improvement provided by L4KDE on a variety of challenging system dynamics, with the ability to generalise across different instances of the same model class, and in conjunction with a suite of modern tree-based motion planners.
翻訳日:2022-03-03 16:02:14 公開日:2022-03-02
# プレトレーニングをANNからSNNへのブリッジとして再考

Rethinking Pretraining as a Bridge from ANNs to SNNs ( http://arxiv.org/abs/2203.01158v1 )

ライセンス: Link先を確認
Yihan Lin, Yifan Hu, Shiji Ma, Guoqo Li, Dongjie Yu(参考訳) スパイキングニューラルネットワーク(snn)は、脳にインスパイアされた典型的なモデルとして知られ、その特徴は、豊富な神経細胞のダイナミクス、多様なコーディングスキーム、低消費電力特性である。 高精度モデルを得る方法は、SNNの分野では常に主要な課題である。 現在、よく訓練されたニューラルネットワーク(ANN)をSNNに変換したり、SNNを直接訓練することで、変換されたSNNを得る2つの主要な方法が存在する。 しかしながら、変換されたSNNの推論時間は長すぎるが、SNNトレーニングは一般的に非常に費用がかかり非効率である。 本研究では,2つの異なるトレーニング手法の概念を,プレトレイン技術とBPベースの深部SNNトレーニング機構の助けを借りて組み合わせることで,新しいSNNトレーニングパラダイムを提案する。 提案するパラダイムは、SNNをトレーニングするためのより効率的なパイプラインであると考えています。 パイプラインには静的データ転送タスク用のパイプと動的データ転送タスク用のパイプが含まれている。 SOTAの結果は、大規模なイベント駆動データセットES-ImageNetで得られる。 トレーニングアクセラレーションでは、ImageNet-1Kでの1/10のトレーニング時間とES-ImageNetでの2/5のトレーニング時間と、新しいデータセットES-UCF101の時間精度ベンチマークを用いて、同様のLIF-SNNと同じ(あるいはそれ以上の)精度を達成する。 これらの実験結果は、ANNとSNNのパラメータ関数の類似性を明らかにし、このSNNトレーニングパイプラインの様々な可能性を示す。

Spiking neural networks (SNNs) are known as a typical kind of brain-inspired models with their unique features of rich neuronal dynamics, diverse coding schemes and low power consumption properties. How to obtain a high-accuracy model has always been the main challenge in the field of SNN. Currently, there are two mainstream methods, i.e., obtaining a converted SNN through converting a well-trained Artificial Neural Network (ANN) to its SNN counterpart or training an SNN directly. However, the inference time of a converted SNN is too long, while SNN training is generally very costly and inefficient. In this work, a new SNN training paradigm is proposed by combining the concepts of the two different training methods with the help of the pretrain technique and BP-based deep SNN training mechanism. We believe that the proposed paradigm is a more efficient pipeline for training SNNs. The pipeline includes pipeS for static data transfer tasks and pipeD for dynamic data transfer tasks. SOTA results are obtained in a large-scale event-driven dataset ES-ImageNet. For training acceleration, we achieve the same (or higher) best accuracy as similar LIF-SNNs using 1/10 training time on ImageNet-1K and 2/5 training time on ES-ImageNet and also provide a time-accuracy benchmark for a new dataset ES-UCF101. These experimental results reveal the similarity of the functions of parameters between ANNs and SNNs and also demonstrate the various potential applications of this SNN training pipeline.
翻訳日:2022-03-03 16:01:51 公開日:2022-03-02
# DCT-Former:離散コサイン変換による効率的な自己認識

DCT-Former: Efficient Self-Attention withDiscrete Cosine Transform ( http://arxiv.org/abs/2203.01178v1 )

ライセンス: Link先を確認
Carmelo Scribano, Giorgia Franchini, Marco Prato and Marko Bertogna(参考訳) トラスフォーマーアーキテクチャの導入以来、自然言語処理とコンピュータビジョンアプリケーションの両方において支配的なアーキテクチャとして登場した。 これは、メモリ消費と演算数の両方が増加し、$O(n^2)$、$n$は入力シーケンスの長さを表すので、非常に長いシーケンスのモデリングを必要とするアプリケーションを制限する。 この問題を緩和するための文献では、いくつかのアプローチが提案されているが、成功度は様々である。 我々のアイデアは、離散コサイン変換の特性を活用してアテンションモジュールの近似を導出するために、textit{lossy}データ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。 実験の広範なセクションでは,本手法が同一性能のメモリを消費しにくくし,推論時間を大幅に短縮することを示した。 これにより、特に組込みプラットフォーム上のリアルタイムコンテキストに適している。 さらに、我々の研究結果は、メモリフットプリントを削減したより広範なディープニューラルネットワークモデルの出発点となるかもしれないと仮定する。 実装はhttps://github.com/c scribano/DCT-Former- Publicで公開される。

Since their introduction the Trasformer architectures emerged as the dominating architectures for both natural language processing and, more recently, computer vision applications. An intrinsic limitation of this family of "fully-attentive" ; architectures arises from the computation of the dot-product attention, which grows both in memory consumption and number of operations as $O(n^2)$ where $n$ stands for the input sequence length, thus limiting the applications that require modeling very long sequences. Several approaches have been proposed so far in the literature to mitigate this issue, with varying degrees of success. Our idea takes inspiration from the world of \textit{lossy} data compression (such as the JPEG algorithm) to derive an approximation of the attention module by leveraging the properties of the Discrete Cosine Transform. An extensive section of experiments shows that our method takes up less memory for the same performance, while also drastically reducing inference time. This makes it particularly suitable in real-time contexts on embedded platforms. Moreover, we assume that the results of our research might serve as a starting point for a broader family of deep neural models with reduced memory footprint. The implementation will be made publicly available at https://github.com/c scribano/DCT-Former- Public
翻訳日:2022-03-03 16:00:26 公開日:2022-03-02
# 非iidデータを用いた非有界stale勾配を用いた効率的で安定なk-asynchronous federated learning

Towards Efficient and Stable K-Asynchronous Federated Learning with Unbounded Stale Gradients on Non-IID Data ( http://arxiv.org/abs/2203.01214v1 )

ライセンス: Link先を確認
Zihao Zhou, Yanan Li, Xuebin Ren, Shusen Yang(参考訳) フェデレーション学習(federated learning, fl)は,複数の参加者が生データをアップロードすることなく,グローバルなモデルを協調的にトレーニングできる,新たなプライバシ保護パラダイムである。 異なる参加者の異種コンピューティングと通信能力を考えると、非同期FLは同期FLにおけるストラグラー効果を回避でき、多くの参加者のシナリオに適応できる。 非同期flにおける不安定性と非iidデータの両方がモデルユーティリティを減少させる。 しかし、2つの問題の解の間には固有の矛盾が存在する。 つまり、安定度を緩和するには、より少ないが一貫した勾配を選択する必要があるが、非IIDデータに対処するにはより包括的な勾配を必要とする。 本稿では,このジレンマに対処するために,適応学習率(wkafl)を持つ2段階重み付き非同期flを提案する。 一貫性のある勾配を選択し、学習率を適応的に調整することにより、WKAFLは静的勾配を利用して非IIDデータの影響を緩和し、トレーニング速度、予測精度、トレーニング安定性の多面的向上を実現する。 また,WKAFLの非有界安定度と非IIDデータの影響を理解するために,非有界安定度を仮定して収束解析を行った。 ベンチマークと合成FLデータセットの両方に実装された実験は、WKAFLが既存のアルゴリズムよりも全体的なパフォーマンスが優れていることを示している。

Federated learning (FL) is an emerging privacy-preserving paradigm that enables multiple participants collaboratively to train a global model without uploading raw data. Considering heterogeneous computing and communication capabilities of different participants, asynchronous FL can avoid the stragglers effect in synchronous FL and adapts to scenarios with vast participants. Both staleness and non-IID data in asynchronous FL would reduce the model utility. However, there exists an inherent contradiction between the solutions to the two problems. That is, mitigating the staleness requires to select less but consistent gradients while coping with non-IID data demands more comprehensive gradients. To address the dilemma, this paper proposes a two-stage weighted $K$ asynchronous FL with adaptive learning rate (WKAFL). By selecting consistent gradients and adjusting learning rate adaptively, WKAFL utilizes stale gradients and mitigates the impact of non-IID data, which can achieve multifaceted enhancement in training speed, prediction accuracy and training stability. We also present the convergence analysis for WKAFL under the assumption of unbounded staleness to understand the impact of staleness and non-IID data. Experiments implemented on both benchmark and synthetic FL datasets show that WKAFL has better overall performance compared to existing algorithms.
翻訳日:2022-03-03 16:00:07 公開日:2022-03-02
# 逆数生成ネットワークの非線形モーダル解析への応用について

On the application of generative adversarial networks for nonlinear modal analysis ( http://arxiv.org/abs/2203.01229v1 )

ライセンス: Link先を確認
G. Tsialiamanis, M.D. Champneys, N. Dervilis, D.J. Wagg, K. Worden(参考訳) 線形様相解析は構造物の設計と解析に有用で効果的なツールである。 しかし、非線形モーダル解析の包括的基盤は開発されていない。 本研究では,非線形モード解析を行うための機械学習手法を提案する。 このスキームは、潜む「モーダル」空間から自然座標空間への1対1のマッピングを定義することに集中し、モード形状の直交性も記述する。 このマッピングは、最近開発されたサイクル一貫性のある生成対向ネットワーク(cycle-GAN)と、所望の直交性を維持することを目的としたニューラルネットワークの集合を用いて達成される。 本手法は,立方非線形性および自由度が異なる構造物のシミュレーションデータと,カラムバマン非線形性を用いた実験3自由度データについて検証した。 その結果, 'モード' を分離する手法の効率性が明らかになった。 この手法は非線形重ね合わせ関数も提供しており、ほとんどの場合非常に精度が高い。

Linear modal analysis is a useful and effective tool for the design and analysis of structures. However, a comprehensive basis for nonlinear modal analysis remains to be developed. In the current work, a machine learning scheme is proposed with a view to performing nonlinear modal analysis. The scheme is focussed on defining a one-to-one mapping from a latent `modal' space to the natural coordinate space, whilst also imposing orthogonality of the mode shapes. The mapping is achieved via the use of the recently-developed cycle-consistent generative adversarial network (cycle-GAN) and an assembly of neural networks targeted on maintaining the desired orthogonality. The method is tested on simulated data from structures with cubic nonlinearities and different numbers of degrees of freedom, and also on data from an experimental three-degree-of-free dom set-up with a column-bumper nonlinearity. The results reveal the method's efficiency in separating the `modes'. The method also provides a nonlinear superposition function, which in most cases has very good accuracy.
翻訳日:2022-03-03 15:59:44 公開日:2022-03-02
# 低層マルチキャリブレーション

Low-Degree Multicalibration ( http://arxiv.org/abs/2203.01255v1 )

ライセンス: Link先を確認
Parikshit Gopalan, Michael P. Kim, Mihir Singhal, Shengjia Zhao(参考訳) アルゴリズム的公正の概念として導入されたマルチキャリブレーションは、その本来の意図をはるかに超越した、強力で多目的な概念であることが証明されている。 この厳密な概念、つまり、予測は、相互に交差するサブ集団の豊富なクラスにわたって適切に校正されるという概念は、その強力な保証をコストで提供します。 対照的に、緩和された多重精度の概念はより効率的に実現できるが、多重校正の最も望ましい性質の多くは、多重精度のみを仮定して保証することはできない。 この緊張は、重要な疑問を提起する:マルチキャリブレーションスタイルの保証で、複数の正確性を備えたコストで予測子を学べるだろうか? 本研究では,低Degreeマルチキャリブレーションの研究を定義・開始する。 低次多重化 (low-degree multicalibration) は、高まりつつある多群フェアネスの概念の階層を定義する。 我々の主な技術的貢献は、正当性と正確性に関連する多重校正の鍵となる性質が、実際には低次特性として表されることを示している。 重要なこととして、低次多重校正は完全多重校正よりもはるかに効率的であることを示す。 多クラス設定では、低次多重校正を達成するためのサンプルの複雑さは、完全な多重校正よりも指数関数的に(クラス数において)改善される。 我々の研究は、低次多重校正がスイートスポット、ペアリング計算とサンプル効率を強い公正性と精度保証で表しているという説得力のある証拠を提示する。

Introduced as a notion of algorithmic fairness, multicalibration has proved to be a powerful and versatile concept with implications far beyond its original intent. This stringent notion -- that predictions be well-calibrated across a rich class of intersecting subpopulations -- provides its strong guarantees at a cost: the computational and sample complexity of learning multicalibrated predictors are high, and grow exponentially with the number of class labels. In contrast, the relaxed notion of multiaccuracy can be achieved more efficiently, yet many of the most desirable properties of multicalibration cannot be guaranteed assuming multiaccuracy alone. This tension raises a key question: Can we learn predictors with multicalibration-sty le guarantees at a cost commensurate with multiaccuracy? In this work, we define and initiate the study of Low-Degree Multicalibration. Low-Degree Multicalibration defines a hierarchy of increasingly-powerfu l multi-group fairness notions that spans multiaccuracy and the original formulation of multicalibration at the extremes. Our main technical contribution demonstrates that key properties of multicalibration, related to fairness and accuracy, actually manifest as low-degree properties. Importantly, we show that low-degree multicalibration can be significantly more efficient than full multicalibration. In the multi-class setting, the sample complexity to achieve low-degree multicalibration improves exponentially (in the number of classes) over full multicalibration. Our work presents compelling evidence that low-degree multicalibration represents a sweet spot, pairing computational and sample efficiency with strong fairness and accuracy guarantees.
翻訳日:2022-03-03 15:59:28 公開日:2022-03-02
# TAE: 半教師付き行動認識型軌道発生器と予測器

TAE: A Semi-supervised Controllable Behavior-aware Trajectory Generator and Predictor ( http://arxiv.org/abs/2203.01261v1 )

ライセンス: Link先を確認
Ruochen Jiao, Xiangguo Liu, Bowen Zheng, Dave Liang, and Qi Zhu(参考訳) 軌道生成と予測は、インテリジェントな車両のプランナー評価と意思決定において重要な役割を果たす2つの織り込み作業である。 既存の手法のほとんどは2つのうちの1つに焦点を当てており、重要なシナリオ拡張と安全な計画のための限られた情報のみを含む最終生成/予測軌道を直接出力するように最適化されている。 本研究では、半教師付き対向オートエンコーダと輸送分野におけるドメイン知識を用いて、ドライバーの攻撃性や意図といった行動を明確にモデル化する行動認識型トラジェクトリオートエンコーダ(TAE)を提案する。 我々のモデルは、統一されたアーキテクチャにおける軌跡生成と予測に対処し、両方のタスクの利点を享受する:モデルは、多様な制御可能かつ現実的な軌跡を生成でき、安全クリティカルかつ長期のシナリオにおけるプランナー最適化を強化し、決定のための最終的な軌跡に加えて、臨界行動の予測を提供することができる。 実験の結果, 軌道生成と予測の両方において有望な性能が得られることがわかった。

Trajectory generation and prediction are two interwoven tasks that play important roles in planner evaluation and decision making for intelligent vehicles. Most existing methods focus on one of the two and are optimized to directly output the final generated/predicted trajectories, which only contain limited information for critical scenario augmentation and safe planning. In this work, we propose a novel behavior-aware Trajectory Autoencoder (TAE) that explicitly models drivers' behavior such as aggressiveness and intention in the latent space, using semi-supervised adversarial autoencoder and domain knowledge in transportation. Our model addresses trajectory generation and prediction in a unified architecture and benefits both tasks: the model can generate diverse, controllable and realistic trajectories to enhance planner optimization in safety-critical and long-tailed scenarios, and it can provide prediction of critical behavior in addition to the final trajectories for decision making. Experimental results demonstrate that our method achieves promising performance on both trajectory generation and prediction.
翻訳日:2022-03-03 15:59:04 公開日:2022-03-02
# STEADY:間接観測からの同時状態推定とダイナミクス学習

STEADY: Simultaneous State Estimation and Dynamics Learning from Indirect Observations ( http://arxiv.org/abs/2203.01299v1 )

ライセンス: Link先を確認
Jiayi Wei, Jarrett Holtz, Isil Dillig, Joydeep Biswas(参考訳) 正確なキノダイナミクスモデルはオフロードナビゲーションや高速運転といった多くのロボット工学応用において重要な役割を果たす。 しかし、確率的キノダイナミックモデルの学習における最先端の多くのアプローチは、ラベル付き入力/出力の例としてロボットの状態の正確な測定を必要とする。 本研究では, 同時状態推定と動的学習を併用して, 雑音および間接観測から神経確率キノダイナミックモデルを学ぶ新しい手法を提案する。 提案手法は, 予測最大化ループにおいて, E Stepが粒子フィルタリングを用いて後方状態軌跡をサンプリングし, M Stepが確率勾配法による標本軌跡との整合性を高めるため, キノダイナミックモデルを反復的に改善する。 シミュレーションと実世界のベンチマークの両方に対するアプローチを評価し,いくつかのベースライン手法と比較した。 提案手法は, 精度が向上するだけでなく, 観測音に対する頑健性も向上し, 他の多くのロボティクスアプリケーションの性能向上を期待できる。

Accurate kinodynamic models play a crucial role in many robotics applications such as off-road navigation and high-speed driving. Many state-of-the-art approaches in learning stochastic kinodynamic models, however, require precise measurements of robot states as labeled input/output examples, which can be hard to obtain in outdoor settings due to limited sensor capabilities and the absence of ground truth. In this work, we propose a new technique for learning neural stochastic kinodynamic models from noisy and indirect observations by performing simultaneous state estimation and dynamics learning. The proposed technique iteratively improves the kinodynamic model in an expectation-maximiza tion loop, where the E Step samples posterior state trajectories using particle filtering, and the M Step updates the dynamics to be more consistent with the sampled trajectories via stochastic gradient ascent. We evaluate our approach on both simulation and real-world benchmarks and compare it with several baseline techniques. Our approach not only achieves significantly higher accuracy but is also more robust to observation noise, thereby showing promise for boosting the performance of many other robotics applications.
翻訳日:2022-03-03 15:58:43 公開日:2022-03-02
# TransDARC:潜時空間特徴校正を用いたトランスフォーマーに基づくドライバ動作認識

TransDARC: Transformer-based Driver Activity Recognition with Latent Space Feature Calibration ( http://arxiv.org/abs/2203.00927v1 )

ライセンス: Link先を確認
Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen(参考訳) 従来のビデオに基づく人間の行動認識は、ディープラーニングの台頭と関連する顕著な進歩を経験してきたが、ドライバの行動理解という下流のタスクに関しては、この効果は遅かった。 運転者の気晴らしを識別し、運転者の意図を予測し、より便利な人間と車両の対話につながるため、キャビン内の状況を理解することはadvanced driving assistant system(adas)にとって不可欠である。 同時に、運転者の観察システムは、異なる運転状態の粒度を捉える必要があるため、かなりの障害に直面し、一方、そのような二次活動の複雑さは、自動化の増大と運転の自由の増大とともに増大する。 さらに、センサ配置やタイプが車両ごとに異なり、データ駆動型モデルの実際の配備において実質的な障害となるため、トレーニングセットのものと同一の条件下では、モデルが展開されることは滅多にない。 本研究では,視覚変換器に基づく2次運転動作認識のための新しい視覚ベースのフレームワークと,付加的な特徴分布キャリブレーションモジュールを提案する。 このモジュールは、新しいデータ外観(例えばセンサーの変更)や一般的な特徴品質への一般化を改善するために、機能レベルでのトレーニングセットの強化と多様化を行う。 我々のフレームワークは、あらゆる粒度の公的なDrive&Actベンチマークの最先端結果を上回る、常により良い認識率をもたらす。 私たちのコードはhttps://github.com/K Peng9510/TransDARCで公開されます。

Traditional video-based human activity recognition has experienced remarkable progress linked to the rise of deep learning, but this effect was slower as it comes to the downstream task of driver behavior understanding. Understanding the situation inside the vehicle cabin is essential for Advanced Driving Assistant System (ADAS) as it enables identifying distraction, predicting driver's intent and leads to more convenient human-vehicle interaction. At the same time, driver observation systems face substantial obstacles as they need to capture different granularities of driver states, while the complexity of such secondary activities grows with the rising automation and increased driver freedom. Furthermore, a model is rarely deployed under conditions identical to the ones in the training set, as sensor placements and types vary from vehicle to vehicle, constituting a substantial obstacle for real-life deployment of data-driven models. In this work, we present a novel vision-based framework for recognizing secondary driver behaviours based on visual transformers and an additional augmented feature distribution calibration module. This module operates in the latent feature-space enriching and diversifying the training set at feature-level in order to improve generalization to novel data appearances, (e.g., sensor changes) and general feature quality. Our framework consistently leads to better recognition rates, surpassing previous state-of-the-art results of the public Drive&Act benchmark on all granularity levels. Our code will be made publicly available at https://github.com/K Peng9510/TransDARC.
翻訳日:2022-03-03 15:58:24 公開日:2022-03-02
# Sketched RT3D:毎秒数十億光子を再構築する方法

Sketched RT3D: How to reconstruct billions of photons per second ( http://arxiv.org/abs/2203.00952v1 )

ライセンス: Link先を確認
Juli\'an Tachella and Michael P. Sheehan and Mike E. Davies(参考訳) lidar(single-photon light detection and ranging)は、3dシーンの深さと強度情報をキャプチャする。 観測された光子からのシーンの再構成は、背景照明源に関連するスプリアス検出のために難しい課題である。 この問題に対処するため,自然景観の空間的規則性を利用して安定的な復元を行う3次元再構成アルゴリズムが多数存在する。 しかし、既存のアルゴリズムの多くは、記録された光子数に比例する計算量とメモリの複雑さを持っている。 この複雑さは、毎秒数十億光子を獲得している現代のlidarアレイのリアルタイム展開を妨げる。 近年のライダースケッチフレームワークを活用することで,光子情報の小さなスケッチのみを必要とするように,既存の再構成アルゴリズムを修正可能であることを示す。 特に,ポイントクラウドデノイザを用いて空間的に規則化された再構成を行う,最新の最先端アルゴリズムのスケッチ版を提案する。 実際のlidarデータセットで実施された一連の実験は、完全なデータケースと同じ復元性能を達成しながら、実行時間とメモリ要求を大幅に削減することを示している。

Single-photon light detection and ranging (lidar) captures depth and intensity information of a 3D scene. Reconstructing a scene from observed photons is a challenging task due to spurious detections associated with background illumination sources. To tackle this problem, there is a plethora of 3D reconstruction algorithms which exploit spatial regularity of natural scenes to provide stable reconstructions. However, most existing algorithms have computational and memory complexity proportional to the number of recorded photons. This complexity hinders their real-time deployment on modern lidar arrays which acquire billions of photons per second. Leveraging a recent lidar sketching framework, we show that it is possible to modify existing reconstruction algorithms such that they only require a small sketch of the photon information. In particular, we propose a sketched version of a recent state-of-the-art algorithm which uses point cloud denoisers to provide spatially regularized reconstructions. A series of experiments performed on real lidar datasets demonstrates a significant reduction of execution time and memory requirements, while achieving the same reconstruction performance than in the full data case.
翻訳日:2022-03-03 15:57:59 公開日:2022-03-02
# (参考訳) $\texttt{py-irt}$: python用のスケーラブルな項目応答理論ライブラリ [全文訳有]

$\texttt{py-irt}$: A Scalable Item Response Theory Library for Python ( http://arxiv.org/abs/2203.01282v1 )

ライセンス: CC BY 4.0
John P. Lalor, Pedro Rodriguez(参考訳) $\texttt{py-irt}$はベイズアイテム応答理論(irt)モデルに適合するpythonライブラリである。 $\texttt{py-irt}$ は被写体とアイテムの潜在特性を推定し、理想点モデルと同様にirtタスクでの使用に適している。 $\texttt{py-irt}$はPyroフレームワークとPyTorchフレームワーク上に構築されており、GPUアクセラレーショントレーニングを使用して大規模なデータセットにスケールする。 コード、ドキュメント、例はhttps://github.com/n d-ball/py-irt.comにある。 $\texttt{py-irt}$は、GitHubページまたはPython Package Index (PyPI)からインストールできる。

$\texttt{py-irt}$ is a Python library for fitting Bayesian Item Response Theory (IRT) models. $\texttt{py-irt}$ estimates latent traits of subjects and items, making it appropriate for use in IRT tasks as well as ideal-point models. $\texttt{py-irt}$ is built on top of the Pyro and PyTorch frameworks and uses GPU-accelerated training to scale to large data sets. Code, documentation, and examples can be found at https://github.com/n d-ball/py-irt. $\texttt{py-irt}$ can be installed from the GitHub page or the Python Package Index (PyPI).
翻訳日:2022-03-03 15:56:33 公開日:2022-03-02
# Aggregated Pyramid Vision Transformer:畳み込みのない画像認識のための分割変換マージ戦略

Aggregated Pyramid Vision Transformer: Split-transform-merg e Strategy for Image Recognition without Convolutions ( http://arxiv.org/abs/2203.00960v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Ting-Yu Lin, Jen-Shiun Chiang, Jia-Hao Jian, Yu-Shian Lin, and Liu-Rui-Yi Huang(参考訳) 自然言語処理の分野でのトランスフォーマの成果により、エンコーダ・デコーダとトランスフォーマの注意機構がコンピュータビジョンに応用されている。 近年、コンピュータビジョン(画像分類、オブジェクト検出、セマンティックセグメンテーションなど)の複数のタスクにおいて、最先端の畳み込みニューラルネットワークがTransformerの概念を導入している。 このことは、Transformerが画像認識の分野で優れていることを証明している。 視覚トランスフォーマーが提案された後、さらに多くの作品が畳み込み層を完全に置き換えるためにセルフ・アテンションを使い始めた。 この研究は、Vision Transformerをピラミッドアーキテクチャと組み合わせ、Split-transform-merg eを使ってグループエンコーダを提案し、ネットワークアーキテクチャAggregated Pyramid Vision Transformer (APVT) と名付けた。 coco 2017データセットでcifar-10データセットで画像分類タスクとオブジェクト検出タスクを実行する。 バックボーンとしてTransformerを使用する他のネットワークアーキテクチャと比較して、APVTは計算コストを削減しつつ優れた結果が得られる。 この改良戦略が将来のコンピュータビジョンにおけるTransformer研究の参考になることを期待している。

With the achievements of Transformer in the field of natural language processing, the encoder-decoder and the attention mechanism in Transformer have been applied to computer vision. Recently, in multiple tasks of computer vision (image classification, object detection, semantic segmentation, etc.), state-of-the-art convolutional neural networks have introduced some concepts of Transformer. This proves that Transformer has a good prospect in the field of image recognition. After Vision Transformer was proposed, more and more works began to use self-attention to completely replace the convolutional layer. This work is based on Vision Transformer, combined with the pyramid architecture, using Split-transform-merg e to propose the group encoder and name the network architecture Aggregated Pyramid Vision Transformer (APVT). We perform image classification tasks on the CIFAR-10 dataset and object detection tasks on the COCO 2017 dataset. Compared with other network architectures that use Transformer as the backbone, APVT has excellent results while reducing the computational cost. We hope this improved strategy can provide a reference for future Transformer research in computer vision.
翻訳日:2022-03-03 15:42:50 公開日:2022-03-02
# イベントベースビジュアルオドメトリーの非同期最適化

Asynchronous Optimisation for Event-based Visual Odometry ( http://arxiv.org/abs/2203.01037v1 )

ライセンス: Link先を確認
Daqi Liu, Alvaro Parra, Yasir Latif, Bo Chen, Tat-Jun Chin and Ian Reid(参考訳) イベントカメラは、低レイテンシと高ダイナミックレンジのために、ロボット知覚の新しい可能性を開く。 一方、イベントカメラの利点をフル活用する効果的なイベントベースビジョンアルゴリズムの開発は現在も進行中である。 本稿では,vo(event-based visual odometry)に着目した。 既存のイベント駆動型VOパイプラインは、非同期にイベントデータを処理するために、連続時間表現を採用しているが、既知のマップを仮定するか、カメラを平面軌道に制限するか、あるいは他のセンサーをシステムに統合する。 マップフリーなイベントオンリーのモノクロVOをSE(3)で実現するために,非同期な構造-移動最適化バックエンドを提案する。 この定式化は、非パラメトリックガウス過程運動モデリングと漸進最大後方推定を含む原理的合同最適化問題に基礎を置いている。 高速インクリメンタルな計算エンジンを用いて、入ってくるイベント毎にカメラの軌跡を推論する。 正確な時間的蓄積に依存するフレームベースの手法と比較して,非同期バックエンドの堅牢性を示す。

Event cameras open up new possibilities for robotic perception due to their low latency and high dynamic range. On the other hand, developing effective event-based vision algorithms that fully exploit the beneficial properties of event cameras remains work in progress. In this paper, we focus on event-based visual odometry (VO). While existing event-driven VO pipelines have adopted continuous-time representations to asynchronously process event data, they either assume a known map, restrict the camera to planar trajectories, or integrate other sensors into the system. Towards map-free event-only monocular VO in SE(3), we propose an asynchronous structure-from-motio n optimisation back-end. Our formulation is underpinned by a principled joint optimisation problem involving non-parametric Gaussian Process motion modelling and incremental maximum a posteriori inference. A high-performance incremental computation engine is employed to reason about the camera trajectory with every incoming event. We demonstrate the robustness of our asynchronous back-end in comparison to frame-based methods which depend on accurate temporal accumulation of measurements.
翻訳日:2022-03-03 15:42:28 公開日:2022-03-02
# 古文書の画像に基づく資料分析

Image-based material analysis of ancient historical documents ( http://arxiv.org/abs/2203.01042v1 )

ライセンス: Link先を確認
Thomas Reynolds, Maruf A. Dhali, Lambert Schomaker(参考訳) 研究者は、筆記面の物理的資料に基づいて古文書を分類するために、継続的に確証試験を行う。 しかし、これらのテストは、しばしば現場で行われ、実際に原稿オブジェクトにアクセスする必要がある。 手続きにはかなりの時間と費用がかかり、原稿にダメージを与える可能性がある。 デジタル画像のみを用いて文書を分類する手法の開発は非常に有用かつ効率的である。 そこで本研究では,有名な歴史資料集『死海巻』の画像を用いて,写本の資料を分類する新しい手法を提案する。 提案する分類器は二次元フーリエ変換を用いて原稿表面内のパターンを同定する。 変換を用いた二項分類システムと多数決プロセスを組み合わせることは, この分類作業に有効であることが示されている。 このパイロットスタディは、パーチメントまたはパピルス材料から生成される限られた量の原稿に対して、最大97%の分類成功率を示す。 フーリエ空間グリッド表現に基づく特徴ベクトルは、同心のフーリエ空間フォーマットより優れていた。

Researchers continually perform corroborative tests to classify ancient historical documents based on the physical materials of their writing surfaces. However, these tests, often performed on-site, requires actual access to the manuscript objects. The procedures involve a considerable amount of time and cost, and can damage the manuscripts. Developing a technique to classify such documents using only digital images can be very useful and efficient. In order to tackle this problem, this study uses images of a famous historical collection, the Dead Sea Scrolls, to propose a novel method to classify the materials of the manuscripts. The proposed classifier uses the two-dimensional Fourier Transform to identify patterns within the manuscript surfaces. Combining a binary classification system employing the transform with a majority voting process is shown to be effective for this classification task. This pilot study shows a successful classification percentage of up to 97% for a confined amount of manuscripts produced from either parchment or papyrus material. Feature vectors based on Fourier-space grid representation outperformed a concentric Fourier-space format.
翻訳日:2022-03-03 15:42:12 公開日:2022-03-02
# 飛行時間深度画像からの教師なし異常検出

Unsupervised Anomaly Detection from Time-of-Flight Depth Images ( http://arxiv.org/abs/2203.01052v1 )

ライセンス: Link先を確認
Pascal Schneider, Jason Rambach, Bruno Mirbach, Didier Stricker(参考訳) video anomaly detection (vad)は、ビデオデータに異常なイベントを自動的に発見する問題に対処する。 現在のVADシステムが動作する主なデータモダリティは、モノクロまたはRGB画像である。 この文脈での深度データの利用は、他の多くのコンピュータビジョン研究領域において、深度画像が一般的な選択肢であり、安価な深度カメラハードウェアが利用可能になるにもかかわらず、まだほとんど調査されていない。 我々は,既存のオートエンコーダ方式の深度ビデオへの適用を評価し,損失関数への統合により,深度データの利用の利点をどのように活用できるかを提案する。 トレーニングは、追加のアノテーションを必要とせずに、通常のシーケンスを使用して教師なしで行われる。 本研究では,フォアグラウンドマスクを用いてシーン解析のための補助情報を簡易に抽出し,大規模な公開データセットの評価による異常検出性能に有効であることを示す。

Video anomaly detection (VAD) addresses the problem of automatically finding anomalous events in video data. The primary data modalities on which current VAD systems work on are monochrome or RGB images. Using depth data in this context instead is still hardly explored in spite of depth images being a popular choice in many other computer vision research areas and the increasing availability of inexpensive depth camera hardware. We evaluate the application of existing autoencoder-based methods on depth video and propose how the advantages of using depth data can be leveraged by integration into the loss function. Training is done unsupervised using normal sequences without need for any additional annotations. We show that depth allows easy extraction of auxiliary information for scene analysis in the form of a foreground mask and demonstrate its beneficial effect on the anomaly detection performance through evaluation on a large public dataset, for which we are also the first ones to present results on.
翻訳日:2022-03-03 15:41:57 公開日:2022-03-02
# colar: コンサルタントによる効果的なオンラインアクション検出

Colar: Effective and Efficient Online Action Detection by Consulting Exemplars ( http://arxiv.org/abs/2203.01057v1 )

ライセンス: Link先を確認
Le Yang, Junwei Han, Dingwen Zhang(参考訳) オンライン行動検出は近年研究の関心を惹きつけている。 現在のワークモデル 過去の依存関係をモデル化し、ビデオセグメント内のアクションの進化を知覚し、検出精度を向上させる未来を予測している。 しかし、既存のパラダイムはカテゴリレベルのモデリングを無視し、効率に十分な注意を払っていない。 カテゴリを考えると、その代表フレームには様々な特徴がある。 したがって、カテゴリレベルのモデリングは、時間依存モデリングに対する補完的なガイダンスを提供することができる。 本稿では,まずフレームと模範フレームの類似度を計測し,その類似度重みに基づいて模範特徴を集約する,効果的な模範解釈機構を開発する。 これはまた、類似度測定と特徴集約の両方が限られた計算を必要とするため、効率的なメカニズムである。 模範解釈機構に基づき, 歴史的フレームを模範として, 長期的依存関係を捉えることができ, カテゴリーレベルのモデリングを模範として代表フレームを模範として行うことができる。 カテゴリレベルのモデリングの相補性から,提案手法は軽量アーキテクチャを採用しているが,3つのベンチマークで新たなハイパフォーマンスを実現する。 さらに, 時空間ネットワークを用いてビデオフレームに対処し, 1分間のビデオの処理に9.8秒を要し, 同等の性能を実現する。

Online action detection has attracted increasing research interests in recent years. Current works model historical dependencies and anticipate future to perceive the action evolution within a video segment and improve the detection accuracy. However, the existing paradigm ignores category-level modeling and does not pay sufficient attention to efficiency. Considering a category, its representative frames exhibit various characteristics. Thus, the category-level modeling can provide complementary guidance to the temporal dependencies modeling. In this paper, we develop an effective exemplar-consultatio n mechanism that first measures the similarity between a frame and exemplary frames, and then aggregates exemplary features based on the similarity weights. This is also an efficient mechanism as both similarity measurement and feature aggregation require limited computations. Based on the exemplar-consultatio n mechanism, the long-term dependencies can be captured by regarding historical frames as exemplars, and the category-level modeling can be achieved by regarding representative frames from a category as exemplars. Due to the complementarity from the category-level modeling, our method employs a lightweight architecture but achieves new high performance on three benchmarks. In addition, using a spatio-temporal network to tackle video frames, our method spends 9.8 seconds to dispose of a one-minute video and achieves comparable performance.
翻訳日:2022-03-03 15:39:55 公開日:2022-03-02
# OVE6D:深度に基づく6次元オブジェクトポス推定のためのオブジェクトビューポイントエンコーディング

OVE6D: Object Viewpoint Encoding for Depth-based 6D Object Pose Estimation ( http://arxiv.org/abs/2203.01072v1 )

ライセンス: Link先を確認
Dingding Cai, Janne Heikkil\"a, Esa Rahtu(参考訳) 本稿では,単一深度画像と対象物マスクからモデルに基づく6次元オブジェクトのポーズ推定のための汎用フレームワークOVE6Dを提案する。 われわれのモデルはShapeNetから生成された純粋に合成されたデータを用いて訓練されており、既存のほとんどの方法とは異なり、微調整なしで新しい現実世界のオブジェクトをうまく一般化する。 6次元のポーズを視点に分解し、カメラの光軸まわりの面内回転と変換を行い、各成分を逐次的に推定する新しい軽量モジュールを導入することでこれを実現する。 結果として得られたネットワークは、データセット固有のトレーニングなしで、挑戦的なT-LESSとOccluded LINEMODデータセット上で優れたパフォーマンスを示しながら、4Mパラメータ未満である。 OVE6Dは、現実世界のトレーニングデータを用いて、個々のオブジェクトやデータセットに特化して訓練された、現代の深層学習に基づくポーズ推定手法よりも優れていることを示す。 実装と事前訓練されたモデルは公開されます。

This paper proposes a universal framework, called OVE6D, for model-based 6D object pose estimation from a single depth image and a target object mask. Our model is trained using purely synthetic data rendered from ShapeNet, and, unlike most of the existing methods, it generalizes well on new real-world objects without any fine-tuning. We achieve this by decomposing the 6D pose into viewpoint, in-plane rotation around the camera optical axis and translation, and introducing novel lightweight modules for estimating each component in a cascaded manner. The resulting network contains less than 4M parameters while demonstrating excellent performance on the challenging T-LESS and Occluded LINEMOD datasets without any dataset-specific training. We show that OVE6D outperforms some contemporary deep learning-based pose estimation methods specifically trained for individual objects or datasets with real-world training data. The implementation and the pre-trained model will be made publicly available.
翻訳日:2022-03-03 15:39:34 公開日:2022-03-02
# セマンティックセグメンテーションのためのCBNA(Continuous BatchNorm Adaptation)

Continual BatchNorm Adaptation (CBNA) for Semantic Segmentation ( http://arxiv.org/abs/2203.01074v1 )

ライセンス: Link先を確認
Marvin Klingner and Mouadh Ayache and Tim Fingscheidt(参考訳) 自動運転車の環境認識は、ドメインシフトの対象となるディープニューラルネットワーク(DNN)に大きく依存することが多いため、DNNデプロイメント時のパフォーマンスは大幅に低下する。 通常、この問題は、ソースとターゲットのドメインデータセットを同時にトレーニングしたアン教師なしのドメイン適応(UDA)アプローチや、オフラインでターゲットデータのみをソースフリーにすることで解決される。 本研究では、ソースフリーなUDAアプローチをさらに拡張し、セマンティックセグメンテーションの単一画像ベースで連続的かつオンライン対応可能なUDAを提案する。 したがって、本手法では、サプライヤ(ソースドメインでトレーニング)と現在の(ラベルなしターゲットドメイン)カメライメージからの事前トレーニングモデルのみを必要とする。 連続バッチノルム適応法(continual batchnorm adaptation, cbna)は,非教師なしの方法で対象領域画像を用いて,バッチ正規化層のソースドメイン統計を修飾する。 これにより、既存の作業とは対照的に、我々のアプローチは、ソースデータにアクセスすることなく、アルゴリズムの遅延なく、ほとんど計算オーバーヘッドなく、単一のイメージベースでDNNを継続的に改善するために適用することができる。 本手法は,セマンティクスセグメンテーションにおいて,多種多様なソース/ターゲットドメイン設定において一貫した有効性を示す。 この作業の一環として、私たちのコードは公開されます。

Environment perception in autonomous driving vehicles often heavily relies on deep neural networks (DNNs), which are subject to domain shifts, leading to a significantly decreased performance during DNN deployment. Usually, this problem is addressed by unsupervised domain adaptation (UDA) approaches trained either simultaneously on source and target domain datasets or even source-free only on target data in an offline fashion. In this work, we further expand a source-free UDA approach to a continual and therefore online-capable UDA on a single-image basis for semantic segmentation. Accordingly, our method only requires the pre-trained model from the supplier (trained in the source domain) and the current (unlabeled target domain) camera image. Our method Continual BatchNorm Adaptation (CBNA) modifies the source domain statistics in the batch normalization layers, using target domain images in an unsupervised fashion, which yields consistent performance improvements during inference. Thereby, in contrast to existing works, our approach can be applied to improve a DNN continuously on a single-image basis during deployment without access to source data, without algorithmic delay, and nearly without computational overhead. We show the consistent effectiveness of our method across a wide variety of source/target domain settings for semantic segmentation. As part of this work, our code will be made publicly available.
翻訳日:2022-03-03 15:39:19 公開日:2022-03-02
# 補完表現における特徴学習によるトップビューグリッドマップのライダーベースセマンティックセマンティックセグメンテーションの改善

Improving Lidar-Based Semantic Segmentation of Top-View Grid Maps by Learning Features in Complementary Representations ( http://arxiv.org/abs/2203.01151v1 )

ライセンス: Link先を確認
Frank Bieder, Maximilian Link, Simon Romanski, Haohao Hu, Christoph Stiller(参考訳) 本稿では、自律運転の文脈において、スパースで単発のLiDAR測定から意味情報を予測するための新しい手法を提案する。 特に,補完表現から学習した特徴を融合させる。 このアプローチは、トップビューグリッドマップのセマンティクスセグメンテーションを改善することを目的としている。 この目標に向けて、3D LiDAR点雲は2つの直交2次元表現に投影される。 各表現に対して、上位の深層ニューラルネットワークによって融合された意味情報を効果的に抽出する。 本研究の貢献は以下の3つである: (1) 核融合のためのセグメンテーションネットワーク内の異なる段階について検討する。 2) 異なる特徴を埋め込むことの影響を定量化する。 3)本調査の結果を用いて,異なる表現の長所をそれぞれ活用したディープニューラルネットワークアーキテクチャの設計を行った。 提案手法は,23万以上のLiDAR測定のポイントワイド意味アノテーションを提供するSemanticKITTIデータセットを用いて評価する。

In this paper we introduce a novel way to predict semantic information from sparse, single-shot LiDAR measurements in the context of autonomous driving. In particular, we fuse learned features from complementary representations. The approach is aimed specifically at improving the semantic segmentation of top-view grid maps. Towards this goal the 3D LiDAR point cloud is projected onto two orthogonal 2D representations. For each representation a tailored deep learning architecture is developed to effectively extract semantic information which are fused by a superordinate deep neural network. The contribution of this work is threefold: (1) We examine different stages within the segmentation network for fusion. (2) We quantify the impact of embedding different features. (3) We use the findings of this survey to design a tailored deep neural network architecture leveraging respective advantages of different representations. Our method is evaluated using the SemanticKITTI dataset which provides a point-wise semantic annotation of more than 23.000 LiDAR measurements.
翻訳日:2022-03-03 15:38:57 公開日:2022-03-02
# マルチタスク知覚における逆摂動の検出

Detecting Adversarial Perturbations in Multi-Task Perception ( http://arxiv.org/abs/2203.01177v1 )

ライセンス: Link先を確認
Marvin Klingner and Varun Ravi Kumar and Senthil Yogamani and Andreas B\"ar and Tim Fingscheidt(参考訳) ディープニューラルネットワーク(DNN)は、環境認識タスクにおいて印象的なパフォーマンスを達成する一方で、敵の摂動に対する感度は、実践的なアプリケーションでの使用を制限する。 本稿では, (i)複雑な視覚課題のマルチタスク知覚(すなわち、深さ推定と意味セグメンテーション)に基づく新しい逆摂動検出方式を提案する。 具体的には、入力画像の抽出されたエッジと深度出力とセグメンテーション出力との不整合により、逆摂動を検出する。 この技術をさらに改善するために 2) 3つのモード間の新しいエッジ整合性損失を発生させ,その初期整合性を改善することにより,検出方式をサポートする。 様々な既知の攻撃や画像ノイズを用いて検出手法の有効性を検証する。 さらに私たちは (iii) 両タスクと検出方式を騙すことを目的としたマルチタスクの敵意攻撃を開発する。 CityscapesとKITTIデータセットの実験的評価により、5%の偽陽性率を仮定すると、画像の最大100%は、摂動の強さに応じて逆摂動として正しく検出されることが示された。 コードはgithubで入手できる。 https://youtu.be/kka 6goywmh4の短いビデオは質的な結果を示している。

While deep neural networks (DNNs) achieve impressive performance on environment perception tasks, their sensitivity to adversarial perturbations limits their use in practical applications. In this paper, we (i) propose a novel adversarial perturbation detection scheme based on multi-task perception of complex vision tasks (i.e., depth estimation and semantic segmentation). Specifically, adversarial perturbations are detected by inconsistencies between extracted edges of the input image, the depth output, and the segmentation output. To further improve this technique, we (ii) develop a novel edge consistency loss between all three modalities, thereby improving their initial consistency which in turn supports our detection scheme. We verify our detection scheme's effectiveness by employing various known attacks and image noises. In addition, we (iii) develop a multi-task adversarial attack, aiming at fooling both tasks as well as our detection scheme. Experimental evaluation on the Cityscapes and KITTI datasets shows that under an assumption of a 5% false positive rate up to 100% of images are correctly detected as adversarially perturbed, depending on the strength of the perturbation. Code will be available on github. A short video at https://youtu.be/KKa 6gOyWmH4 provides qualitative results.
翻訳日:2022-03-03 15:38:40 公開日:2022-03-02
# 容器および充填物の物性推定のためのディープネットワークの一般化

Improving Generalization of Deep Networks for Estimating Physical Properties of Containers and Fillings ( http://arxiv.org/abs/2203.01192v1 )

ライセンス: Link先を確認
Hengyi Wang, Chaoran Zhu, Ziyin Ma and Changjae Oh(参考訳) 本研究では, 家庭用容器の物理的特性と, 人間が操作した充填物を推定する方法を提案する。 パイプラインのバックボーンモデルとして,事前学習された軽量畳み込みニューラルネットワークを用いて,関心対象を正確に同定し,ccm(corsmal containers manipulation)データセットの物理的特性を推定する。 補充型分類とオーディオデータに対処し,その情報とビデオモダリティを組み合わせることで,補充レベル分類に対処する。 コンテナ容量,寸法,質量推定については,コンテナ数の制限によるCCMデータセットの過度適合問題を軽減するために,データ拡張と整合性の測定を行う。 我々は,コンテナの物理値の多様性を増大させるオブジェクト・オブ・関心に基づく再スケーリングを用いて,トレーニングデータを拡張する。 次に,各場面における同一容器内の予測ばらつきの低いモデルを選択するための整合性測定を行い,モデルの一般化能力を確保する。 本手法は,従来トレーニングでは見られなかった容器の特性を推定するために,モデルの一般化能力を向上する。

We present methods to estimate the physical properties of household containers and their fillings manipulated by humans. We use a lightweight, pre-trained convolutional neural network with coordinate attention as a backbone model of the pipelines to accurately locate the object of interest and estimate the physical properties in the CORSMAL Containers Manipulation (CCM) dataset. We address the filling type classification with audio data and then combine this information from audio with video modalities to address the filling level classification. For the container capacity, dimension, and mass estimation, we present a data augmentation and consistency measurement to alleviate the over-fitting issue in the CCM dataset caused by the limited number of containers. We augment the training data using an object-of-interest-b ased re-scaling that increases the variety of physical values of the containers. We then perform the consistency measurement to choose a model with low prediction variance in the same containers under different scenes, which ensures the generalization ability of the model. Our method improves the generalization ability of the models to estimate the property of the containers that were not previously seen in the training.
翻訳日:2022-03-03 15:38:19 公開日:2022-03-02
# VAE-iForest:道路表面に落下物を検出する自動エンコード再構成と分離に基づく異常

VAE-iForest: Auto-encoding Reconstruction and Isolation-based Anomalies Detecting Fallen Objects on Road Surface ( http://arxiv.org/abs/2203.01193v1 )

ライセンス: Link先を確認
Takato Yasuno, Junichiro Fujii, Riku Ogata, Masahiro Okano(参考訳) 道路監視においては, 早期に路面の変化を検知し, 第三者の被害を防止することが重要な課題である。 落下対象物の標的は、洪水や地震の外部力や斜面からの岩の落下による倒木かもしれない。 生成的深層学習は、路面上の落下物体の異常を柔軟に検出することができる。 本研究では, 自動符号化と分離型異常検出器を組み合わせた道路表面モニタリング手法の試作を行った。 本手法は,落石と合板を添加した原入力上に落雪物が配置され,冬道に雪が覆われていることを示す実験画像に適用する。 最後に、実用目的のアプリケーションの将来について述べます。

In road monitoring, it is an important issue to detect changes in the road surface at an early stage to prevent damage to third parties. The target of the falling object may be a fallen tree due to the external force of a flood or an earthquake, and falling rocks from a slope. Generative deep learning is possible to flexibly detect anomalies of the falling objects on the road surface. We prototype a method that combines auto-encoding reconstruction and isolation-based anomaly detector in application for road surface monitoring. Actually, we apply our method to a set of test images that fallen objects is located on the raw inputs added with fallen stone and plywood, and that snow is covered on the winter road. Finally we mention the future works for practical purpose application.
翻訳日:2022-03-03 15:37:59 公開日:2022-03-02
# ビデオパノプティカルセグメンテーションのためのPixelとインスタンスを用いたハイブリッドトラッカー

Hybrid Tracker with Pixel and Instance for Video Panoptic Segmentation ( http://arxiv.org/abs/2203.01217v1 )

ライセンス: Link先を確認
Weicai Ye, Xinyue Lan, Ge Su, Hujun Bao, Zhaopeng Cui, Guofeng Zhang(参考訳) ビデオパノプティクスセグメンテーション(VPS)は、一貫したパノプティクスセグメンテーションを生成し、ビデオフレーム全体にわたる全ピクセルに対するIDを追跡する必要がある。 既存のメソッドは主に、一貫したpanopticセグメンテーションを維持するためにトレーニングされたインスタンス埋め込みに基づいている。 しかし、それらは必然的に小さな物体の挑戦、外観は似ているが一貫性のないアイデンティティ、オクルージョン、そして強い例の輪郭変形に対処するのに苦労する。 これらの問題に対処するために,単一トラッカーの限界を解消しようとする軽量かつ共同追跡モデルであるHybridTrackerを提案する。 HybridTrackerは、一致行列に融合した関連行列を得るために、ピクセルトラッカーとインスタンストラッカーを並列に実行する。 インスタンストラッカでは、フレーム間マッチングの安定性を確保するために、微分可能なマッチング層を設計します。 ピクセルトラッカでは、推定された光学フローから異なるフレームの同じインスタンスのサイス係数を計算し、結合(iou)行列上の交叉を形成する。 さらに, 咬合・輪郭変形の課題を解決するために, 相互チェックと時間的一貫性の制約を提案する。 大規模な実験により、HybridTrackerは、Cityscapes-VPSとVIPERデータセットの最先端メソッドよりも優れています。

Video Panoptic Segmentation (VPS) requires generating consistent panoptic segmentation and tracking identities to all pixels across video frames. Existing methods are mainly based on the trained instance embedding to maintain consistent panoptic segmentation. However, they inevitably struggle to cope with the challenges of small objects, similar appearance but inconsistent identities, occlusion, and strong instance contour deformations. To address these problems, we present HybridTracker, a lightweight and joint tracking model attempting to eliminate the limitations of the single tracker. HybridTracker performs pixel tracker and instance tracker in parallel to obtain the association matrices, which are fused into a matching matrix. In the instance tracker, we design a differentiable matching layer, ensuring the stability of inter-frame matching. In the pixel tracker, we compute the dice coefficient of the same instance of different frames given the estimated optical flow, forming the Intersection Over Union (IoU) matrix. We additionally propose mutual check and temporal consistency constraints during inference to settle the occlusion and contour deformation challenges. Extensive experiments demonstrate that HybridTracker outperforms state-of-the-art methods on Cityscapes-VPS and VIPER datasets.
翻訳日:2022-03-03 15:37:44 公開日:2022-03-02
# h4d: ニューラルコンポジション表現の学習によるヒト4次元モデリング

H4D: Human 4D Modeling by Learning Neural Compositional Representation ( http://arxiv.org/abs/2203.01247v1 )

ライセンス: Link先を確認
Boyan Jiang, Yinda Zhang, Xingkui Wei, Xiangyang Xue, Yanwei Fu(参考訳) 深層学習に基づく3次元再構成による印象的な成果にもかかわらず、詳細な幾何学的形状を持つ4次元人間のキャプチャを直接学習する手法は、あまり研究されていない。 本研究は、広く使われているSMPLパラメトリックモデルから人体を利用して、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提案する。 特に、H4Dという表現は、時間空間上の動的3次元人間を、形状、初期ポーズ、動き、補助情報を符号化する潜在空間に表現する。 簡易かつ有効な線形運動モデルを提案し, 粗く規則化された運動推定を行い, 補助符号にエンコードされた残差を持つポーズと幾何学的詳細に対するフレーム単位の補償を行う。 技術的には、GRUに基づく新しいアーキテクチャを導入し、学習を容易にし、表現能力を向上させる。 提案手法は, 正確な動作と詳細な形状を持つ動的人間を復元するだけでなく, 動作再ターゲティング, 動作完了, 将来の予測など, 様々な4次元人間関連課題に適応できることを示す。

Despite the impressive results achieved by deep learning based 3D reconstruction, the techniques of directly learning to model the 4D human captures with detailed geometry have been less studied. This work presents a novel framework that can effectively learn a compact and compositional representation for dynamic human by exploiting the human body prior from the widely-used SMPL parametric model. Particularly, our representation, named H4D, represents dynamic 3D human over a temporal span into the latent spaces encoding shape, initial pose, motion and auxiliary information. A simple yet effective linear motion model is proposed to provide a rough and regularized motion estimation, followed by per-frame compensation for pose and geometry details with the residual encoded in the auxiliary code. Technically, we introduce novel GRU-based architectures to facilitate learning and improve the representation capability. Extensive experiments demonstrate our method is not only efficacy in recovering dynamic human with accurate motion and detailed geometry, but also amenable to various 4D human related tasks, including motion retargeting, motion completion and future prediction.
翻訳日:2022-03-03 15:36:41 公開日:2022-03-02
# ポイントクラウド理解のための統一クエリベースパラダイム

A Unified Query-based Paradigm for Point Cloud Understanding ( http://arxiv.org/abs/2203.01252v1 )

ライセンス: Link先を確認
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya Jia(参考訳) 3Dポイントのクラウド理解は、自動運転とロボット工学の重要なコンポーネントである。 本稿では,検出,セグメンテーション,分類を含む3次元理解タスクのための新しい埋め込みクエリーパラダイム(EQ-Paradigm)を提案する。 EQ-Paradigmは既存の3Dバックボーンアーキテクチャと異なるタスクヘッドの組み合わせを可能にする統一パラダイムである。 EQ-Paradigmの下では、入力はまず、タスクやヘッドに依存しない任意の特徴抽出アーキテクチャで埋め込み段階で符号化される。 そして、クエリステージにより、エンコードされた機能を多様なタスクヘッドに適用できる。 これは、クエリステージに中間表現、すなわちq表現を導入し、埋め込みステージとタスクヘッドの間のブリッジとして機能することで実現される。 クエリステージネットワークとして,新しいQ-Netを設計する。 各種3Dタスクにおける広範囲な実験結果から,Q-NetによるEQ-Paradigmは,バックボーンとヘッドの柔軟な協調を可能にする汎用的で効果的なパイプラインであり,最先端の手法の性能をさらに向上させることを示す。 すべてのコードとモデルが間もなく公開される。

3D point cloud understanding is an important component in autonomous driving and robotics. In this paper, we present a novel Embedding-Querying paradigm (EQ-Paradigm) for 3D understanding tasks including detection, segmentation and classification. EQ-Paradigm is a unified paradigm that enables the combination of any existing 3D backbone architectures with different task heads. Under the EQ-Paradigm, the input is firstly encoded in the embedding stage with an arbitrary feature extraction architecture, which is independent of tasks and heads. Then, the querying stage enables the encoded features to be applicable for diverse task heads. This is achieved by introducing an intermediate representation, i.e., Q-representation, in the querying stage to serve as a bridge between the embedding stage and task heads. We design a novel Q-Net as the querying stage network. Extensive experimental results on various 3D tasks show that EQ-Paradigm in tandem with Q-Net is a general and effective pipeline, which enables a flexible collaboration of backbones and heads, and further boosts the performance of the state-of-the-art methods. All codes and models will be published soon.
翻訳日:2022-03-03 15:36:22 公開日:2022-03-02
# ディープフェイク検出用自己教師形変圧器

Self-supervised Transformer for Deepfake Detection ( http://arxiv.org/abs/2203.01265v1 )

ライセンス: Link先を確認
Hanqing Zhao, Wenbo Zhou, Dongdong Chen, Weiming Zhang and Nenghai Yu(参考訳) 現実世界のシナリオにおける急速な進化とディープフェイク技術の普及は、顔偽造検知器のより強力な一般化能力を必要とする。 ブレンディング境界の手がかりやアップサンプリングの蓄積など、メソッド固有のアーティファクトとは無関係な特徴を捉えて一般化能力を強化する研究もある。 しかし,これらの手法の有効性は,圧縮などの後処理操作によって容易に劣化させることができる。 転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。 例えば、唇の動きは、リップ読み取りタスクから学べる、堅牢で優れた高レベルの意味論的な特徴の一種であることが証明されている。 しかし,既存の手法では,データアノテーションに多くの人的資源が必要であり,訓練データの取得が困難であるリップ特徴抽出モデルを教師付きで事前訓練する。 本稿では,自己教師付きトランスベース音声・視覚コントラスト学習法を提案する。 提案手法は,ペアビデオと音声の表現に近づき,不自由な表現を多様にすることで,口の動きの表現を学習する。 提案手法で事前学習を行った後, 深度検出タスクのために, モデルの一部を微調整する。 広範な実験により, 自己教師付き手法は教師付き事前学習法と同等かそれ以上の性能を示す。

The fast evolution and widespread of deepfake techniques in real-world scenarios require stronger generalization abilities of face forgery detectors. Some works capture the features that are unrelated to method-specific artifacts, such as clues of blending boundary, accumulated up-sampling, to strengthen the generalization ability. However, the effectiveness of these methods can be easily corrupted by post-processing operations such as compression. Inspired by transfer learning, neural networks pre-trained on other large-scale face-related tasks may provide useful features for deepfake detection. For example, lip movement has been proved to be a kind of robust and good-transferring highlevel semantic feature, which can be learned from the lipreading task. However, the existing method pre-trains the lip feature extraction model in a supervised manner, which requires plenty of human resources in data annotation and increases the difficulty of obtaining training data. In this paper, we propose a self-supervised transformer based audio-visual contrastive learning method. The proposed method learns mouth motion representations by encouraging the paired video and audio representations to be close while unpaired ones to be diverse. After pre-training with our method, the model will then be partially fine-tuned for deepfake detection task. Extensive experiments show that our self-supervised method performs comparably or even better than the supervised pre-training counterpart.
翻訳日:2022-03-03 15:36:04 公開日:2022-03-02
# アイデンティティ一貫性変換器によるセレブ保護

Protecting Celebrities with Identity Consistency Transformer ( http://arxiv.org/abs/2203.01318v1 )

ライセンス: Link先を確認
Xiaoyi Dong and Jianmin Bao and Dongdong Chen and Ting Zhang and Weiming Zhang and Nenghai Yu and Dong Chen and Fang Wen and Baining Guo(参考訳) 本研究では,内面領域と外面領域の同一性を見出すことにより,高度な意味論,特に識別情報に着目し,疑似顔を検出する新しい顔偽造検出手法であるアイデンティティ一貫性変換器を提案する。 Identity Consistency Transformerは、ID整合性決定のための整合性損失を組み込む。 その結果,id一貫性トランスフォーマは,異なるデータセット間だけでなく,deepfakeビデオを含む実世界のアプリケーションに見られる様々な画像劣化フォームにおいて,優れた一般化能力を示すことがわかった。 アイデンティティ一貫性変換器は、そのような情報が利用可能であれば、追加のID情報で容易に拡張できるため、有名人を含む顔の偽造を検出するのに特に適している。

In this work we propose Identity Consistency Transformer, a novel face forgery detection method that focuses on high-level semantics, specifically identity information, and detecting a suspect face by finding identity inconsistency in inner and outer face regions. The Identity Consistency Transformer incorporates a consistency loss for identity consistency determination. We show that Identity Consistency Transformer exhibits superior generalization ability not only across different datasets but also across various types of image degradation forms found in real-world applications including deepfake videos. The Identity Consistency Transformer can be easily enhanced with additional identity information when such information is available, and for this reason it is especially well-suited for detecting face forgeries involving celebrities.
翻訳日:2022-03-03 15:35:44 公開日:2022-03-02
# クロスドメイン転送による大規模ヘイト音声検出

Large-Scale Hate Speech Detection with Cross-Domain Transfer ( http://arxiv.org/abs/2203.01111v1 )

ライセンス: Link先を確認
Cagri Toraman, Furkan \c{S}ahinu\c{c}, Eyup Halit Y{\i}lmaz(参考訳) ヘイトスピーチ検出モデルの性能は、モデルがトレーニングされたデータセットに依存する。 既存のデータセットは、主にヘイトトピックを定義する限られた数のインスタンスやヘイトドメインで準備されている。 これにより、ヘイトドメインに関する大規模な分析と転校学習が妨げられる。 本研究では,英語におけるヘイトスピーチ検出のための大規模ツイートデータセットと,人間ラベル付き100万ツイートからなる低リソース言語であるトルコ語を構築した。 当社のデータセットは、5つのドメインに同じ数のツイートを分散するように設計されています。 その結果,トランスフォーマーをベースとした言語モデルは,英語では少なくとも5%,トルコ語では10%以上,大規模ヘイトスピーチ検出では10%以上の性能を示した。 トレーニングインスタンスの20%を使用すると、英語のパフォーマンスの98%、トルコ語のパフォーマンスの97%が回復される。 さらに,ヘイトドメイン間のクロスドメイン転送の一般化について検討する。 対象ドメインのパフォーマンスの96%は、英語の他のドメインによって回復され、トルコ語では92%である。 性や宗教は他の領域に一般化するのがより成功し、スポーツは最も失敗する。

The performance of hate speech detection models relies on the datasets on which the models are trained. Existing datasets are mostly prepared with a limited number of instances or hate domains that define hate topics. This hinders large-scale analysis and transfer learning with respect to hate domains. In this study, we construct large-scale tweet datasets for hate speech detection in English and a low-resource language, Turkish, consisting of human-labeled 100k tweets per each. Our datasets are designed to have equal number of tweets distributed over five domains. The experimental results supported by statistical tests show that Transformer-based language models outperform conventional bag-of-words and neural models by at least 5% in English and 10% in Turkish for large-scale hate speech detection. The performance is also scalable to different training sizes, such that 98% of performance in English, and 97% in Turkish, are recovered when 20% of training instances are used. We further examine the generalization ability of cross-domain transfer among hate domains. We show that 96% of the performance of a target domain in average is recovered by other domains for English, and 92% for Turkish. Gender and religion are more successful to generalize to other domains, while sports fail most.
翻訳日:2022-03-03 15:35:33 公開日:2022-03-02
# 構造を用いた個人化フェデレーション学習

Personalized Federated Learning With Structure ( http://arxiv.org/abs/2203.00829v1 )

ライセンス: Link先を確認
Fengwen Chen, Guodong Longr, Zonghan Wu, Tianyi Zhou and Jing Jiang(参考訳) 知識共有とモデルパーソナライゼーションは、パーソナライズされたフェデレーション学習(PFL)のパフォーマンスに影響を与える2つの重要な要素である。 既存のPFL手法は、知識共有を、その間の隠れた関係に関係なく、すべてのクライアントの集約として扱う。 本稿では,クライアント間の構造情報を活用し,pflにおける知識共有プロセスを強化することを目的とする。 各クライアントのローカルな関係とプライベートデータセットを使って、グローバルモデルとパーソナライズモデルを同時に学習する、新しい構造化フェデレーション学習(sfl)フレームワークを提案する。 このフレームワークは、パーソナライズされたモデルと構造トポロジ情報間の複雑な関係を統一フレームワークにモデル化するための新しい最適化問題として定式化されている。 さらに、事前定義された構造とは対照的に、クライアントのモデルのパラメータ間の類似性を利用して構造を自動的に学習する構造学習コンポーネントを追加することで、フレームワークをさらに強化することができる。 大規模な実験を行うことで,実世界のデータセットを用いてサーバ集約プロセスに構造情報を導入することにより,フェデレーション学習のメリットを実証する。

Knowledge sharing and model personalization are two key components to impact the performance of personalized federated learning (PFL). Existing PFL methods simply treat knowledge sharing as an aggregation of all clients regardless of the hidden relations among them. This paper is to enhance the knowledge-sharing process in PFL by leveraging the structural information among clients. We propose a novel structured federated learning(SFL) framework to simultaneously learn the global model and personalized model using each client's local relations with others and its private dataset. This proposed framework has been formulated to a new optimization problem to model the complex relationship among personalized models and structural topology information into a unified framework. Moreover, in contrast to a pre-defined structure, our framework could be further enhanced by adding a structure learning component to automatically learn the structure using the similarities between clients' models' parameters. By conducting extensive experiments, we first demonstrate how federated learning can be benefited by introducing structural information into the server aggregation process with a real-world dataset, and then the effectiveness of the proposed method has been demonstrated in varying degrees of data non-iid settings.
翻訳日:2022-03-03 15:35:13 公開日:2022-03-02
# 時系列予測のためのランダム化NNに基づくブーストアンサンブル学習

Boosted Ensemble Learning based on Randomized NNs for Time Series Forecasting ( http://arxiv.org/abs/2203.00980v1 )

ライセンス: Link先を確認
Grzegorz Dudek(参考訳) 時系列予測は、特に時系列が複数の季節性、非線形傾向、ばらつきを表す場合の困難な問題である。 本研究では,複雑な時系列を予測するために,ランダム化されたニューラルネットワークに基づくアンサンブル学習を提案する。 これらは残差、修正対象、反対応答に基づくアンサンブル学習を含む。 後者の2つの方法は、すべてのアンサンブルメンバーによって同様の予測タスクが解決されることを保証するために使用され、アンサンブルの全段階で全く同じベースモデルを使用することを正当化する。 全メンバーのタスクの統合は、アンサンブル学習を単純化し、予測精度を向上させる。 これは3つの季節性を伴う時系列予測を含む実験研究で確認され、アンサンブルブースティングの3つの変種を比較した。 提案するアンサンブルの強みは、極めて高速なトレーニングとパターンに基づく時系列表現であり、時系列から関連情報を抽出する。

Time series forecasting is a challenging problem particularly when a time series expresses multiple seasonality, nonlinear trend and varying variance. In this work, to forecast complex time series, we propose ensemble learning which is based on randomized neural networks, and boosted in three ways. These comprise ensemble learning based on residuals, corrected targets and opposed response. The latter two methods are employed to ensure similar forecasting tasks are solved by all ensemble members, which justifies the use of exactly the same base models at all stages of ensembling. Unification of the tasks for all members simplifies ensemble learning and leads to increased forecasting accuracy. This was confirmed in an experimental study involving forecasting time series with triple seasonality, in which we compare our three variants of ensemble boosting. The strong points of the proposed ensembles based on RandNNs are extremely rapid training and pattern-based time series representation, which extracts relevant information from time series.
翻訳日:2022-03-03 15:34:54 公開日:2022-03-02
# 文脈MDPのための効率的な関数近似の学習

Learning Efficiently Function Approximation for Contextual MDP ( http://arxiv.org/abs/2203.00995v1 )

ライセンス: Link先を確認
Orin Levy and Yishay Mansour(参考訳) 報酬と力学の両方に関数近似を用いた文脈的MDPの学習について検討する。 我々は、ダイナミクスが知られ、未知である場合と、ダイナミクスがコンテキストに依存し、あるいは独立している場合の両方を考える。 4つのモデル全てに対して、多項式サンプルと時間複雑性(効率的なERMオラクルを仮定する)を導出する。 我々の手法は、文脈的MDPから教師あり学習への一般化をもたらす。

We study learning contextual MDPs using a function approximation for both the rewards and the dynamics. We consider both the case where the dynamics is known and unknown, and the case that the dynamics dependent or independent of the context. For all four models we derive polynomial sample and time complexity (assuming an efficient ERM oracle). Our methodology gives a general reduction from learning contextual MDP to supervised learning.
翻訳日:2022-03-03 15:34:38 公開日:2022-03-02
# Information Gain Propagation: ソフトラベルでアクティブな学習をグラフ化する新しい方法

Information Gain Propagation: a new way to Graph Active Learning with Soft Labels ( http://arxiv.org/abs/2203.01093v1 )

ライセンス: Link先を確認
Wentao Zhang, Yexin Wang, Zhenbang You, Meng Cao, Ping Huang, Jiulong Shan, Zhi Yang, Bin Cui(参考訳) グラフニューラルネットワーク(GNN)は様々なタスクで大きな成功を収めていますが、そのパフォーマンスは多数のラベル付きノードに依存しています。 GNNに基づくアクティブラーニング(AL)手法は,ラベル付けに最も有用なノードを選択することにより,ラベル付け効率を向上させる。 既存のメソッドでは、オラクルは選択したすべてのノードを正しく分類できるため、ノードの選択のみに集中できる。 しかし、そのような正確なラベル付けタスクは、特に分類が個々の専門家の領域外である場合、コストがかかる。 論文はさらに、gnn上でalへのソフトラベルアプローチを提示している。 私たちの重要なイノベーションは 一 ドメインの専門家(オラクル)が、正確なクラス(マルチクラス質問)を特定するのではなく、予測されたラベル(バイナリ質問)の正当性を判断すること。 二 リラックスしたクエリとソフトラベルを持つアクティブ学習者のための情報ゲイン伝搬の最大化の新しい基準 公開データセットに関する実証研究により,本手法はgnnベースのal手法を精度とラベル付けコストの両方において著しく上回っていることが示された。

Graph Neural Networks (GNNs) have achieved great success in various tasks, but their performance highly relies on a large number of labeled nodes, which typically requires considerable human effort. GNN-based Active Learning (AL) methods are proposed to improve the labeling efficiency by selecting the most valuable nodes to label. Existing methods assume an oracle can correctly categorize all the selected nodes and thus just focus on the node selection. However, such an exact labeling task is costly, especially when the categorization is out of the domain of individual expert (oracle). The paper goes further, presenting a soft-label approach to AL on GNNs. Our key innovations are: i) relaxed queries where a domain expert (oracle) only judges the correctness of the predicted labels (a binary question) rather than identifying the exact class (a multi-class question), and ii) new criteria of maximizing information gain propagation for active learner with relaxed queries and soft labels. Empirical studies on public datasets demonstrate that our method significantly outperforms the state-of-the-art GNN-based AL methods in terms of both accuracy and labeling cost.
翻訳日:2022-03-03 15:34:03 公開日:2022-03-02
# レグレット型環境設計によるカリキュラムの進化

Evolving Curricula with Regret-Based Environment Design ( http://arxiv.org/abs/2203.01302v1 )

ライセンス: Link先を確認
Jack Parker-Holder, Minqi Jiang, Michael Dennis, Mikayel Samvelyan, Jakob Foerster, Edward Grefenstette, Tim Rockt\"aschel(参考訳) 一般に有能なエージェントを強化学習(RL)で訓練することは依然として重要な課題である。 rlエージェントのロバスト性を改善するための有望な道は、curriculaを使用することである。 そのような方法の1つは、学生と教師の間のゲームとして環境設計をフレーム化し、後悔に基づく目標を用いて、学生エージェントの能力のフロンティアにおいて環境インスタンス(またはレベル)を生成する。 これらの手法は、その一般性、理論的保証、均衡の恩恵を受けるが、しばしば挑戦的な設計空間において効果的なレベルを見つけるのに苦労する。 対照的に、進化的アプローチは環境の複雑さを漸進的に変化させ、潜在的にオープンエンド学習をもたらすが、しばしばドメイン固有のヒューリスティックや膨大な計算資源に依存している。 本稿では,原則的,後悔に基づくカリキュラムにおける進化の力を活用することを提案する。 我々のアプローチは、Adversarially Compounding Complexity by Editing Levels (ACCEL)と呼ばれ、エージェントの能力の最前線で常にレベルを生成しようとしており、その結果、シンプルに始まり、ますます複雑になる。 ACCELは、過去の後悔に基づく手法の理論的利点を維持し、多様な環境において大きな経験的利益をもたらす。 この論文のインタラクティブバージョンはaccelagent.github.io で入手できる。

It remains a significant challenge to train generally capable agents with reinforcement learning (RL). A promising avenue for improving the robustness of RL agents is through the use of curricula. One such class of methods frames environment design as a game between a student and a teacher, using regret-based objectives to produce environment instantiations (or levels) at the frontier of the student agent's capabilities. These methods benefit from their generality, with theoretical guarantees at equilibrium, yet they often struggle to find effective levels in challenging design spaces. By contrast, evolutionary approaches seek to incrementally alter environment complexity, resulting in potentially open-ended learning, but often rely on domain-specific heuristics and vast amounts of computational resources. In this paper we propose to harness the power of evolution in a principled, regret-based curriculum. Our approach, which we call Adversarially Compounding Complexity by Editing Levels (ACCEL), seeks to constantly produce levels at the frontier of an agent's capabilities, resulting in curricula that start simple but become increasingly complex. ACCEL maintains the theoretical benefits of prior regret-based methods, while providing significant empirical gains in a diverse set of environments. An interactive version of the paper is available at accelagent.github.io .
翻訳日:2022-03-03 15:33:48 公開日:2022-03-02
# 効率的な動的クラスタリング:歴史クラスタの進化からパターンをキャプチャする

Efficient Dynamic Clustering: Capturing Patterns fromHistorical Cluster Evolution ( http://arxiv.org/abs/2203.00812v1 )

ライセンス: Link先を確認
Binbin Gu, Saeed Kargar, Faisal Nawab(参考訳) クラスタリングは、それらに固有の類似性に基づいて、ラベルのないオブジェクトをクラスタにグループ化する。 異常検出、データベースシャーディング、レコードリンクなど、多くのタスクにおいて重要である。 いくつかのクラスタリングメソッドは、スクラッチからデータベース内のすべてのオブジェクトをクラスタリングしたり、インクリメンタルなワークロードを前提として、高いオーバーヘッドを発生させるバッチアルゴリズムとして扱われます。 実際には、データベースオブジェクトは更新され、追加され、データベースから削除されます。 このようなシナリオではバッチアルゴリズムの実行は不可能であり、継続的に実行すると大きなオーバーヘッドが発生する。 これは特にInternet of Thingsアプリケーションのような高速度シナリオではそうである。 本稿では,オブジェクトが継続的に更新され,挿入され,削除される高速動的シナリオにおけるクラスタリングの問題に取り組む。 具体的には、従来のクラスタリング結果を利用したクラスタリングに対する一般的な動的アプローチを提案する。 私たちのシステムであるdynamiccは、既存のバッチアルゴリズムで拡張された機械学習モデルを使用します。 dynamiccモデルは、バッチアルゴリズムによるクラスタリング決定を観察してトレーニングする。 トレーニング後、DynamicCモデルはバッチアルゴリズムと連携して、正確なクラスタリング決定と高速クラスタリング決定の両方を達成する。 4つの実世界と1つの合成データセットにおける実験結果から,ベースラインバッチアルゴリズムと同等に正確なクラスタリング結果を達成しつつ,最先端手法よりも優れた性能を示すことができた。

Clustering aims to group unlabeled objects based on similarity inherent among them into clusters. It is important for many tasks such as anomaly detection, database sharding, record linkage, and others. Some clustering methods are taken as batch algorithms that incur a high overhead as they cluster all the objects in the database from scratch or assume an incremental workload. In practice, database objects are updated, added, and removed from databases continuously which makes previous results stale. Running batch algorithms is infeasible in such scenarios as it would incur a significant overhead if performed continuously. This is particularly the case for high-velocity scenarios such as ones in Internet of Things applications. In this paper, we tackle the problem of clustering in high-velocity dynamic scenarios, where the objects are continuously updated, inserted, and deleted. Specifically, we propose a generally dynamic approach to clustering that utilizes previous clustering results. Our system, DynamicC, uses a machine learning model that is augmented with an existing batch algorithm. The DynamicC model trains by observing the clustering decisions made by the batch algorithm. After training, the DynamicC model is usedin cooperation with the batch algorithm to achieve both accurate and fast clustering decisions. The experimental results on four real-world and one synthetic datasets show that our approach has a better performance compared to the state-of-the-art method while achieving similarly accurate clustering results to the baseline batch algorithm.
翻訳日:2022-03-03 15:33:26 公開日:2022-03-02
# 機械学習によるフィールド可搬型サイトメトリーのためのレンズレスイメージング技術

Machine learning based lens-free imaging technique for field-portable cytometry ( http://arxiv.org/abs/2203.00899v1 )

ライセンス: Link先を確認
Rajkumar Vaghashiya, Sanghoon Shin, Varun Chauhan, Kaushal Kapadiya, Smit Sanghavi, Sungkyu Seo2, Mohendra Roy(参考訳) レンズフリーシャドウイメージング技術(LSIT)は、マイクロ粒子や生体細胞のキャラクタリゼーションのための確立された技術である。 その単純さと費用対効果により、完全血球数(CBC)の自動解析、細胞生存性、2D細胞形態学、3D細胞トモグラフィーなど、様々な低コストのソリューションが進化してきた。 このカスタム開発のlsitcytometer用自動キャラクタリゼーションアルゴリズムは、lsitcytometerの細胞回折パターンを手作りした特徴に基づいており、その特徴は個々の細胞タイプの何千ものサンプルから得られた実験結果から決定され、自動分類やキャラクタリゼーションのための新しい細胞タイプの導入によってシステムを制限した。 さらに、その性能は、小さな信号や背景雑音による画像(細胞回折パターン)の符号に悩まされている。 本研究では,深層ニューラルネットワークにおける学習の伝達に基づく自動エンコーダや適応セルキャラクタリゼーション技術などの人工知能による自動信号強調手法を活用することで,これらの課題に対処する。 提案法の性能は, 赤血球 (rbc) や白血球 (wbc) といったほとんどの細胞タイプにおいて, 信号の5db以上の増加とともに98%以上の精度向上を示した。 さらに、モデルは、数回の学習イテレーションで新しいタイプのサンプルを学習し、既存のサンプルタイプとともに新しく導入されたサンプルをうまく分類することができる。

Lens-free Shadow Imaging Technique (LSIT) is a well-established technique for the characterization of microparticles and biological cells. Due to its simplicity and cost-effectiveness, various low-cost solutions have been evolved, such as automatic analysis of complete blood count (CBC), cell viability, 2D cell morphology, 3D cell tomography, etc. The developed auto characterization algorithm so far for this custom-developed LSIT cytometer was based on the hand-crafted features of the cell diffraction patterns from the LSIT cytometer, that were determined from our empirical findings on thousands of samples of individual cell types, which limit the system in terms of induction of a new cell type for auto classification or characterization. Further, its performance is suffering from poor image (cell diffraction pattern) signatures due to its small signal or background noise. In this work, we address these issues by leveraging the artificial intelligence-powered auto signal enhancing scheme such as denoising autoencoder and adaptive cell characterization technique based on the transfer of learning in deep neural networks. The performance of our proposed method shows an increase in accuracy >98% along with the signal enhancement of >5 dB for most of the cell types, such as Red Blood Cell (RBC) and White Blood Cell (WBC). Furthermore, the model is adaptive to learn new type of samples within a few learning iterations and able to successfully classify the newly introduced sample along with the existing other sample types.
翻訳日:2022-03-03 15:33:03 公開日:2022-03-02
# InsertionNet 2.0:マルチモーダルマルチビューセンサ入力を用いた最小接触マルチステップ挿入

InsertionNet 2.0: Minimal Contact Multi-Step Insertion Using Multimodal Multiview Sensory Input ( http://arxiv.org/abs/2203.01153v1 )

ライセンス: Link先を確認
Oren Spector, Vladimir Tchuiev and Dotan Di Castro(参考訳) ロボットが手作りの報酬やデモンストレーションを使わずに、ほんのわずかの介入で挿入スキルを迅速かつ安全に学習する手段を考案する問題に対処する。 私たちのInsertionNetバージョン2.0は、さまざまな形状、色、初期ポーズなどを含む幅広いユースケースを堅牢に扱うための改善された技術を提供します。 特に,ステレオ知覚と力からのマルチモーダル入力に基づく回帰に基づく手法を提案する。 さらに,複数ステップの挿入タスクを支援するために,収集したデータをよりよく活用するための関係ネットワーク方式に依存する挿入用ワンショット学習手法を提案する。 提案手法は, 挿入時の実行時間と接触時間を最小化しつつ, 16 個の実生活挿入タスクにおいて, ほぼ完全なスコア(200 回の試行で 97.5$\% 以上)を達成し, 元の InsertionNet で得られた結果を改善する。 さらに,本手法が実生活の3段階挿入タスクに対処し,学習せずに未確認挿入タスクを完璧に解決できることを実証する。

We address the problem of devising the means for a robot to rapidly and safely learn insertion skills with just a few human interventions and without hand-crafted rewards or demonstrations. Our InsertionNet version 2.0 provides an improved technique to robustly cope with a wide range of use-cases featuring different shapes, colors, initial poses, etc. In particular, we present a regression-based method based on multimodal input from stereo perception and force, augmented with contrastive learning for the efficient learning of valuable features. In addition, we introduce a one-shot learning technique for insertion, which relies on a relation network scheme to better exploit the collected data and to support multi-step insertion tasks. Our method improves on the results obtained with the original InsertionNet, achieving an almost perfect score (above 97.5$\%$ on 200 trials) in 16 real-life insertion tasks while minimizing the execution time and contact during insertion. We further demonstrate our method's ability to tackle a real-life 3-step insertion task and perfectly solve an unseen insertion task without learning.
翻訳日:2022-03-03 15:32:39 公開日:2022-03-02
# Pareto Frontier Approximation Network (PA-Net)による双方向TSPの解法

Pareto Frontier Approximation Network (PA-Net) to Solve Bi-objective TSP ( http://arxiv.org/abs/2203.01298v1 )

ライセンス: Link先を確認
Ishaan Mehta and Sajad Saeedi(参考訳) トラベリングセールスパーソン問題(TSP)は、関連する目的関数を最小化(または最大化)しながらタスクセットを実行する最適な順序を見つけるために使用される古典的なリソース割り当て問題である。 ロボット工学において、計画、スケジューリングなどの用途に広く使われている。 本研究では,2つの目的に対して,強化学習を用いてTSPを解く。 しばしば多目的最適化問題において、関連する目的関数は本質的に矛盾することがある。 そのような場合、最適性はパレート最適性の観点から定義される。 対象空間におけるこれらのパレート最適解の組はパレート前線(あるいはフロンティア)を形成する。 各ソリューションには独自のトレードオフがある。 本稿では,btsp(bi-objective traveling salesperson problem)問題に対して,pareto frontの近似値を生成するネットワークpa-netを提案する。 まず、BTSPを制約付き最適化問題に変換する。 そして、ラグランジアン緩和と政策勾配を用いて、この制約のある問題を解決するためにネットワークを訓練します。 PA-Netでは、高速な推論時間で高品質なParetoフロントを生成することができます。 最後に,ロボットナビゲーションタスク/カバレッジ計画において,PA-Netを用いて最適な訪問順序を求める。

Travelling salesperson problem (TSP) is a classic resource allocation problem used to find an optimal order of doing a set of tasks while minimizing (or maximizing) an associated objective function. It is widely used in robotics for applications such as planning, scheduling etc. In this work, we solve TSP for two objectives using reinforcement learning. Often in multi objective optimization problems, the associated objective functions can be conflicting in nature. In such cases, the optimality is defined in terms of Pareto optimality. A set of these Pareto Optimal solutions in the objective space form a Pareto front (or frontier). Each solution has its own trade off. } In this work, we present PA-Net, a network that generates good approximations of the Pareto front for the bi-objective travelling salesperson problem (BTSP). Firstly, BTSP is converted into a constrained optimization problem. We then train our network to solve this constrained problem using the Lagrangian relaxation and policy gradient. With PA-Net we are able to generate good quality Pareto fronts with fast inference times. Finally, we present the application of PA-Net to find optimal visiting order in a robotic navigation task/coverage planning.
翻訳日:2022-03-03 15:30:36 公開日:2022-03-02
# 複数のジオメトリを用いたマニピュレーションスキルの模倣

Imitation of Manipulation Skills Using Multiple Geometries ( http://arxiv.org/abs/2203.01171v1 )

ライセンス: Link先を確認
Boyang Ti, Yongsheng Gao, Jie Zhao and Sylvain Calinon(参考訳) 日々の操作タスクはタスク構造に関連する規則的な特徴によって特徴づけられ、アクションやオブジェクト形状に関連する複数の幾何学的プリミティブによって記述できる。 このような幾何学的記述子はデカルト座標系でしか表現できない。 本稿では,観測された動きを表現するための座標系辞書から最適な表現を抽出するための学習手法を提案する。 これはリーマン多様体上のガウス分布の拡張を用いて実現され、複数の幾何学をタスクの候補表現として考慮し、統計学的にユーザデモの集合を分析するのに用いられる。 本稿では,抽出された座標系におけるガウス分布を用いてコスト関数を定義する反復線形二次法則 (iLQR) に基づいて,再生問題を一般的な最適制御問題として定式化する。 シミュレーションおよび7軸フランカ・エミカロボット上での把持および箱開け作業に本手法を適用した。 その結果,ロボットは複数のジオメトリを利用して操作タスクを実行し,興味のある座標系におけるスキルの不変な特徴を保ちながら,新たな状況に一般化できることがわかった。

Daily manipulation tasks are characterized by regular characteristics associated with the task structure, which can be described by multiple geometric primitives related to actions and object shapes. Such geometric descriptors can not be expressed only in Cartesian coordinate systems. In this paper, we propose a learning approach to extract the optimal representation from a dictionary of coordinate systems to represent an observed movement. This is achieved by using an extension of Gaussian distributions on Riemannian manifolds, which is used to analyse a set of user demonstrations statistically, by considering multiple geometries as candidate representations of the task. We formulate the reproduction problem as a general optimal control problem based on an iterative linear quadratic regulator (iLQR), where the Gaussian distribution in the extracted coordinate systems are used to define the cost function. We apply our approach to grasping and box opening tasks in simulation and on a 7-axis Franka Emika robot. The results show that the robot can exploit several geometries to execute the manipulation task and generalize it to new situations, by maintaining the invariant features of the skill in the coordinate system(s) of interest.
翻訳日:2022-03-03 15:30:16 公開日:2022-03-02
# エンド・ツー・エンド音声認識システムのカスタマイズのための文脈的綴り補正

Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems ( http://arxiv.org/abs/2203.00888v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Yanqing Liu, Jinyu Li, Veljko Miljanic, Sheng Zhao, Hosam Khalil(参考訳) 文脈偏見は、個人名、音楽リスト、固有名詞などの特定の文脈句に偏見を付与することにより、音声認識性能の向上を目的とした、エンドツーエンド自動音声認識(ASR)システムにおいて重要かつ困難な課題である。 既存の方法は、主に文脈的LMバイアスと、エンドツーエンドのASRモデルにバイアスエンコーダを追加することである。 本研究では, エンド・ツー・エンドのASRシステム上にコンテキストスペル補正モデルを追加することにより, 文脈バイアスを行う新しい手法を提案する。 文脈情報を共有コンテキストエンコーダを用いたシーケンス-シーケンス間綴り補正モデルに組み込む。 提案モデルは,自己回帰(AR)と非自己回帰(NAR)の2つのメカニズムを含む。 本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。 提案したモデルは、ドメイン非依存であり、異なるシナリオに適用できる一般的な偏見解であることを示す。 実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。 ARソリューションと比較して、提案されたNARモデルはモデルサイズを43.2%削減し、推論を2.1倍高速化する。

Contextual biasing is an important and challenging task for end-to-end automatic speech recognition (ASR) systems, which aims to achieve better recognition performance by biasing the ASR system to particular context phrases such as person names, music list, proper nouns, etc. Existing methods mainly include contextual LM biasing and adding bias encoder into end-to-end ASR models. In this work, we introduce a novel approach to do contextual biasing by adding a contextual spelling correction model on top of the end-to-end ASR system. We incorporate contextual information into a sequence-to-sequence spelling correction model with a shared context encoder. Our proposed model includes two different mechanisms: autoregressive (AR) and non-autoregressive (NAR). We propose filtering algorithms to handle large-size context lists, and performance balancing mechanisms to control the biasing degree of the model. We demonstrate the proposed model is a general biasing solution which is domain-insensitive and can be adopted in different scenarios. Experiments show that the proposed method achieves as much as 51% relative word error rate (WER) reduction over ASR system and outperforms traditional biasing methods. Compared to the AR solution, the proposed NAR model reduces model size by 43.2% and speeds up inference by 2.1 times.
翻訳日:2022-03-03 15:29:58 公開日:2022-03-02
# 画像表現の原理設計--法医学的課題に向けて

A Principled Design of Image Representation: Towards Forensic Tasks ( http://arxiv.org/abs/2203.00913v1 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Jiantao Zhou, Xiaochun Cao(参考訳) image forensicsは、信頼性の高いマルチメディアコンテンツが現代社会にとって重要なため、急速に話題になっている。 他の視覚関連アプリケーションと同様に、法医学解析は適切な画像表現に大きく依存する。 その重要性にもかかわらず、そのような表現に対する現在の理論的理解は限定的であり、その重要な役割を無視する程度は様々である。 このギャップを解消するために,理論,実装,応用の観点から,法科学指向の画像表現を別の問題として検討する。 私たちの研究は、法医学の表現が満足すべき基本原則の抽象化から始まり、特に堅牢性、解釈可能性、カバレッジの臨界性を明らかにします。 理論レベルでは、Dense Invariant Representation (DIR)と呼ばれる、数学的保証を伴う安定した記述を特徴とする、新しい法医学の表現フレームワークを提案する。 実装レベルでは、DIRの離散計算問題を議論し、対応する正確かつ高速な解は一般的な性質と一定の複雑さで設計する。 本稿では, ドメインパターンの検出とマッチング実験について, 最先端の記述子との比較結果を提供する。 また、アプリケーションレベルでは、提案するdirは、まず受動的かつアクティブな鑑識、すなわちコピー・モーブの偽造検出と知覚的ハッシュ化で探求され、そのような鑑識タスクの要件を満たすための利点を示す。

Image forensics is a rising topic as the trustworthy multimedia content is critical for modern society. Like other vision-related applications, forensic analysis relies heavily on the proper image representation. Despite the importance, current theoretical understanding for such representation remains limited, with varying degrees of neglect for its key role. For this gap, we attempt to investigate the forensic-oriented image representation as a distinct problem, from the perspectives of theory, implementation, and application. Our work starts from the abstraction of basic principles that the representation for forensics should satisfy, especially revealing the criticality of robustness, interpretability, and coverage. At the theoretical level, we propose a new representation framework for forensics, called Dense Invariant Representation (DIR), which is characterized by stable description with mathematical guarantees. At the implementation level, the discrete calculation problems of DIR are discussed, and the corresponding accurate and fast solutions are designed with generic nature and constant complexity. We demonstrate the above arguments on the dense-domain pattern detection and matching experiments, providing comparison results with state-of-the-art descriptors. Also, at the application level, the proposed DIR is initially explored in passive and active forensics, namely copy-move forgery detection and perceptual hashing, exhibiting the benefits in fulfilling the requirements of such forensic tasks.
翻訳日:2022-03-03 15:29:09 公開日:2022-03-02
# LiDAR点雲のシングラムによる頭部角度の変換不変大域推定

Translation Invariant Global Estimation of Heading Angle Using Sinogram of LiDAR Point Cloud ( http://arxiv.org/abs/2203.00924v1 )

ライセンス: Link先を確認
Xiaqing Ding, Xuecheng Xu, Sha Lu, Yanmei Jiao, Mengwen Tan, Rong Xiong, Huanjun Deng, Mingyang Li, Yue Wang(参考訳) グローバルポイントクラウドの登録はローカライゼーションに不可欠なモジュールであり、初期値なしでローテーションを世界規模で推定することの主な困難さが存在する。 重力アライメントの助けを借りて、点雲の登録の自由度を4DoFに下げることができ、回転推定には方向角のみが必要となる。 本論文では,重力配向点雲に対する高速かつ高精度な大域方向角推定法を提案する。 我々の重要なアイデアは、ラドン変換に基づく変換不変表現を生成し、円クロス相関によってグローバルに分離された方向角を解決できるということです。 また,分布の異なる点群間の角度推定のために,この角度推定器を可変モジュールとして実装し,特徴抽出ネットワークをエンドツーエンドにトレーニングする。 実験により,提案手法の有効性を検証し,他の手法と比較して優れた性能を示した。

Global point cloud registration is an essential module for localization, of which the main difficulty exists in estimating the rotation globally without initial value. With the aid of gravity alignment, the degree of freedom in point cloud registration could be reduced to 4DoF, in which only the heading angle is required for rotation estimation. In this paper, we propose a fast and accurate global heading angle estimation method for gravity-aligned point clouds. Our key idea is that we generate a translation invariant representation based on Radon Transform, allowing us to solve the decoupled heading angle globally with circular cross-correlation. Besides, for heading angle estimation between point clouds with different distributions, we implement this heading angle estimator as a differentiable module to train a feature extraction network end- to-end. The experimental results validate the effectiveness of the proposed method in heading angle estimation and show better performance compared with other methods.
翻訳日:2022-03-03 15:28:45 公開日:2022-03-02
# パラメータ化画像品質スコア分布予測

Parameterized Image Quality Score Distribution Prediction ( http://arxiv.org/abs/2203.00926v1 )

ライセンス: Link先を確認
Yixuan Gao, Xiongkuo Min, Wenhan Zhu, Xiao-Ping Zhang and Guangtao Zhai(参考訳) 近年,画像品質は平均評価スコア(mos)によって記述されている。 しかし,被験者群が与える画像の品質スコアは,非常に主観的かつ多様である。 したがって、mosを画質に使用するだけでは不十分である。 本稿では,MOSではなくパラメータ化分布を用いた画像品質記述法を提案し,画像品質スコア分布(IQSD)の予測にも目的の手法を提案する。 最初は、livedatabaseが再記録される。 具体的には,多数の被験者を招き,liveデータベースにおける全画像の品質評価を行い,各画像は信頼性の高いiqsdを形成することができる多数の被験者(187名)によって評価される。 得られた主観的品質スコアを解析することにより、iqsdはアルファ安定モデルによってよくモデル化でき、画像に対する評価スコアの歪度、主題多様性、最大確率スコアなど、単一のmosよりも多くの情報を反映することができる。 そこで我々はα安定モデルを用いてIQSDをモデル化する。 さらに、構造情報と統計情報に基づいて、各画像から品質特徴を抽出し、アルファ安定モデルパラメータを予測するための支援ベクトル回帰器をトレーニングする、α安定モデルに基づくIQSD予測フレームワークとアルゴリズムを提案する。 実験の結果, アルファ安定モデルを用いたiqsd記述の有効性を検証し, 客観的アルファ安定モデルに基づくiqsd予測法の有効性を実証した。

Recently, image quality has been generally describedby a mean opinion score (MOS). However, we observe that thequality scores of an image given by a group of subjects are verysubjective and diverse. Thus it is not enough to use a MOS todescribe the image quality. In this paper, we propose to describeimage quality using a parameterized distribution rather thana MOS, and an objective method is also proposed to predictthe image quality score distribution (IQSD). At first, the LIVEdatabase is re-recorded. Specifically, we have invited a largegroup of subjects to evaluate the quality of all images in theLIVE database, and each image is evaluated by a large numberof subjects (187 valid subjects), whose scores can form a reliableIQSD. By analyzing the obtained subjective quality scores, wefind that the IQSD can be well modeled by an alpha stable model,and it can reflect much more information than a single MOS, suchas the skewness of opinion score, the subject diversity and themaximum probability score for an image. Therefore, we proposeto model the IQSD using the alpha stable model. Moreover, wepropose a framework and an algorithm to predict the alphastable model based IQSD, where quality features are extractedfrom each image based on structural information and statisticalinformati on, and support vector regressors are trained to predictthe alpha stable model parameters. Experimental results verifythe feasibility of using alpha stable model to describe the IQSD,and prove the effectiveness of objective alpha stable model basedIQSD prediction method.
翻訳日:2022-03-03 15:28:30 公開日:2022-03-02
# 物体のロボットグルーピングのための3次元物体再構成と2次元形状からの6次元位置推定

3D object reconstruction and 6D-pose estimation from 2D shape for robotic grasping of objects ( http://arxiv.org/abs/2203.01051v1 )

ライセンス: Link先を確認
Marcell Wolnitza, Osman Kaya, Tomas Kulvicius, Florentin W\"org\"otter and Babette Dellen(参考訳) 本稿では,物体形状の知識を主キーとする2次元画像からの3次元物体再構成と6次元位置推定手法を提案する。 提案するパイプラインでは、2次元画像中の物体の認識とラベリングは、認識されたオブジェクトクラスを表す3次元モデルの様々なビューから得られた投影の2次元シルエットと比較される2次元セグメントシルエットを提供する。 2d画像から変換パラメータを直接計算することにより、登録プロセス中に必要となる自由パラメータの数を削減し、アプローチが実現可能となる。 さらに、3次元変換と射影幾何学を用いて、キャリブレーション設定を用いてカメラ空間内の物体の完全な3次元再構成を行う。 第2のカメラを含めると、残りの曖昧さを解消できる。 本手法は, 合成データを用いて定量的に評価し, 実データを用いて検証し, 有名なLinemodデータセットに対する追加結果を示す。 ロボット実験では,物体の把握に成功し,実環境におけるユーザビリティを実証し,可能であれば他の方法との比較を行う。 この方法はCADモデルや点雲などの3次元オブジェクトモデルが利用可能であり、2次元画像の正確なピクセルワイドセグメンテーションマップを得ることができるシナリオに適用できる。 他の方法とは異なり、この方法はトレーニングに3D深度を使用しず、アプリケーションの領域を広げる。

We propose a method for 3D object reconstruction and 6D-pose estimation from 2D images that uses knowledge about object shape as the primary key. In the proposed pipeline, recognition and labeling of objects in 2D images deliver 2D segment silhouettes that are compared with the 2D silhouettes of projections obtained from various views of a 3D model representing the recognized object class. By computing transformation parameters directly from the 2D images, the number of free parameters required during the registration process is reduced, making the approach feasible. Furthermore, 3D transformations and projective geometry are employed to arrive at a full 3D reconstruction of the object in camera space using a calibrated set up. Inclusion of a second camera allows resolving remaining ambiguities. The method is quantitatively evaluated using synthetic data and tested with real data, and additional results for the well-known Linemod data set are shown. In robot experiments, successful grasping of objects demonstrates its usability in real-world environments, and, where possible, a comparison with other methods is provided. The method is applicable to scenarios where 3D object models, e.g., CAD-models or point clouds, are available and precise pixel-wise segmentation maps of 2D images can be obtained. Different from other methods, the method does not use 3D depth for training, widening the domain of application.
翻訳日:2022-03-03 15:28:06 公開日:2022-03-02
# 心臓MRIにおける心筋形状とポーズパラメータのセグメンテーション誘導予測のための形状制約CNN

Shape constrained CNN for segmentation guided prediction of myocardial shape and pose parameters in cardiac MRI ( http://arxiv.org/abs/2203.01089v1 )

ライセンス: Link先を確認
Sofie Tilborghs, Jan Bogaert, Frederik Maes(参考訳) 畳み込みニューラルネットワーク(CNN)を用いたセマンティックセグメンテーションは、心臓MRI画像における心筋セグメンテーションを含む多くの医療画像セグメンテーションタスクの最先端技術である。 しかし, 標準cnnから得られた予測されたセグメンテーションマップでは, 局所壁厚などの局所形状特性を直接定量化することはできない。 さらに、CNNには明確な形状制約がなく、時には非現実的なセグメンテーションをもたらす。 本稿では, cnnを用いて, 画像のトレーニングセットから学習した心筋の統計的形状モデルの形状パラメータを予測した。 さらに、心臓のポーズが予測され、心筋輪郭を再構築することができる。 統合形状モデルは予測輪郭を規則化し、現実的な形状を保証する。 訓練中,ピクセル単位のセマンティクスセグメンテーションを同時に実行して,形状とポーズのロバスト性を実行し,予測した2つの表現間の一貫性を課す2つの損失関数(距離単位の損失と重複単位の損失)を定義する。 提案手法を,75名の被験者とACDCおよびLVQuan19公開データセットを用いた社内臨床データセットの5倍のクロス検証で評価した。 形状パラメータの予測に,同時セマンティックセグメンテーションと2つの新たに定義された損失関数の利点を示す。 3つのデータセットで左室(lv)面積99%,心筋面積91%から97%,lv次元98-99%,局所壁厚80%から92%の相関を得た。

Semantic segmentation using convolutional neural networks (CNNs) is the state-of-the-art for many medical image segmentation tasks including myocardial segmentation in cardiac MR images. However, the predicted segmentation maps obtained from such standard CNN do not allow direct quantification of regional shape properties such as regional wall thickness. Furthermore, the CNNs lack explicit shape constraints, occasionally resulting in unrealistic segmentations. In this paper, we use a CNN to predict shape parameters of an underlying statistical shape model of the myocardium learned from a training set of images. Additionally, the cardiac pose is predicted, which allows to reconstruct the myocardial contours. The integrated shape model regularizes the predicted contours and guarantees realistic shapes. We enforce robustness of shape and pose prediction by simultaneously performing pixel-wise semantic segmentation during training and define two loss functions to impose consistency between the two predicted representations: one distance-based loss and one overlap-based loss. We evaluated the proposed method in a 5-fold cross validation on an in-house clinical dataset with 75 subjects and on the ACDC and LVQuan19 public datasets. We show the benefits of simultaneous semantic segmentation and the two newly defined loss functions for the prediction of shape parameters. Our method achieved a correlation of 99% for left ventricular (LV) area on the three datasets, between 91% and 97% for myocardial area, 98-99% for LV dimensions and between 80% and 92% for regional wall thickness.
翻訳日:2022-03-03 15:27:47 公開日:2022-03-02
# (参考訳) リコメンダシステムにおける説明の因果的評価 [全文訳有]

Counterfactually Evaluating Explanations in Recommender Systems ( http://arxiv.org/abs/2203.01310v1 )

ライセンス: CC BY 4.0
Yuanshun Yao and Chong Wang and Hang Li(参考訳) 現代のレコメンデーションシステムは、レコメンデーションを説明する必要性が高まっている。 この領域でかなりの進歩があったにもかかわらず、説明の質を評価することは研究者や実践者にとって重要な課題である。 先行研究は、説明の質を評価するために主に人間の研究を行い、それは通常高価で、時間のかかるものであり、人間のバイアスになりやすい。 本稿では,人間の関与なしに計算できるオフライン評価手法を提案する。 本手法は,提案手法の推奨に対する効果を定量的に評価する。 本手法の有効性を検証するため,オンラインユーザ調査を行った。 従来の手法と比較して,本手法は実際の人的判断とより相関する評価スコアを生成できるので,人的評価の指標として有効であることを示す。 また,評価スコアの高い説明は,人間による評価が優れていることを示す。 本研究は,レコメンデーション説明を評価する一つの方法として,反事実的アプローチを使うことの有望な方向性を浮き彫りにしている。

Modern recommender systems face an increasing need to explain their recommendations. Despite considerable progress in this area, evaluating the quality of explanations remains a significant challenge for researchers and practitioners. Prior work mainly conducts human study to evaluate explanation quality, which is usually expensive, time-consuming, and prone to human bias. In this paper, we propose an offline evaluation method that can be computed without human involvement. To evaluate an explanation, our method quantifies its counterfactual impact on the recommendation. To validate the effectiveness of our method, we carry out an online user study. We show that, compared to conventional methods, our method can produce evaluation scores more correlated with the real human judgments, and therefore can serve as a better proxy for human evaluation. In addition, we show that explanations with high evaluation scores are considered better by humans. Our findings highlight the promising direction of using the counterfactual approach as one possible way to evaluate recommendation explanations.
翻訳日:2022-03-03 15:26:32 公開日:2022-03-02
# 過去における誤りは未来の知恵 - 中国語スペルチェックのための誤り駆動型コントラスト確率最適化

The Past Mistake is the Future Wisdom: Error-driven Contrastive Probability Optimization for Chinese Spell Checking ( http://arxiv.org/abs/2203.00991v1 )

ライセンス: Link先を確認
Yinghui Li, Qingyu Zhou, Yangning Li, Zhongli Li, Ruiyang Liu, Rongyi Sun, Zizhen Wang, Chao Li, Yunbo Cao, Hai-Tao Zheng(参考訳) 中国語のスペルチェック(csc)は、主に音韻学的または視覚的類似性によって引き起こされる中国語のスペルエラーの検出と修正を目的としている。 近年,プレトレーニング言語モデル (PLM) はCSCタスクの進行を促進する。 しかし、PLMの学習知識とCSCタスクの目標との間にはギャップがある。 PLMはテキストのセマンティクスに重点を置いており、誤字を意味的に適切な文字または一般的に使用される文字に修正する傾向があるが、これらは基礎的な修正ではない。 この問題に対処するために,CSCタスクのためのエラー駆動型共役確率最適化(ECOPO)フレームワークを提案する。 ECOPO は PLM の知識表現を洗練し、これらの共通文字をエラー駆動方式で予測しないようにモデルを導く。 特に、ECOPOはモデルに依存しないため、既存のCSCメソッドと組み合わせてパフォーマンスを向上させることができる。 SIGHANデータセットに関する大規模な実験と詳細な分析により、ECOPOは単純だが有効であることが示された。

Chinese Spell Checking (CSC) aims to detect and correct Chinese spelling errors, which are mainly caused by the phonological or visual similarity. Recently, pre-trained language models (PLMs) promote the progress of CSC task. However, there exists a gap between the learned knowledge of PLMs and the goal of CSC task. PLMs focus on the semantics in text and tend to correct the erroneous characters to semantically proper or commonly used ones, but these aren't the ground-truth corrections. To address this issue, we propose an Error-driven COntrastive Probability Optimization (ECOPO) framework for CSC task. ECOPO refines the knowledge representations of PLMs, and guides the model to avoid predicting these common characters through an error-driven way. Particularly, ECOPO is model-agnostic and it can be combined with existing CSC methods to achieve better performance. Extensive experiments and detailed analyses on SIGHAN datasets demonstrate that ECOPO is simple yet effective.
翻訳日:2022-03-03 14:51:04 公開日:2022-03-02
# 解析スパースモデルを用いた逆問題に対する安定で正確で効率的なディープニューラルネットワーク

Stable, accurate and efficient deep neural networks for inverse problems with analysis-sparse models ( http://arxiv.org/abs/2203.00804v1 )

ライセンス: Link先を確認
Maksym Neyra-Nesterenko, Ben Adcock(参考訳) 逆問題の解決は科学、工学、数学の基本的な構成要素である。 ディープラーニングの出現により、ディープニューラルネットワークは、既存の最先端のモデルベースの逆問題を解く方法よりも優れた可能性を秘めている。 しかし、現在のデータ駆動アプローチは、特に不安定性や幻覚といったいくつかの重要な問題に直面しており、医療画像のような重要なタスクに潜在的に影響を及ぼすことが知られている。 これは、逆問題に対して安定で正確なディープニューラルネットワークを構築することができるかどうかという重要な疑問を提起する。 本研究では,一般解析スパースモデルを用いた逆問題に対する高精度で安定かつ効率的なニューラルネットワークの構築を提案する。 ネットワークを構築するために,凸最適化のための高速化一階法nestaを展開する。 圧縮センシング解析と組み合わせて,精度と安定性を検証した。 最後に、ネットワークの深さを指数関数的に減少させ、より浅く、その結果、ネットワークをより効率的にする再起動方式を採用する。 本稿では,フーリエ画像の場合のこのアプローチを紹介し,その安定性と性能を一連の数値実験により検証する。 この研究の重要な影響は、実際に安定したニューラルネットワークを計算および開発するための理論的保証を提供することである。

Solving inverse problems is a fundamental component of science, engineering and mathematics. With the advent of deep learning, deep neural networks have significant potential to outperform existing state-of-the-art, model-based methods for solving inverse problems. However, it is known that current data-driven approaches face several key issues, notably instabilities and hallucinations, with potential impact in critical tasks such as medical imaging. This raises the key question of whether or not one can construct stable and accurate deep neural networks for inverse problems. In this work, we present a novel construction of an accurate, stable and efficient neural network for inverse problems with general analysis-sparse models. To construct the network, we unroll NESTA, an accelerated first-order method for convex optimization. Combined with a compressed sensing analysis, we prove accuracy and stability. Finally, a restart scheme is employed to enable exponential decay of the required network depth, yielding a shallower, and consequently more efficient, network. We showcase this approach in the case of Fourier imaging, and verify its stability and performance via a series of numerical experiments. The key impact of this work is to provide theoretical guarantees for computing and developing stable neural networks in practice.
翻訳日:2022-03-03 14:50:46 公開日:2022-03-02
# 責任AI設計:責任AIシステム設計のためのパターンコレクション

Responsible-AI-by-De sign: a Pattern Collection for Designing Responsible AI Systems ( http://arxiv.org/abs/2203.00905v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle(参考訳) AIは社会を変える大きな可能性を秘めているが、その行動と決定を責任を持って行う能力には深刻な懸念がある。 責任あるaiに関する多くの倫理的規則、原則、ガイドラインが最近発行されている。 しかし、これらの原則はハイレベルであり、実行が難しい。 その間、アルゴリズムの観点からは責任あるAIに多くの努力が注がれているが、それらは数学的分析に対処可能な倫理原則のごく一部に限られている。 責任のあるAI問題は、データやアルゴリズムを越えて、多くのシステムコンポーネントとソフトウェアエンジニアリングライフサイクル全体を横断するシステムレベルに置かれることが多い。 体系的な文献レビューの結果に基づき、本論文では、システムレベルのガイダンスとして、責任あるAIシステムのアーキテクチャをどのように設計するかという、欠落した要素を識別する。 本稿では、AIシステムに組み込んだデザインパターンを製品として紹介し、責任あるAI設計に貢献する。

Although AI has significant potential to transform society, there are serious concerns about its ability to behave and make decisions responsibly. Many ethical regulations, principles, and guidelines for responsible AI have been issued recently. However, these principles are high-level and difficult to put into practice. In the meantime much effort has been put into responsible AI from the algorithm perspective, but they are limited to a small subset of ethical principles amenable to mathematical analysis. Responsible AI issues go beyond data and algorithms and are often at the system-level crosscutting many system components and the entire software engineering lifecycle. Based on the result of a systematic literature review, this paper identifies one missing element as the system-level guidance: how to design the architecture of responsible AI systems. We present a summary of design patterns that can be embedded into the AI systems as product features to contribute to responsible-AI-by-de sign.
翻訳日:2022-03-03 14:49:02 公開日:2022-03-02
# PKGM:Eコマースアプリケーションのための学習済み知識グラフモデル

PKGM: A Pre-trained Knowledge Graph Model for E-commerce Application ( http://arxiv.org/abs/2203.00964v1 )

ライセンス: Link先を確認
Wen Zhang, Chi-Man Wong, Ganqinag Ye, Bo Wen, Hongting Zhou, Wei Zhang, Huajun Chen(参考訳) 近年、知識グラフはデータの組織化の一貫した手法として広く採用され、知識を必要とする多くのタスクを強化してきた。 オンラインショッピングプラットフォームのTaobaoでは、数十億規模のeコマース製品知識グラフを構築しました。 データを一様に整理し、アイテムレコメンデーションなどの様々なタスクにアイテムナレッジサービスを提供する。 通常、このような知識サービスは三重データを通じて提供され、この実装には、(1)製品知識グラフ上での退屈なデータ選択、(2)タスクモデル設計が三重データ知識を注入する。 さらに重要なことに、製品ナレッジグラフは完成から程遠いので、結果としてエラーが知識強化タスクに伝播する。 これらの問題を回避するため,10億の製品知識グラフを対象とした事前学習知識グラフモデル(PKGM)を提案する。 一方、三重データにアクセスせずに、埋め込みベースおよびアイテム知識関連タスクモデルのためのサービスベクターを統一した方法でアイテムナレッジサービスを提供できる。 一方、サービスは暗黙的に完成した製品知識グラフに基づいて提供され、共通する不完全な問題を克服します。 また,pkgmからのサービスベクトルを下流タスクモデルに統合する方法を2つ提案する。 我々はPKGMを5つの知識関連タスク、項目分類、項目解決、項目推薦、シーン検出、シーケンシャルレコメンデーションでテストする。 実験の結果,PKGMはこれらのタスクに対して大きな性能向上をもたらし,PKGMのサービスベクトルの有用性が示された。

In recent years, knowledge graphs have been widely applied as a uniform way to organize data and have enhanced many tasks requiring knowledge. In online shopping platform Taobao, we built a billion-scale e-commerce product knowledge graph. It organizes data uniformly and provides item knowledge services for various tasks such as item recommendation. Usually, such knowledge services are provided through triple data, while this implementation includes (1) tedious data selection works on product knowledge graph and (2) task model designing works to infuse those triples knowledge. More importantly, product knowledge graph is far from complete, resulting error propagation to knowledge enhanced tasks. To avoid these problems, we propose a Pre-trained Knowledge Graph Model (PKGM) for the billion-scale product knowledge graph. On the one hand, it could provide item knowledge services in a uniform way with service vectors for embedding-based and item-knowledge-relat ed task models without accessing triple data. On the other hand, it's service is provided based on implicitly completed product knowledge graph, overcoming the common the incomplete issue. We also propose two general ways to integrate the service vectors from PKGM into downstream task models. We test PKGM in five knowledge-related tasks, item classification, item resolution, item recommendation, scene detection and sequential recommendation. Experimental results show that PKGM introduces significant performance gains on these tasks, illustrating the useful of service vectors from PKGM.
翻訳日:2022-03-03 14:48:49 公開日:2022-03-02
# より表現力の低い論理プログラムの構成について

On the Configuration of More and Less Expressive Logic Programs ( http://arxiv.org/abs/2203.01024v1 )

ライセンス: Link先を確認
Carmine Dodaro, Marco Maratea, Mauro Vallati(参考訳) ある問題の表現、すなわちその知識モデルと推論側との疎結合は、モデルベース人工知能(AI)の主要な強みの1つである。 これにより、例えば、問題解決プロセス全体に利点を与えることで、推論側の改善に集中することができる。 さらに、多くの解法が入力の構文変化にも非常に敏感であることも知られている。 本稿では,このような感度の利点を生かして推論面の改善に着目する。 SATとASPの2つのよく知られたモデルベースAI手法について検討し、入力を特徴付けるいくつかの構文的特徴を定義し、自動設定ツールを使用して入力式やプログラムを再構成する。 各競合から抽出したSATドメインとASPドメインに関する広範な実験的分析の結果は、入力の再構成と構成を用いて得られる様々な利点を示している。 論理プログラミングの理論と実践(tplp)における考察。

The decoupling between the representation of a certain problem, i.e., its knowledge model, and the reasoning side is one of main strong points of model-based Artificial Intelligence (AI). This allows, e.g. to focus on improving the reasoning side by having advantages on the whole solving process. Further, it is also well-known that many solvers are very sensitive to even syntactic changes in the input. In this paper, we focus on improving the reasoning side by taking advantages of such sensitivity. We consider two well-known model-based AI methodologies, SAT and ASP, define a number of syntactic features that may characterise their inputs, and use automated configuration tools to reformulate the input formula or program. Results of a wide experimental analysis involving SAT and ASP domains, taken from respective competitions, show the different advantages that can be obtained by using input reformulation and configuration. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-03-03 14:48:23 公開日:2022-03-02
# 事前学習した言語生成モデルの焦点制御

Controlling the Focus of Pretrained Language Generation Models ( http://arxiv.org/abs/2203.01146v1 )

ライセンス: Link先を確認
Jiabao Ji, Yoon Kim, James Glass, Tianxing He(参考訳) 事前訓練されたトランスフォーマーベースの言語生成モデルの微調整は、通常エンドツーエンドで行われ、モデルが入力の関連部分に自身で従うことを学習する。 しかし、モデルの焦点を直接制御するメカニズムは存在しない。 本研究は,ユーザがコンテキストのスパンを"ハイライト"として選択し,モデルが焦点を合わせ,関連するアウトプットを生成する制御機構を開発することを目的とする。 この目的を達成するために、モデル自体が固定されている間、モデルの埋め込みに直接適用されるトレーニング可能な「フォーカスベクトル」で事前訓練されたモデルを拡張する。 これらのベクトルは帰属法から派生した自動アノテーションに基づいて訓練され、文脈の重要性を示す指標として機能する。 提案手法は対話応答生成と抽象要約という2つのコア生成タスクでテストする。 また,ハイライトジェネレーションペアが人間によって注釈付けされる評価データも収集する。 実験の結果,訓練された焦点ベクトルは,ユーザの選択したハイライトに関連する出力を生成するためにモデルを操るのに有効であることがわかった。

The finetuning of pretrained transformer-based language generation models are typically conducted in an end-to-end manner, where the model learns to attend to relevant parts of the input by itself. However, there does not exist a mechanism to directly control the model's focus. This work aims to develop a control mechanism by which a user can select spans of context as "highlights" for the model to focus on, and generate relevant output. To achieve this goal, we augment a pretrained model with trainable "focus vectors" that are directly applied to the model's embeddings, while the model itself is kept fixed. These vectors, trained on automatic annotations derived from attribution methods, act as indicators for context importance. We test our approach on two core generation tasks: dialogue response generation and abstractive summarization. We also collect evaluation data where the highlight-generation pairs are annotated by humans. Our experiments show that the trained focus vectors are effective in steering the model to generate outputs that are relevant to user-selected highlights.
翻訳日:2022-03-03 14:48:08 公開日:2022-03-02
# 直交意味論における逆問題の解析解

Analytical Solutions for the Inverse Problem within Gradual Semantics ( http://arxiv.org/abs/2203.01201v1 )

ライセンス: Link先を確認
Nir Oren, Bruno Yun, Assaf Libman, Murilo S. Baptista(参考訳) 抽象的議論における漸進的意味論は、システム内の全ての引数と数値的スコアを関連付け、この引数の受容可能性のレベルを表し、引数よりも優先順序付けを導出することができる。 いくつかのセマンティクスは標準的な議論フレームワーク上で機能するが、多くの場合、数値の初期重みが各引数に関連付けられている重み付きフレームワークを利用する。 最近の研究は、段階的意味論における逆問題を検討した。 議論フレームワークと意味論が与えられた選好順序を決定するのではなく、逆問題は議論フレームワーク、段階的な意味論、そして選好順序を入力として取り、望ましい選好順序を得るためにフレームワーク内の議論を超越するためにどのような重みが必要なのかを識別する。 既存の研究は、ルート探索アルゴリズム(バイセクション法)を用いて、逆問題に対して数値的に攻撃を行った。 本稿では,段階的意味論のクラスにおいて,逆問題の解法として解析的アプローチを用いることを実証する。 現在の最先端技術とは異なり、このような分析的アプローチは迅速に解決策を見つけることができ、それが保証される。 この結果を得るためには、先行研究が予想として提示したいくつかの重要な性質を証明できる。

Gradual semantics within abstract argumentation associate a numeric score with every argument in a system, which represents the level of acceptability of this argument, and from which a preference ordering over arguments can be derived. While some semantics operate over standard argumentation frameworks, many utilise a weighted framework, where a numeric initial weight is associated with each argument. Recent work has examined the inverse problem within gradual semantics. Rather than determining a preference ordering given an argumentation framework and a semantics, the inverse problem takes an argumentation framework, a gradual semantics, and a preference ordering as inputs, and identifies what weights are needed to over arguments in the framework to obtain the desired preference ordering. Existing work has attacked the inverse problem numerically, using a root finding algorithm (the bisection method) to identify appropriate initial weights. In this paper we demonstrate that for a class of gradual semantics, an analytical approach can be used to solve the inverse problem. Unlike the current state-of-the-art, such an analytic approach can rapidly find a solution, and is guaranteed to do so. In obtaining this result, we are able to prove several important properties which previous work had posed as conjectures.
翻訳日:2022-03-03 14:47:53 公開日:2022-03-02
# 運転監視システムにおけるロバストシートベルト検出と利用認識

Robust Seatbelt Detection and Usage Recognition for Driver Monitoring Systems ( http://arxiv.org/abs/2203.00810v1 )

ライセンス: Link先を確認
Feng Hu(参考訳) 運転中にシートベルトを適切に着用すると、重傷や死亡事故を約半分減らすことができる。 しかし、現在のシートベルトリマインダーシステムは「シートベルト警告ストッパー」によって容易に騙されるような複数の欠点があり、座ったシートベルトの前に座ったり、腕の下にシートベルトを着けたりといった誤用を認識できない。 一般的なシートベルト使用認識には、赤外線(ir)カメラの色情報不足、広視野(fov)魚眼レンズによる強い歪み、ベルトと背景のコントラストの低さ、手や髪による閉塞、画像のぼやけなど、多くの課題がある。 本稿では,上記の課題を解決するために,新しいシートベルト検出・使用法認識フレームワークを提案する。 本手法は, 局所予測器, グローバルアセンブラ, 形状モデリングプロセスという3つの要素からなる。 本手法は,ドライバ監視システム(DMS)のドライバや,Occupant Monitoring System(OMS)の一般ユーザに対して,様々なカメラモードで適用することができる。 提案手法の精度とロバスト性を示すため, DMS と OMS の両実験を行った。

Wearing a seatbelt appropriately while driving can reduce serious crash-related injuries or deaths by about half. However, current seatbelt reminder system has multiple shortcomings, such as can be easily fooled by a "Seatbelt Warning Stopper", and cannot recognize incorrect usages for example seating in front of a buckled seatbelt or wearing a seatbelt under the arm. General seatbelt usage recognition has many challenges, to name a few, lacking of color information in Infrared (IR) cameras, strong distortion caused by wide Field of View (FoV) fisheye lens, low contrast between belt and its background, occlusions caused by hands or hair, and imaging blurry. In this paper, we introduce a novel general seatbelt detection and usage recognition framework to resolve the above challenges. Our method consists of three components: a local predictor, a global assembler, and a shape modeling process. Our approach can be applied to the driver in the Driver Monitoring System (DMS) or general passengers in the Occupant Monitoring System (OMS) for various camera modalities. Experiment results on both DMS and OMS are provided to demonstrate the accuracy and robustness of the proposed approach.
翻訳日:2022-03-03 14:47:00 公開日:2022-03-02
# 3DCTN:ポイントクラウド分類のための3次元畳み込み変換ネットワーク

3DCTN: 3D Convolution-Transfor mer Network for Point Cloud Classification ( http://arxiv.org/abs/2203.00828v1 )

ライセンス: Link先を確認
Dening Lu, Qian Xie, Linlin Xu, Jonathan Li(参考訳) 正確で高速なポイントクラウド分類は、3dアプリケーションでは基本的なタスクであるが、ポイントクラウドの不規則性と乱れのため、効果的で効率的なグローバル判別的特徴学習を達成することが困難である。 近年、ポイントクラウド処理を改善するために3dトランスフォーマーが採用されている。 それでも、巨大なTransformer層は計算とメモリのコストを発生させる傾向がある。 本稿では,3D Convolution-Transfor mer Network(3DCTN)という3D Convolution-Transfor mer Network(3DCTN)という,Transformerとの畳み込みを取り入れた新しい階層型フレームワークを提案する。 本手法は,2つの主モジュールをダウンサンプリング点集合上で動作させ,各モジュールは,グラフ畳み込みと変換器を用いて実装したマルチスケールローカル特徴集約(LFA)ブロックとグローバル特徴学習(GFL)ブロックで構成される。 また,ネットワークの性能向上を追求するため,トランスフォーマーの変種について詳細な調査を行った。 ModelNet40の様々な実験により,提案手法は精度と効率の両面から最先端の分類性能を実現することを示した。

Although accurate and fast point cloud classification is a fundamental task in 3D applications, it is difficult to achieve this purpose due to the irregularity and disorder of point clouds that make it challenging to achieve effective and efficient global discriminative feature learning. Lately, 3D Transformers have been adopted to improve point cloud processing. Nevertheless, massive Transformer layers tend to incur huge computational and memory costs. This paper presents a novel hierarchical framework that incorporates convolution with Transformer for point cloud classification, named 3D Convolution-Transfor mer Network (3DCTN), to combine the strong and efficient local feature learning ability of convolution with the remarkable global context modeling capability of Transformer. Our method has two main modules operating on the downsampling point sets, and each module consists of a multi-scale local feature aggregating (LFA) block and a global feature learning (GFL) block, which are implemented by using Graph Convolution and Transformer respectively. We also conduct a detailed investigation on a series of Transformer variants to explore better performance for our network. Various experiments on ModelNet40 demonstrate that our method achieves state-of-the-art classification performance, in terms of both accuracy and efficiency.
翻訳日:2022-03-03 14:45:41 公開日:2022-03-02
# X-Trans2Cap:3次元ディエンスキャプションのためのトランスフォーマを用いたクロスモーダル知識伝達

X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning ( http://arxiv.org/abs/2203.00843v1 )

ライセンス: Link先を確認
Zhihao Yuan, Xu Yan, Yinghong Liao, Yao Guo, Guanbin Li, Zhen Li, Shuguang Cui(参考訳) 3dの高密度キャプションは、自然言語による個々のオブジェクトを3dシーンで表現することを目的としている。 しかし、ポイントクラウドのような単一のモーダル情報のみを活用すれば、以前のアプローチでは忠実な記述が得られない。 2d機能をポイントクラウドに集約することは有益かもしれないが、特に推論フェーズにおいて余分な計算負荷をもたらす。 本研究では,トランスフォーマーを用いた3次元高密度キャプション用X-Trans2Capを用いたクロスモーダルな知識伝達について検討し,教師学習フレームワークを用いた知識蒸留による単一モーダル3Dキャプションの性能向上を図る。 実際には、トレーニングフェーズの間、教師ネットワークは補助的な2Dモダリティを利用して、特徴整合性制約を通じてポイントクラウドのみを入力とする学生ネットワークを誘導する。 X-Trans2Capは、よく設計されたクロスモーダル機能融合モジュールとトレーニングフェーズにおける特徴アライメントにより、2D画像に埋め込まれたリッチな外観情報を容易に取得する。 したがって、より忠実なキャプションは、推論中にポイントクラウドのみを使用して生成される。 質的および定量的な結果から、x-trans2capは、scanreferとnr3dのデータセットにおいて、それぞれ約+21と約+16の絶対ciderスコアにおいて、以前の最先端を上回っています。

3D dense captioning aims to describe individual objects by natural language in 3D scenes, where 3D scenes are usually represented as RGB-D scans or point clouds. However, only exploiting single modal information, e.g., point cloud, previous approaches fail to produce faithful descriptions. Though aggregating 2D features into point clouds may be beneficial, it introduces an extra computational burden, especially in inference phases. In this study, we investigate a cross-modal knowledge transfer using Transformer for 3D dense captioning, X-Trans2Cap, to effectively boost the performance of single-modal 3D caption through knowledge distillation using a teacher-student framework. In practice, during the training phase, the teacher network exploits auxiliary 2D modality and guides the student network that only takes point clouds as input through the feature consistency constraints. Owing to the well-designed cross-modal feature fusion module and the feature alignment in the training phase, X-Trans2Cap acquires rich appearance information embedded in 2D images with ease. Thus, a more faithful caption can be generated only using point clouds during the inference. Qualitative and quantitative results confirm that X-Trans2Cap outperforms previous state-of-the-art by a large margin, i.e., about +21 and about +16 absolute CIDEr score on ScanRefer and Nr3D datasets, respectively.
翻訳日:2022-03-03 14:45:18 公開日:2022-03-02
# 野生の車線検出システムに対するクリーンアノテーションバックドア攻撃

Clean-Annotation Backdoor Attack against Lane Detection Systems in the Wild ( http://arxiv.org/abs/2203.00858v1 )

ライセンス: Link先を確認
Xingshuo Han, Guowen Xu, Yuan Zhou, Xuehuan Yang, Jiwei Li, Tianwei Zhang(参考訳) 物理的世界における車線検出システムに対する最初のバックドア攻撃を提示する。 現代の自動運転車は、車線検出モデルを訓練するために様々なディープラーニング手法を採用している。 提案手法では,(1)特定のポーズと位置を持ったトラヒックコーンを利用してバックドアをアクティベートする,新しいセマンティックトリガー設計を提案する。 このようなトリガーは物理的な設定で容易に実現でき、検出されないのは自然に見えます。 2) 汚染試料を生成するための新しいクリーンアノテーション手法を提案する。 これらのサンプルは正しいアノテーションを持っているが、モデルにバックドアを埋め込むことができる。 パブリックデータセットと物理的自動運転車に関する総合的な評価は、我々のバックドア攻撃が効果的でステルス的で堅牢であることを示しています。

We present the first backdoor attack against the lane detection systems in the physical world. Modern autonomous vehicles adopt various deep learning methods to train lane detection models, making it challenging to devise a universal backdoor attack technique. In our solution, (1) we propose a novel semantic trigger design, which leverages the traffic cones with specific poses and locations to activate the backdoor. Such trigger can be easily realized under the physical setting, and looks very natural not to be detected. (2) We introduce a new clean-annotation approach to generate poisoned samples. These samples have correct annotations but are still capable of embedding the backdoor to the model. Comprehensive evaluations on public datasets and physical autonomous vehicles demonstrate that our backdoor attack is effective, stealthy and robust.
翻訳日:2022-03-03 14:44:49 公開日:2022-03-02
# MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video

MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose Estimation in Video ( http://arxiv.org/abs/2203.00859v1 )

ライセンス: Link先を確認
Jinlu Zhang, Zhigang Tu, Jianyu Yang, Yujin Chen, Junsong Yuan(参考訳) 近年,全フレームの身体関節を考慮した2次元キーポイントシーケンスから3次元人物ポーズを推定するトランスフォーマティブ・ソリューションが提案されている。 異なる関節の運動が異なることが観察された。 しかし,前者は各関節の立体的フレーム間対応を効率的にモデル化できないため,空間-時間相関の学習が不十分である。 本研究では,各関節の時間運動を別々にモデル化する時間的トランスフォーマブロックと,空間的トランスフォーマブロックとを有するmixste(mixed spatio-temporal encoder)を提案する。 これら2つのブロックは交互に利用され、時空間的特徴エンコーディングが向上する。 さらに、ネットワーク出力は、入力ビデオの中央フレームから全体フレームに拡張され、入力シーケンスと出力シーケンスとのコヒーレンスが改善される。 提案手法を評価するために,Human3.6M,MPI-INF-3 DHP,HumanEvaの3つのベンチマーク実験を行った。 その結果,Human3.6Mデータセットでは,P-MPJPEが10.9%,MPJPEが7.6%向上した。 コードは補足資料で利用可能です。

Recent transformer-based solutions have been introduced to estimate 3D human pose from 2D keypoint sequence by considering body joints among all frames globally to learn spatio-temporal correlation. We observe that the motions of different joints differ significantly. However, the previous methods cannot efficiently model the solid inter-frame correspondence of each joint, leading to insufficient learning of spatial-temporal correlation. We propose MixSTE (Mixed Spatio-Temporal Encoder), which has a temporal transformer block to separately model the temporal motion of each joint and a spatial transformer block to learn inter-joint spatial correlation. These two blocks are utilized alternately to obtain better spatio-temporal feature encoding. In addition, the network output is extended from the central frame to entire frames of the input video, thereby improving the coherence between the input and output sequences. Extensive experiments are conducted on three benchmarks (i.e. Human3.6M, MPI-INF-3DHP, and HumanEva) to evaluate the proposed method. The results show that our model outperforms the state-of-the-art approach by 10.9% P-MPJPE and 7.6% MPJPE on the Human3.6M dataset. Code is available in our supplementary materials.
翻訳日:2022-03-03 14:44:37 公開日:2022-03-02
# d^2etr:計算効率の高いクロススケール注意を伴うデコーダのみのdetr

D^2ETR: Decoder-Only DETR with Computationally Efficient Cross-Scale Attention ( http://arxiv.org/abs/2203.00860v1 )

ライセンス: Link先を確認
Junyu Lin, Xiaofeng Mao, Yuefeng Chen, Lei Xu, Yuan He, Hui Xue(参考訳) detrは、最終セットの予測を後処理なしで予測する最初のエンドツーエンド検出器である。 しかし、パフォーマンスの低下や収束の遅さといった問題に苦しむ。 様々な方法でこれらの問題に取り組むことを目的としているが、高度なエンコーダ・デコーダアーキテクチャのために計算コストは高い。 この問題を軽減するため,D^2ETRと呼ばれるデコーダのみの検出器を提案する。 エンコーダがない場合、デコーダはトランスフォーマーバックボーンが生成する細分化した特徴写像に直接、新しい計算効率の良いクロススケールアテンションモジュールを付加する。 D^2ETRはCOCOベンチマークの評価において計算複雑性が低く、高い検出精度を示す。

DETR is the first fully end-to-end detector that predicts a final set of predictions without post-processing. However, it suffers from problems such as low performance and slow convergence. A series of works aim to tackle these issues in different ways, but the computational cost is yet expensive due to the sophisticated encoder-decoder architecture. To alleviate this issue, we propose a decoder-only detector called D^2ETR. In the absence of encoder, the decoder directly attends to the fine-fused feature maps generated by the Transformer backbone with a novel computationally efficient cross-scale attention module. D^2ETR demonstrates low computational complexity and high detection accuracy in evaluations on the COCO benchmark, outperforming DETR and its variants.
翻訳日:2022-03-03 14:44:10 公開日:2022-03-02
# スタイルバース:異種ドメイン間のアイデンティティスタイライゼーションに向けて

Styleverse: Towards Identity Stylization across Heterogeneous Domains ( http://arxiv.org/abs/2203.00861v1 )

ライセンス: Link先を確認
Jia Li, Jie Cao, JunXian Duan, Ran He(参考訳) 本稿では,異種ドメイン間のidスタイライゼーション(ids)という新たな課題を提案する。 IDSは、参照IDを使って完全に置き換えるのではなく、コンテンツIDをスタイリングすることに焦点を当てている。 提案したデータセットFS13の限られたデータに基づいて,単一のドメイン認識ジェネレータを使用して多種多様な異種顔のメタバースを利用する。 FS13は、様々な照明条件、芸術表現、生活次元を考慮した13種類のフェイススタイルを意味する。 以前の同様のタスクである \eg, image style transferは、参照イメージに基づいてテキスト形式の転送を処理できる。 このタスクは、通常、高構造認識された顔領域と、コンテンツの高忠実性保存を無視する。 しかし、StyleverseはParallel Style Universeでトポロジーを意識した顔のコントロールを行おうとしており、AdaINを通じて、異種事前学習モデルからのドメイン認識および参照認識スタイルの埋め込みによって、ソースの顔のアイデンティティを適応的にスタイル付けしている。 まずIDS定量的なベンチマークと定性的スタイルバース行列を確立する。 広範な実験により、スタイルバースは他の最先端の手法と比較して高い忠実度のアイデンティティスタイライゼーションを達成できることが示されている。

We propose a new challenging task namely IDentity Stylization (IDS) across heterogeneous domains. IDS focuses on stylizing the content identity, rather than completely swapping it using the reference identity. We use an effective heterogeneous-networ k-based framework $Styleverse$ that uses a single domain-aware generator to exploit the Metaverse of diverse heterogeneous faces, based on the proposed dataset FS13 with limited data. FS13 means 13 kinds of Face Styles considering diverse lighting conditions, art representations and life dimensions. Previous similar tasks, \eg, image style transfer can handle textural style transfer based on a reference image. This task usually ignores the high structure-aware facial area and high-fidelity preservation of the content. However, Styleverse intends to controllably create topology-aware faces in the Parallel Style Universe, where the source facial identity is adaptively styled via AdaIN guided by the domain-aware and reference-aware style embeddings from heterogeneous pretrained models. We first establish the IDS quantitative benchmark as well as the qualitative Styleverse matrix. Extensive experiments demonstrate that Styleverse achieves higher-fidelity identity stylization compared with other state-of-the-art methods.
翻訳日:2022-03-03 14:43:58 公開日:2022-03-02
# SEA: セマンティックアライメントによる1段と2段の検出器蒸留のギャップを埋める

SEA: Bridging the Gap Between One- and Two-stage Detector Distillation via SEmantic-aware Alignment ( http://arxiv.org/abs/2203.00862v1 )

ライセンス: Link先を確認
Yixin Chen, Zhuotao Tian, Pengguang Chen, Shu Liu, Jiaya Jia(参考訳) 我々は,1段および2段の検出器蒸留作業を再考し,それらのギャップを埋めるためのシンプルで効率的な意味認識フレームワークを提案する。 カテゴリアンカーを設計し,各カテゴリの代表パターンを生成し,各カテゴリアンカーとカテゴリアンカー間の位相的距離を規則化し,セマンティック結合をさらに強化することで,画素レベルの不均衡問題に対処する。 我々は, 密集した細粒度情報をセマンティック・リライアンスによって抽象化し, 蒸留効果を高める性質から, sea(semantic-aware alignment)蒸留法と命名する。 SEAは、いずれの検知パイプラインにも適合しており、1段と2段の検出器のCOCOオブジェクト検出タスクにおいて、新しい最先端の結果を達成する。 インスタンスセグメンテーションにおける優れたパフォーマンスは、さらに一般化能力を示す。 ResNet50-FPNの2x蒸留されたRetinaNetとFCOSは、それぞれ40.64 APと43.06 APの3x ResNet101-FPNの教師より優れていた。 コードは公開される予定だ。

We revisit the one- and two-stage detector distillation tasks and present a simple and efficient semantic-aware framework to fill the gap between them. We address the pixel-level imbalance problem by designing the category anchor to produce a representative pattern for each category and regularize the topological distance between pixels and category anchors to further tighten their semantic bonds. We name our method SEA (SEmantic-aware Alignment) distillation given the nature of abstracting dense fine-grained information by semantic reliance to well facilitate distillation efficacy. SEA is well adapted to either detection pipeline and achieves new state-of-the-art results on the challenging COCO object detection task on both one- and two-stage detectors. Its superior performance on instance segmentation further manifests the generalization ability. Both 2x-distilled RetinaNet and FCOS with ResNet50-FPN outperform their corresponding 3x ResNet101-FPN teacher, arriving 40.64 and 43.06 AP, respectively. Code will be made publicly available.
翻訳日:2022-03-03 14:43:38 公開日:2022-03-02
# (参考訳) ADVISE:畳み込みニューラルネットワークの適応的特徴関連性と視覚的説明 [全文訳有]

ADVISE: ADaptive Feature Relevance and VISual Explanations for Convolutional Neural Networks ( http://arxiv.org/abs/2203.01289v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Dehshibi, Mona Ashtari-Majlan, Gereziher Adhane, David Masip(参考訳) 畳み込みニューラルネットワーク(cnns)に説明可能性を持たせるためには、不透明なモデルがどのように特定の決定を下すのかを解釈し、エラーの原因を理解し、アーキテクチャ設計を改善し、分類器の非倫理バイアスを特定することが不可欠である。 本稿では,機能マップの各ユニットの関連性を定量化し,活用して視覚的説明を提供する新しい説明可能性手法であるADVISEを紹介する。 そこで本研究では,適応的帯域幅カーネル密度推定を用いて,予測したクラスに対して特徴マップの各単位に関連性スコアを割り当てる手法を提案する。 また,cnnモデルの視覚的説明性を定量的に評価するための評価プロトコルを提案する。 我々は、画像分類タスクにおいて、AlexNet、VGG16、ResNet50、XceptionをImageNetで事前訓練した上で、我々のアイデアを広く評価する。 本稿では,最先端の視覚的説明法と比較し,提案手法が競合手法よりも,競合する時間的複雑性を維持しつつ,特徴量や視覚的説明可能性の定量化に優れていることを示す。 さらに, 健全性チェックをパスしながら, 感度と実装独立性の公理をフルフィルスに示す実験を行った。 この実装は、https://github.com/d ehshibi/ADVISEで再現可能である。

To equip Convolutional Neural Networks (CNNs) with explainability, it is essential to interpret how opaque models take specific decisions, understand what causes the errors, improve the architecture design, and identify unethical biases in the classifiers. This paper introduces ADVISE, a new explainability method that quantifies and leverages the relevance of each unit of the feature map to provide better visual explanations. To this end, we propose using adaptive bandwidth kernel density estimation to assign a relevance score to each unit of the feature map with respect to the predicted class. We also propose an evaluation protocol to quantitatively assess the visual explainability of CNN models. We extensively evaluate our idea in the image classification task using AlexNet, VGG16, ResNet50, and Xception pretrained on ImageNet. We compare ADVISE with the state-of-the-art visual explainable methods and show that the proposed method outperforms competing approaches in quantifying feature-relevance and visual explainability while maintaining competitive time complexity. Our experiments further show that ADVISE fulfils the sensitivity and implementation independence axioms while passing the sanity checks. The implementation is accessible for reproducibility purposes on https://github.com/d ehshibi/ADVISE.
翻訳日:2022-03-03 14:41:43 公開日:2022-03-02
# ノイズコントラスト学習における最適なノイズとは何か?

The Optimal Noise in Noise-Contrastive Learning Is Not What You Think ( http://arxiv.org/abs/2203.01110v1 )

ライセンス: Link先を確認
Omar Chehab, Alexandre Gramfort, Aapo Hyvarinen(参考訳) データ分布のパラメトリックモデルを学ぶことはよく知られた統計問題であり、ディープラーニングのスケールに新たな関心が寄せられている。 ノイズサンプルからデータサンプルを識別する自己教師型タスクとして問題を分類することは、ノイズ・コントラスト推定(NCE)から始まる最先端の手法の中核にある。 しかし、このような対照的な学習には良いノイズ分布が必要であり、その特定は困難であり、ドメイン固有のヒューリスティックが広く使われている。 包括的理論が欠けているが、実際には最適なノイズは分布と比率の両方においてデータと等しくすべきであると広く考えられている。 この設定は、特にGAN(Generative Adversarial Networks)に基づいている。 ここでは、最適雑音に関するこの仮定を経験的、理論的に挑戦する。 この仮定から逸脱すると、漸近的分散の観点からも、より優れた統計的推定値が得られることが示される。 特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。

Learning a parametric model of a data distribution is a well-known statistical problem that has seen renewed interest as it is brought to scale in deep learning. Framing the problem as a self-supervised task, where data samples are discriminated from noise samples, is at the core of state-of-the-art methods, beginning with Noise-Contrastive Estimation (NCE). Yet, such contrastive learning requires a good noise distribution, which is hard to specify; domain-specific heuristics are therefore widely used. While a comprehensive theory is missing, it is widely assumed that the optimal noise should in practice be made equal to the data, both in distribution and proportion. This setting underlies Generative Adversarial Networks (GANs) in particular. Here, we empirically and theoretically challenge this assumption on the optimal noise. We show that deviating from this assumption can actually lead to better statistical estimators, in terms of asymptotic variance. In particular, the optimal noise distribution is different from the data's and even from a different family.
翻訳日:2022-03-03 14:24:02 公開日:2022-03-02
# アンサンブルサンプリングの解析

An Analysis of Ensemble Sampling ( http://arxiv.org/abs/2203.01303v1 )

ライセンス: Link先を確認
Chao Qin, Zheng Wen, Xiuyuan Lu, Benjamin Van Roy(参考訳) アンサンブルサンプリングは、モデルパラメータの正確な後方分布を維持するとき、トンプソンサンプリングの実用的な近似となる。 本稿では,線形バンディット問題に対してアンサンブルサンプリングを適用する場合の望ましい行動を保証するベイズ後悔境界を確立する。 これは、アンサンブルサンプリングの厳密な後悔分析であり、この論文の範囲を超えて有用な情報理論の概念と新しい分析技術を活用することで可能となる。

Ensemble sampling serves as a practical approximation to Thompson sampling when maintaining an exact posterior distribution over model parameters is computationally intractable. In this paper, we establish a Bayesian regret bound that ensures desirable behavior when ensemble sampling is applied to the linear bandit problem. This represents the first rigorous regret analysis of ensemble sampling and is made possible by leveraging information-theoreti c concepts and novel analytic techniques that may prove useful beyond the scope of this paper.
翻訳日:2022-03-03 14:23:46 公開日:2022-03-02
# 単純で普遍的な回転同変点クラウドネットワーク

A simple and universal rotation equivariant point-cloud network ( http://arxiv.org/abs/2203.01216v1 )

ライセンス: Link先を確認
Ben Finkelshtein, Chaim Baskin, Haggai Maron, Nadav Dym(参考訳) 置換や剛体運動に等しいことは、様々な3次元学習問題において重要な帰納バイアスとなる。 最近、等変テンソル場ネットワークアーキテクチャが普遍であることが示され、任意の等変関数を近似することができる。 本稿では,よりシンプルなアーキテクチャを提案するとともに,同じ普遍性保証を享受し,Modelnet40の性能を評価する。 実験を再現するコードは \url{https://github.com/s impleinvariance/univ ersalnetwork} で利用可能です。

Equivariance to permutations and rigid motions is an important inductive bias for various 3D learning problems. Recently it has been shown that the equivariant Tensor Field Network architecture is universal -- it can approximate any equivariant function. In this paper we suggest a much simpler architecture, prove that it enjoys the same universality guarantees and evaluate its performance on Modelnet40. The code to reproduce our experiments is available at \url{https://github.com/s impleinvariance/Univ ersalNetwork}
翻訳日:2022-03-03 14:23:20 公開日:2022-03-02
# 低光像強調のためのM-Net+上の半ウェーブレット注意

Half Wavelet Attention on M-Net+ for Low-Light Image Enhancement ( http://arxiv.org/abs/2203.01296v1 )

ライセンス: Link先を確認
Chi-Mao Fan, Tsung-Jung Liu, Kuan-Hsien Liu(参考訳) 低照度画像強調は、暗黒画像を適切な明るさに増強するコンピュータビジョンタスクである。 画像復元ドメインでは、不適切な問題と見なすこともできる。 ディープニューラルネットワークの成功により、畳み込みニューラルネットワークは従来のアルゴリズムベースの手法を超越し、コンピュータビジョン領域で主流となる。 改良された階層モデルであるM-Net+に基づく画像強調ネットワーク(HWMNet)を提案する。 具体的には、M-Net+上の半ウェーブレットアテンションブロックを使用して、ウェーブレットドメインの機能を強化します。 さらに,このhwmnetは,2つの画像強調データセットにおいて,定量的指標と視覚品質の面で競争力のある性能評価を行う。 ソースコードと事前訓練されたモデルはhttps://github.com/F anChiMao/HWMNet.comで入手できる。

Low-Light Image Enhancement is a computer vision task which intensifies the dark images to appropriate brightness. It can also be seen as an ill-posed problem in image restoration domain. With the success of deep neural networks, the convolutional neural networks surpass the traditional algorithm-based methods and become the mainstream in the computer vision area. To advance the performance of enhancement algorithms, we propose an image enhancement network (HWMNet) based on an improved hierarchical model: M-Net+. Specifically, we use a half wavelet attention block on M-Net+ to enrich the features from wavelet domain. Furthermore, our HWMNet has competitive performance results on two image enhancement datasets in terms of quantitative metrics and visual quality. The source code and pretrained model are available at https://github.com/F anChiMao/HWMNet.
翻訳日:2022-03-03 14:23:12 公開日:2022-03-02
# FastFold:AlphaFoldのトレーニング時間を11日から67時間に短縮

FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours ( http://arxiv.org/abs/2203.00854v1 )

ライセンス: Link先を確認
Shenggan Cheng, Ruidong Wu, Zhongming Yu, Binrui Li, Xiwen Zhang, Jian Peng, Yang You(参考訳) タンパク質構造予測は、構造生物学領域における遺伝子翻訳とタンパク質機能を理解する重要な方法である。 AlphaFoldは、原子精度でタンパク質構造予測の分野にトランスフォーマーモデルを導入した。 しかし、AlphaFoldモデルのトレーニングと推論は、特別な性能特性と膨大なメモリ消費のため、時間と費用がかかる。 本稿では,タンパク質構造予測モデルの学習と推論のための高効率実装であるFastFoldを提案する。 FastFoldには、AlphaFoldのパフォーマンスを徹底的に分析した一連のGPU最適化が含まれている。 一方、 \textit{dynamic axial parallelism} と \textit{duality async operation} では、fastfold は既存の一般的なモデル並列処理技術を上回る高いモデル並列性スケーリング効率を達成している。 実験の結果、fastfoldは全体のトレーニング時間を11日から67時間に短縮し、長い列推論で7.5\sim9.5\times$ speedupを達成した。 さらに,FastFoldを512GPUにスケールアップし,並列効率90.1\%の6.02 PetaFLOPを達成した。 実装はhttps://github.com/h pcaitech/fastfoldで見ることができる。

Protein structure prediction is an important method for understanding gene translation and protein function in the domain of structural biology. AlphaFold introduced the Transformer model to the field of protein structure prediction with atomic accuracy. However, training and inference of the AlphaFold model are time-consuming and expensive because of the special performance characteristics and huge memory consumption. In this paper, we propose FastFold, a highly efficient implementation of protein structure prediction model for training and inference. FastFold includes a series of GPU optimizations based on a thorough analysis of AlphaFold's performance. Meanwhile, with \textit{Dynamic Axial Parallelism} and \textit{Duality Async Operation}, FastFold achieves high model parallelism scaling efficiency, surpassing existing popular model parallelism techniques. Experimental results show that FastFold reduces overall training time from 11 days to 67 hours and achieves $7.5\sim9.5\times$ speedup for long-sequence inference. Furthermore, We scaled FastFold to 512 GPUs and achieved an aggregate of 6.02 PetaFLOPs with 90.1\% parallel efficiency. The implementation can be found at https://github.com/h pcaitech/FastFold.
翻訳日:2022-03-03 14:20:46 公開日:2022-03-02
# マルチプロダクトインベントリマネジメントにおける不確実なリードタイム処理のための学習ベースフレームワーク

A Learning Based Framework for Handling Uncertain Lead Times in Multi-Product Inventory Management ( http://arxiv.org/abs/2203.00885v1 )

ライセンス: Link先を確認
Hardik Meisheri, Somjit Nath, Mayank Baranwal, Harshad Khadilkar(参考訳) サプライチェーンと在庫管理に関する既存の文献のほとんどは、ゼロまたは一定リードタイムの確率的需要プロセスを考慮する。 特定のニッチなシナリオでは、リードタイムの不確実性は無視できるが、現実のシナリオのほとんどはリードタイムに確率性を示す。 これらのランダムな変動は、メーカーの終わりに原料が到着することの不確実性、輸送の遅れ、予期せぬ需要の急増、そして別のベンダーへの切り替えによって引き起こされる可能性がある。 在庫管理システムのパフォーマンスを著しく低下させることは,リードタイムの確率性は知られており,このサプライチェーンシステムのギャップを原則的アプローチで埋めることは公平である。 本稿では,最近導入された遅延解決深度Q-ラーニング(DRDQN)アルゴリズムにより,リードタイムにおける不確実性を扱うための強化学習に基づくパラダイムを開発する(\emph{action delay})。 実証的評価により, リードタイムの不確かさを伴う在庫管理は, 複数のエケロン間での情報共有の遅延 (\emph{observation delay}) と同等であるだけでなく, ある種類の遅延を扱うように訓練されたモデルは, 再訓練を必要とせずに, 他の種類の遅延を処理できることを示した。 最後に,遅延解決フレームワークをリードタイムの確率性を考慮した複数の製品からなるシナリオに適用し,遅延解決フレームワークが遅延の影響を無効にしてほぼ最適性能を達成する方法を明らかにする。

Most existing literature on supply chain and inventory management consider stochastic demand processes with zero or constant lead times. While it is true that in certain niche scenarios, uncertainty in lead times can be ignored, most real-world scenarios exhibit stochasticity in lead times. These random fluctuations can be caused due to uncertainty in arrival of raw materials at the manufacturer's end, delay in transportation, an unforeseen surge in demands, and switching to a different vendor, to name a few. Stochasticity in lead times is known to severely degrade the performance in an inventory management system, and it is only fair to abridge this gap in supply chain system through a principled approach. Motivated by the recently introduced delay-resolved deep Q-learning (DRDQN) algorithm, this paper develops a reinforcement learning based paradigm for handling uncertainty in lead times (\emph{action delay}). Through empirical evaluations, it is further shown that the inventory management with uncertain lead times is not only equivalent to that of delay in information sharing across multiple echelons (\emph{observation delay}), a model trained to handle one kind of delay is capable to handle delays of another kind without requiring to be retrained. Finally, we apply the delay-resolved framework to scenarios comprising of multiple products subjected to stochasticity in lead times, and elucidate how the delay-resolved framework negates the effect of any delay to achieve near-optimal performance.
翻訳日:2022-03-03 14:20:26 公開日:2022-03-02
# ディープニューラルネットワークのニューロシンボリック検証

Neuro-Symbolic Verification of Deep Neural Networks ( http://arxiv.org/abs/2203.00938v1 )

ライセンス: Link先を確認
Xuan Xie, Kristian Kersting, Daniel Neider(参考訳) 深層ニューラルネットワークの安全性と信頼性を確保するための強力なアプローチとして,形式的検証が登場した。 しかし、現在の検証ツールは、ネットワークの入力と出力に対する一階の制約として表現できるプロパティに限られている。 敵の頑健さと公正さはこのカテゴリーに該当するが、多くの現実世界の特性(例えば「自動運転車は停止標識の前に停止しなければならない」など)は既存の検証技術の範囲外にとどまる。 この厳しい実践的制約を軽減するため,ニューラルシンボリック検証という,ニューラルネットワークを検証するための新しい枠組みを導入する。 重要なアイデアは、論理的な仕様の一部としてニューラルネットワークを使用することで、上記を含むさまざまな複雑な実世界の特性の検証を可能にする。 さらに,ニューラルネットワークの既存の検証基盤上に,ニューロシンボリック検証を実装すれば,研究者や実践者にも容易にフレームワークが利用できるようになることを実証する。

Formal verification has emerged as a powerful approach to ensure the safety and reliability of deep neural networks. However, current verification tools are limited to only a handful of properties that can be expressed as first-order constraints over the inputs and output of a network. While adversarial robustness and fairness fall under this category, many real-world properties (e.g., "an autonomous vehicle has to stop in front of a stop sign") remain outside the scope of existing verification technology. To mitigate this severe practical restriction, we introduce a novel framework for verifying neural networks, named neuro-symbolic verification. The key idea is to use neural networks as part of the otherwise logical specification, enabling the verification of a wide variety of complex, real-world properties, including the one above. Moreover, we demonstrate how neuro-symbolic verification can be implemented on top of existing verification infrastructure for neural networks, making our framework easily accessible to researchers and practitioners alike.
翻訳日:2022-03-03 14:19:59 公開日:2022-03-02
# 品質多様性アルゴリズムによるスパースリワード設定の学習

Learning in Sparse Rewards settings through Quality-Diversity algorithms ( http://arxiv.org/abs/2203.01027v1 )

ライセンス: Link先を確認
Giuseppe Paolo(参考訳) Reinforcement Learning (RL) フレームワークでは、学習は報酬信号を通じてガイドされる。 これは、スパース報酬の状況において、エージェントは、どのアクションや一連のアクションが報酬につながるかを発見するために、探索に集中しなければならないことを意味する。 RLエージェントは通常これと戦う。 探索は品質多様性(QD)手法の焦点である。 本論文では,これらのアルゴリズム,特にノベルティ探索 (ns) において,分散報酬の問題にアプローチする。 これは、可能なポリシーの振る舞いの多様性にのみ焦点をあてる方法です。 論文の第1部は、政策の多様性が評価される空間の表現を学ぶことに焦点を当てている。 本稿では,オートエンコーダを用いて探索空間の低次元表現を学習するTAXONSアルゴリズムを提案する。 有効ではあるが、TAXONSは、その空間を学習するのに使用される観測をいつ取得するかに関する情報を必要とする。 本研究では,観測の軌跡全体に関する情報を符号化するために,複数の方法,特にシグネチャ変換について検討する。 この論文は、検索空間の興味深い部分に効率的に焦点を合わせる方法であるセレンアルゴリズム(serene algorithm)の導入で続いている。 この手法は,探索空間の探索と2段階のアプローチによる報酬の活用を分離する。 探検はNSを通して行われる。 検出された報酬はエミッタを通じてローカルに悪用される。 3番目のコントリビューションと最後のコントリビューションは、TAXONSとSERENEを1つのアプローチとして組み合わせている。 この論文を通じて,スパース報酬設定に必要な事前情報量を削減する手法を提案する。 これらの貢献は、さまざまなスパースな報酬設定で、自律的にハイパフォーマンスなポリシーを探索し発見できる手法の開発への有望な一歩です。

In the Reinforcement Learning (RL) framework, the learning is guided through a reward signal. This means that in situations of sparse rewards the agent has to focus on exploration, in order to discover which action, or set of actions leads to the reward. RL agents usually struggle with this. Exploration is the focus of Quality-Diversity (QD) methods. In this thesis, we approach the problem of sparse rewards with these algorithms, and in particular with Novelty Search (NS). This is a method that only focuses on the diversity of the possible policies behaviors. The first part of the thesis focuses on learning a representation of the space in which the diversity of the policies is evaluated. In this regard, we propose the TAXONS algorithm, a method that learns a low-dimensional representation of the search space through an AutoEncoder. While effective, TAXONS still requires information on when to capture the observation used to learn said space. For this, we study multiple ways, and in particular the signature transform, to encode information about the whole trajectory of observations. The thesis continues with the introduction of the SERENE algorithm, a method that can efficiently focus on the interesting parts of the search space. This method separates the exploration of the search space from the exploitation of the reward through a two-alternating-step s approach. The exploration is performed through NS. Any discovered reward is then locally exploited through emitters. The third and final contribution combines TAXONS and SERENE into a single approach: STAX. Throughout this thesis, we introduce methods that lower the amount of prior information needed in sparse rewards settings. These contributions are a promising step towards the development of methods that can autonomously explore and find high-performance policies in a variety of sparse rewards settings.
翻訳日:2022-03-03 14:19:43 公開日:2022-03-02
# 部分的可能性トンプソンサンプリング

Partial Likelihood Thompson Sampling ( http://arxiv.org/abs/2203.00820v1 )

ライセンス: Link先を確認
Han Wu and Stefan Wager(参考訳) 感染性疾患の新しい病種に対する予防を提供する既存のワクチンをターゲットし、優先する最良の方法を決定することの問題点を考察する。 逐次実験は有望なアプローチであるが, 遅延フィードバックによる課題と, 疾患発生率の総括, フローは, この課題に適用不可能な方法である。 本稿では,これらの課題に対処できる部分確率トンプソンサンプリング法を提案する。 本手法では,イベントを観測する度に,信条更新を部分的確率で決定し,トンプソンサンプリングを実行する。 このアプローチをテストするために、米国内で200日間の新型コロナウイルス感染データに基づく半合成実験を行った。

We consider the problem of deciding how best to target and prioritize existing vaccines that may offer protection against new variants of an infectious disease. Sequential experiments are a promising approach; however, challenges due to delayed feedback and the overall ebb and flow of disease prevalence make available method inapplicable for this task. We present a method, partial likelihood Thompson sampling, that can handle these challenges. Our method involves running Thompson sampling with belief updates determined by partial likelihood each time we observe an event. To test our approach, we ran a semi-synthetic experiment based on 200 days of COVID-19 infection data in the US.
翻訳日:2022-03-03 14:18:24 公開日:2022-03-02
# 独立な辺縁を持つ離散最適輸送は#pハードである

Discrete Optimal Transport with Independent Marginals is #P-Hard ( http://arxiv.org/abs/2203.01161v1 )

ライセンス: Link先を確認
Bahar Ta\c{s}kesen, Soroosh Shafieezadeh-Abadeh, Daniel Kuhn, Karthik Natarajan(参考訳) 2つのK次元離散ランダムベクトルの分布間のワッサーシュタイン距離を評価する最適輸送問題の計算複雑性について検討する。 この問題の最もよく知られたアルゴリズムは、2つの分布の原子数の最大で多項式時間で実行される。 しかし、一方の確率ベクトルの成分が独立であれば、問題記述のサイズが k と線形にスケールしているにもかかわらず、この数は k において指数関数となり得る。第一の確率ベクトルのすべての成分が独立な一様ベルヌーイ確率変数であるのに対して、第二の確率ベクトルは2つの原子しか持たず、近似解のみを求める場合でも、記述された最適輸送問題は #p-hard であることが証明される。 また, 1次ランダムベクトルの成分が任意の独立離散分布に従う場合, 擬似多項時間でのwasserstein距離を近似する動的計画型アルゴリズムを開発し, 強多項式時間で正確に解くことができる特殊問題インスタンスを同定した。

We study the computational complexity of the optimal transport problem that evaluates the Wasserstein distance between the distributions of two K-dimensional discrete random vectors. The best known algorithms for this problem run in polynomial time in the maximum of the number of atoms of the two distributions. However, if the components of either random vector are independent, then this number can be exponential in K even though the size of the problem description scales linearly with K. We prove that the described optimal transport problem is #P-hard even if all components of the first random vector are independent uniform Bernoulli random variables, while the second random vector has merely two atoms, and even if only approximate solutions are sought. We also develop a dynamic programming-type algorithm that approximates the Wasserstein distance in pseudo-polynomial time when the components of the first random vector follow arbitrary independent discrete distributions, and we identify special problem instances that can be solved exactly in strongly polynomial time.
翻訳日:2022-03-03 14:17:55 公開日:2022-03-02
# 確率凸コストと未知ダイナミクスを用いたオンラインリニア制御

Efficient Online Linear Control with Stochastic Convex Costs and Unknown Dynamics ( http://arxiv.org/abs/2203.01170v1 )

ライセンス: Link先を確認
Asaf Cassel (1), Alon Cohen (2 and 3), Tomer Koren (1 and 3) ((1) School of Computer Science, Tel Aviv University, (2) School of Electrical Engineering, Tel Aviv University, (3) Google Research, Tel Aviv)(参考訳) 本稿では,未知の線形力学系を確率的凸コストで制御する問題と,状態とコスト関数の完全なフィードバックについて考察する。 最適な安定化線形コントローラに対して最適な$\sqrt{T}$後悔率が得られる計算効率の良いアルゴリズムを提案する。 これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。 これにより、計算の複雑さが大幅に向上し、解析がより簡単になった。

We consider the problem of controlling an unknown linear dynamical system under a stochastic convex cost and full feedback of both the state and cost function. We present a computationally efficient algorithm that attains an optimal $\sqrt{T}$ regret-rate against the best stabilizing linear controller. In contrast to previous work, our algorithm is based on the Optimism in the Face of Uncertainty paradigm. This results in a substantially improved computational complexity and a simpler analysis.
翻訳日:2022-03-03 14:17:38 公開日:2022-03-02
# 患者軌跡からの平均因果効果の推定

Estimating average causal effects from patient trajectories ( http://arxiv.org/abs/2203.01228v1 )

ライセンス: Link先を確認
Dennis Frauen, Tobias Hatt, Valentyn Melnychuk and Stefan Feuerriegel(参考訳) 医療実践においては、患者の結果に期待される因果効果に基づいて治療が選択される。 ここで因果効果を推定するための金本位制はランダム化された対照試験であるが、そのような試練は費用がかかり、時には非倫理的である。 代わりに、医療は、電子健康記録、すなわち観察データから患者サブグループ間の因果効果を推定することに関心を寄せている。 本稿では,時間とともに収集される観察データ(患者軌道)から平均因果効果(ACE)を推定することを目的とする。 そこで我々は,エンドツーエンドのディープラーニングモデルであるDeepACEを提案する。 DeepACEは反復G計算式を利用して、時間変化のある共同設立者によって引き起こされるバイアスを調整する。 さらに,DeepACEが2重に頑健で漸近的に効率的な理論特性を有することを確実にする新たなシーケンシャルターゲティング手法を開発した。 我々の知る限りでは、これは時間変化ACEを推定するためのエンドツーエンドのディープラーニングモデルを提案する最初の作品である。 我々はDeepACEを多数の実験で比較し、最先端のパフォーマンスを実現することを確認した。 また,腰痛を主訴とする患者に対して,DeepACEが臨床的に重要かつ有意義な所見をもたらすことを示すための症例研究を行った。 本研究により,医療従事者は患者サブグループに適した効果的な治療勧告を作成できる。

In medical practice, treatments are selected based on the expected causal effects on patient outcomes. Here, the gold standard for estimating causal effects are randomized controlled trials; however, such trials are costly and sometimes even unethical. Instead, medical practice is increasingly interested in estimating causal effects among patient subgroups from electronic health records, that is, observational data. In this paper, we aim at estimating the average causal effect (ACE) from observational data (patient trajectories) that are collected over time. For this, we propose DeepACE: an end-to-end deep learning model. DeepACE leverages the iterative G-computation formula to adjust for the bias induced by time-varying confounders. Moreover, we develop a novel sequential targeting procedure which ensures that DeepACE has favorable theoretical properties, i.e., is doubly robust and asymptotically efficient. To the best of our knowledge, this is the first work that proposes an end-to-end deep learning model for estimating time-varying ACEs. We compare DeepACE in an extensive number of experiments, confirming that it achieves state-of-the-art performance. We further provide a case study for patients suffering from low back pain to demonstrate that DeepACE generates important and meaningful findings for clinical practice. Our work enables medical practitioners to develop effective treatment recommendations tailored to patient subgroups.
翻訳日:2022-03-03 14:17:31 公開日:2022-03-02
# cd-gan:不均一画像間の教師なし変化検出のためのロバストな融合型生成逆ネットワーク

CD-GAN: a robust fusion-based generative adversarial network for unsupervised change detection between heterogeneous images ( http://arxiv.org/abs/2203.00948v1 )

ライセンス: Link先を確認
Jin-Ju Wang, Nicolas Dobigeon, Marie Chabert, Ding-Cheng Wang, Jie Huang and Ting-Zhu Huang(参考訳) 地球観測の文脈では、異なる特性とモダリティを持つセンサによって取得された多時期画像から変化の検出を行う。 光モダリティに制限を課しても、センサーが異なる空間解像度やスペクトル解像度の画像を提供すると、この課題はすぐに困難であることが判明した。 本稿では,いわゆる異種光画像を対象とした教師なし変化検出手法を提案する。 この手法は、変化検出問題を堅牢な融合フレームワークに組み込んだ最近の進歩を生かしている。 より正確には、前もって設計・訓練された深層対向ネットワークが、同一アーキテクチャのネットワークによって容易に補うことができ、変更検出を行うことができることを示す。 結果として生じる全体的なアーキテクチャは、融合ネットワークと追加ネットワークがジェネレータの不可欠なビルディングブロックとして解釈される敵の戦略に従う。 最先端の変更検出手法との比較により,提案手法の有効性と有効性を示す。

In the context of Earth observation, the detection of changes is performed from multitemporal images acquired by sensors with possibly different characteristics and modalities. Even when restricting to the optical modality, this task has proved to be challenging as soon as the sensors provide images of different spatial and/or spectral resolutions. This paper proposes a novel unsupervised change detection method dedicated to such so-called heterogeneous optical images. This method capitalizes on recent advances which frame the change detection problem into a robust fusion framework. More precisely, we show that a deep adversarial network designed and trained beforehand to fuse a pair of multiband images can be easily complemented by a network with the same architecture to perform change detection. The resulting overall architecture itself follows an adversarial strategy where the fusion network and the additional network are interpreted as essential building blocks of a generator. A comparison with state-of-the-art change detection methods demonstrate the versatility and the effectiveness of the proposed approach.
翻訳日:2022-03-03 14:17:10 公開日:2022-03-02
# ニューラルネットワークの正準剥離-ロバストネスへの応用

Canonical foliations of neural networks: application to robustness ( http://arxiv.org/abs/2203.00922v1 )

ライセンス: Link先を確認
Eliot Tron, Nicolas Couellan, St\'ephane Puechmorel(参考訳) 敵対的攻撃は、機械学習の信頼性に対する新たな脅威である。 これらの攻撃を理解することが重要な課題になりつつある。 我々は,リーマン幾何学と葉理論を用いたニューラルネットワークのロバスト性に関する新しいビジョンを提案し,データ空間の曲率を考慮に入れた新たな敵攻撃を創出する。 この新しい敵対的攻撃は「ドッグ・レッグ攻撃」と呼ばれ、データ空間における測地線を2段階近似する。 データ空間は、ニューラルネットワークのFiher Information Metric(FIM)の引き戻しを備えた(擬)リーマン多様体として扱われる。 ほとんどの場合、この計量は半定値であり、その核は研究対象の中心となる。 標準葉は、このカーネルに由来する。 葉の葉の曲率は、測地線を2段階近似する適切な補正を与え、従って新しい効率的な対向攻撃を与える。 我々の攻撃は、$\texttt{Xor}$関数を模倣するように訓練されたニューラルネットワークのおもちゃの例でテストされ、Zhao et al. (2019)によって提示されたアートアタックの状態がより良い結果を示す。

Adversarial attack is an emerging threat to the trustability of machine learning. Understanding these attacks is becoming a crucial task. We propose a new vision on neural network robustness using Riemannian geometry and foliation theory, and create a new adversarial attack by taking into account the curvature of the data space. This new adversarial attack called the "dog-leg attack" is a two-step approximation of a geodesic in the data space. The data space is treated as a (pseudo) Riemannian manifold equipped with the pullback of the Fisher Information Metric (FIM) of the neural network. In most cases, this metric is only semi-definite and its kernel becomes a central object to study. A canonical foliation is derived from this kernel. The curvature of the foliation's leaves gives the appropriate correction to get a two-step approximation of the geodesic and hence a new efficient adversarial attack. Our attack is tested on a toy example, a neural network trained to mimic the $\texttt{Xor}$ function, and demonstrates better results that the state of the art attack presented by Zhao et al. (2019).
翻訳日:2022-03-03 14:16:54 公開日:2022-03-02
# 潜在因子回帰とスパース回帰は適切か?

Are Latent Factor Regression and Sparse Regression Adequate? ( http://arxiv.org/abs/2203.01219v1 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Mengxin Yu(参考訳) 本稿では, 遅延係数回帰とスパース線形回帰の両方を特殊ケースとして含むとともに, ブリッジ次元縮小とスパース回帰を併用したFARM(Facter Augmented sparse linear Regression Model)を提案する。 準ガウス雑音と重尾雑音(すべての x>0 に対して有界 (1+x) モーメントを持つ)の存在下でのモデル推定に関する理論的保証を提供する。 さらに、教師付き学習に関する既存の研究は、その妥当性を正当化することなく、潜在因子回帰またはスパース線形回帰が真の基盤モデルであると仮定することが多い。 このような重要なギャップを埋めるために、我々のモデルを代替モデルとして活用し、潜在因子回帰と疎線形回帰モデルの十分性をテストする。 これらの目的を達成するために, 因子調整脱バイアステスト(fabtest)と2段階のanova型テストを提案する。 また, 合成およびFREDマクロ経済学データを含む大規模数値実験を行い, 提案手法の理論的特性を裏付ける。 数値計算の結果,潜在因子回帰モデルと疎線形回帰モデルに対するモデルの有効性と有効性を示した。

We propose the Factor Augmented sparse linear Regression Model (FARM) that not only encompasses both the latent factor regression and sparse linear regression as special cases but also bridges dimension reduction and sparse regression together. We provide theoretical guarantees for the estimation of our model under the existence of sub-Gaussian and heavy-tailed noises (with bounded (1+x)-th moment, for all x>0), respectively. In addition, the existing works on supervised learning often assume the latent factor regression or the sparse linear regression is the true underlying model without justifying its adequacy. To fill in such an important gap, we also leverage our model as the alternative model to test the sufficiency of the latent factor regression and the sparse linear regression models. To accomplish these goals, we propose the Factor-Adjusted de-Biased Test (FabTest) and a two-stage ANOVA type test respectively. We also conduct large-scale numerical experiments including both synthetic and FRED macroeconomics data to corroborate the theoretical properties of our methods. Numerical results illustrate the robustness and effectiveness of our model against latent factor regression and sparse linear regression models.
翻訳日:2022-03-03 14:16:36 公開日:2022-03-02
# (参考訳) ニューラル自動乗客計数器の工学 [全文訳有]

Engineering the Neural Automatic Passenger Counter ( http://arxiv.org/abs/2203.01156v1 )

ライセンス: CC BY 4.0
Nico Jahn, Michael Siebert(参考訳) 公共交通機関における自動旅客カウント(APC)は,1970年代に導入されて以来,様々な機械学習や人工知能手法によってアプローチされてきた。 同値テストは差分検出(Studentのt-test)よりも人気が高まりつつあるが、前者は低いユーザリスクを確保するために通過するのがずっと難しい。 一方、最近の人工知能の発展は、より高いカウント品質(より低いバイアス)を約束するアルゴリズムにつながっている。 しかし、勾配に基づく手法(ディープラーニングを含む)には1つの制限がある。 本研究では,機械学習の様々な側面を探索し,信頼性,性能,数量品質の向上に活用する。 我々は,クロスバリデーションに類似したトレーニングセットの選択とサイズ,トレーニングプロセスにおける初期ネットワーク重みとランダム性といった,基本的なパラメータを用いたグリッド探索を行う。 本実験では, アンサンブル量子化などの集約技術によってバイアスを低減できることを示すとともに, 結果の全体的拡散について考察する。 実験的な分布に基づくシミュレーション指標であるテスト成功確率を利用する。 また,トレーニング後のモンテカルロ量子化手法を採用し,累積和法を導入し,カウントを定常法に変換し,非有界数を許容する。

Automatic passenger counting (APC) in public transportation has been approached with various machine learning and artificial intelligence methods since its introduction in the 1970s. While equivalence testing is becoming more popular than difference detection (Student's t-test), the former is much more difficult to pass to ensure low user risk. On the other hand, recent developments in artificial intelligence have led to algorithms that promise much higher counting quality (lower bias). However, gradient-based methods (including Deep Learning) have one limitation: they typically run into local optima. In this work, we explore and exploit various aspects of machine learning to increase reliability, performance, and counting quality. We perform a grid search with several fundamental parameters: the selection and size of the training set, which is similar to cross-validation, and the initial network weights and randomness during the training process. Using this experiment, we show how aggregation techniques such as ensemble quantiles can reduce bias, and we give an idea of the overall spread of the results. We utilize the test success chance, a simulative metric based on the empirical distribution. We also employ a post-training Monte Carlo quantization approach and introduce cumulative summation to turn counting into a stationary method and allow unbounded counts.
翻訳日:2022-03-03 14:15:06 公開日:2022-03-02
# 視覚に基づく自動運転用大規模3次元意味マッピング

Vision-based Large-scale 3D Semantic Mapping for Autonomous Driving Applications ( http://arxiv.org/abs/2203.01087v1 )

ライセンス: Link先を確認
Qing Cheng, Niclas Zeller, Daniel Cremers(参考訳) 本稿では,ステレオカメラシステムのみに基づく3次元意味マッピングのための完全なパイプラインを提案する。 このパイプラインは、直接スパースビジュアルオドメトリフロントエンドと、gss統合やセマンティック3dポイントクラウドラベリングを含むグローバル最適化のバックエンドで構成されている。 本稿では,3次元点ラベルの品質と一貫性を向上する簡易かつ効果的な時間的投票方式を提案する。 kitti-360データセット上でパイプラインの質的・定量的評価を行う。 その結果,提案した投票方式の有効性と,大規模3次元セマンティックマッピングのためのパイプラインの有効性が示された。 さらに、車両群が収集したデータから生成した8000kmの道路をカバーする、非常に大規模なセマンティックマップを提示して、パイプラインの大規模マッピング能力の実証を行った。

In this paper, we present a complete pipeline for 3D semantic mapping solely based on a stereo camera system. The pipeline comprises a direct sparse visual odometry front-end as well as a back-end for global optimization including GNSS integration, and semantic 3D point cloud labeling. We propose a simple but effective temporal voting scheme which improves the quality and consistency of the 3D point labels. Qualitative and quantitative evaluations of our pipeline are performed on the KITTI-360 dataset. The results show the effectiveness of our proposed voting scheme and the capability of our pipeline for efficient large-scale 3D semantic mapping. The large-scale mapping capabilities of our pipeline is furthermore demonstrated by presenting a very large-scale semantic map covering 8000 km of roads generated from data collected by a fleet of vehicles.
翻訳日:2022-03-03 13:52:50 公開日:2022-03-02
# DN-DETR:クエリDenoisingの導入によるDTRトレーニングの高速化

DN-DETR: Accelerate DETR Training by Introducing Query DeNoising ( http://arxiv.org/abs/2203.01305v1 )

ライセンス: Link先を確認
Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M. Ni, Lei Zhang(参考訳) 本稿では,detr (detection transformer) トレーニングを高速化する新しいデノイジング訓練法を提案し,detrライクな手法の収束時間の遅い問題を深く理解する。 両部グラフマッチングの不安定性は,初期訓練段階において不整合な最適化目標を生じさせることを示す。 この問題に対処するため,ハンガリーの損失を除いて,本手法はトランスフォーマーデコーダにノイズを付加した接地構造境界ボックスを供給し,元のボックスを再構築するようモデルを訓練することにより,両部グラフマッチングの困難さを効果的に低減し,より高速な収束を実現する。 提案手法は汎用的で,数十行のコードを追加することで,DeTRライクなメソッドに簡単にプラグインできる。 その結果、我々のDN-DETRは、同じ設定で顕著な改善(+1.9$AP)を行い、ResNet-$50$バックボーンを持つDETRライクなメソッドのうち、最高の結果(AP43.4$と48.6$、それぞれ12$と50$のエポック)を達成する。 同じ設定でベースラインと比較すると、DN-DETRは50\%のトレーニングエポックで同等のパフォーマンスを実現している。 コードは \url{https://github.com/F engLi-ust/DN-DETR} で入手できる。

We present in this paper a novel denoising training method to speedup DETR (DEtection TRansformer) training and offer a deepened understanding of the slow convergence issue of DETR-like methods. We show that the slow convergence results from the instability of bipartite graph matching which causes inconsistent optimization goals in early training stages. To address this issue, except for the Hungarian loss, our method additionally feeds ground-truth bounding boxes with noises into Transformer decoder and trains the model to reconstruct the original boxes, which effectively reduces the bipartite graph matching difficulty and leads to a faster convergence. Our method is universal and can be easily plugged into any DETR-like methods by adding dozens of lines of code to achieve a remarkable improvement. As a result, our DN-DETR results in a remarkable improvement ($+1.9$AP) under the same setting and achieves the best result (AP $43.4$ and $48.6$ with $12$ and $50$ epochs of training respectively) among DETR-like methods with ResNet-$50$ backbone. Compared with the baseline under the same setting, DN-DETR achieves comparable performance with $50\%$ training epochs. Code is available at \url{https://github.com/F engLi-ust/DN-DETR}.
翻訳日:2022-03-03 13:52:41 公開日:2022-03-02
# follow your nose: 強化学習における有向探索のための一般価値関数の使用

Follow your Nose: Using General Value Functions for Directed Exploration in Reinforcement Learning ( http://arxiv.org/abs/2203.00874v1 )

ライセンス: Link先を確認
Somjit Nath, Omkar Shelke, Durgesh Kalwar, Hardik Meisheri, Harshad Khadilkar(参考訳) 探索と搾取のジレンマは強化学習(RL)において重要な問題であり、特に大きな状態空間とまばらな報酬を持つ複雑な環境において重要である。 特定の目標を最適化する場合、単純な小さなタスクを実行することは、環境に関する追加情報を学ぶのに良い方法です。 探索法は、性能向上のために環境からのより良い軌道をサンプリングするために用いられ、補助的なタスクは一般に報酬が希薄な場所に組み込まれている。 報酬信号が少ない場合、エージェントは、関連するサブゴールを含む状態空間の一部に到達するために、巧妙な探索戦略を必要とする。 しかし、その探究は学習した政策を活用する必要性とバランスを取る必要がある。 本稿では,一般価値関数(gvfs)と有向探索戦略を用いて探索と補助タスク学習を組み合わせる方法を検討する。 3つのナビゲーションタスクにおいて、手作業ではなく選択肢(アクションのシーケンス)を学習し、パフォーマンス上の優位性を実証する簡単な方法を提供する。

Exploration versus exploitation dilemma is a significant problem in reinforcement learning (RL), particularly in complex environments with large state space and sparse rewards. When optimizing for a particular goal, running simple smaller tasks can often be a good way to learn additional information about the environment. Exploration methods have been used to sample better trajectories from the environment for improved performance while auxiliary tasks have been incorporated generally where the reward is sparse. If there is little reward signal available, the agent requires clever exploration strategies to reach parts of the state space that contain relevant sub-goals. However, that exploration needs to be balanced with the need for exploiting the learned policy. This paper explores the idea of combining exploration with auxiliary task learning using General Value Functions (GVFs) and a directed exploration strategy. We provide a simple way to learn options (sequences of actions) instead of having to handcraft them, and demonstrate the performance advantage in three navigation tasks.
翻訳日:2022-03-03 13:51:10 公開日:2022-03-02
# 多変量時系列予測のための並列時空間アテンションベースTCN

Parallel Spatio-Temporal Attention-Based TCN for Multivariate Time Series Prediction ( http://arxiv.org/abs/2203.00971v1 )

ライセンス: Link先を確認
Fan Jin, Ke Zhang, Yipan Huang, Yifei Zhu, Baiping Chen(参考訳) 産業システムはより複雑になり、監視から健康まであらゆるものを監視するセンサーがよりユビキタスになるにつれて、多変量時系列予測は社会の円滑な運営において重要な位置を占めています。 予測ウィンドウの拡張に注意を払っているリカレントニューラルネットワークは、このタスクの最先端である。 しかし、それらの消失する勾配、短い記憶、シリアルアーキテクチャにより、RNNは複雑なデータによる長期予測に基本的に適していないと論じる。 時間畳み込みネットワーク(TCN)は勾配問題に悩まされず、並列計算をサポートしており、より適切な選択となっている。 さらに、RNNよりも長い記憶を持ち、不安定性と効率性の問題がある。 そこで我々は,PSTA-TCNと呼ばれるフレームワークを提案する。このフレームワークは,動的内部相関を積み重ねたTCNバックボーンから抽出し,異なるウィンドウサイズから特徴を抽出する。 このフレームワークは、並列計算をフル活用してトレーニング時間を劇的に削減すると同時に、現在よりも最大13倍長い安定した予測ウィンドウで精度を大幅に向上させる。

As industrial systems become more complex and monitoring sensors for everything from surveillance to our health become more ubiquitous, multivariate time series prediction is taking an important place in the smooth-running of our society. A recurrent neural network with attention to help extend the prediction windows is the current-state-of-the -art for this task. However, we argue that their vanishing gradients, short memories, and serial architecture make RNNs fundamentally unsuited to long-horizon forecasting with complex data. Temporal convolutional networks (TCNs) do not suffer from gradient problems and they support parallel calculations, making them a more appropriate choice. Additionally, they have longer memories than RNNs, albeit with some instability and efficiency problems. Hence, we propose a framework, called PSTA-TCN, that combines a parallel spatio-temporal attention mechanism to extract dynamic internal correlations with stacked TCN backbones to extract features from different window sizes. The framework makes full use parallel calculations to dramatically reduce training times, while substantially increasing accuracy with stable prediction windows up to 13 times longer than the status quo.
翻訳日:2022-03-03 13:49:06 公開日:2022-03-02
# 雑音によるブートストラップDQNの多様性向上

Improving the Diversity of Bootstrapped DQN via Noisy Priors ( http://arxiv.org/abs/2203.01004v1 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad(参考訳) Q-learningは、最もよく知られた強化学習アルゴリズムの1つである。 ニューラルネットワークを用いたアルゴリズムの開発には多大な努力が払われている。 ブートストラップのDeep Q-Learning Networkもその1つだ。 複数のニューラルネットワークヘッドを使用して、q-learningに多様性を導入する。 多様性は、RLにおける探索比の定義に類似して、エージェントが与えられた状態に取る合理的な動きの量と見なすことができる。 このように、Bootstrapped Deep Q-Learning Networkの性能はアルゴリズム内の多様性のレベルと深く関連している。 元の研究では、ランダムな事前処理によりモデルの性能が向上することが指摘された。 本稿では,ガウス分布からのノイズやサンプルの先行値として先行情報を扱える可能性をさらに検討し,このアルゴリズムにさらなる多様性を導入する。 atariベンチマークを用いて実験を行い,本アルゴリズムと他のアルゴリズムとの比較を行った。 その結果,Bootstrapped Deep Q-Learningアルゴリズムの修正により,異なる種類のAtariゲームに対する評価スコアが大幅に向上した。 そこで本研究では,雑音の先行は,多様性の完全性を確保することにより,ブートストラップ型深度Q-Learningの性能を向上させることができると結論付けた。

Q-learning is one of the most well-known Reinforcement Learning algorithms. There have been tremendous efforts to develop this algorithm using neural networks. Bootstrapped Deep Q-Learning Network is amongst one of them. It utilizes multiple neural network heads to introduce diversity into Q-learning. Diversity can sometimes be viewed as the amount of reasonable moves an agent can take at a given state, analogous to the definition of the exploration ratio in RL. Thus, the performance of Bootstrapped Deep Q-Learning Network is deeply connected with the level of diversity within the algorithm. In the original research, it was pointed out that a random prior could improve the performance of the model. In this article, we further explore the possibility of treating priors as a special type of noise and sample priors from a Gaussian distribution to introduce more diversity into this algorithm. We conduct our experiment on the Atari benchmark and compare our algorithm to both the original and other related algorithms. The results show that our modification of the Bootstrapped Deep Q-Learning algorithm achieves significantly higher evaluation scores across different types of Atari games. Thus, we conclude that noisy priors can improve Bootstrapped Deep Q-Learning's performance by ensuring the integrity of diversities.
翻訳日:2022-03-03 13:48:46 公開日:2022-03-02
# オンデバイス学習: ニューラルネットワークに基づくフィールドトレインブルエッジAI

On-Device Learning: A Neural Network Based Field-Trainable Edge AI ( http://arxiv.org/abs/2203.01077v1 )

ライセンス: Link先を確認
Hiroki Matsutani, Mineto Tsukada, Masaaki Kondo(参考訳) 現実世界のエッジAIアプリケーションでは、ノイズ、センサーの位置/校正、時間関連の変化など、さまざまな環境要因によってその精度が影響されることが多い。 この記事では、深入りせずにこの問題に対処するために、オンデバイス学習アプローチに基づくニューラルネットワークを紹介します。 我々のアプローチは、事実上のバックプロパゲーションベースのトレーニングとは全く異なるが、ローエンドのエッジデバイス向けに調整されている。 本稿では,raspberry pi pi picoと低消費電力無線モジュールからなる無線センサノードのアルゴリズムと実装を紹介する。 回転機械の振動パターンを用いた実験により、デバイス上での学習による再学習は、低消費電力の計算と通信コストを節約しつつ、ノイズ環境における異常検出精度を大幅に向上することを示した。

In real-world edge AI applications, their accuracy is often affected by various environmental factors, such as noises, location/calibration of sensors, and time-related changes. This article introduces a neural network based on-device learning approach to address this issue without going deep. Our approach is quite different from de facto backpropagation based training but tailored for low-end edge devices. This article introduces its algorithm and implementation on a wireless sensor node consisting of Raspberry Pi Pico and low-power wireless module. Experiments using vibration patterns of rotating machines demonstrate that retraining by the on-device learning significantly improves an anomaly detection accuracy at a noisy environment while saving computation and communication costs for low power.
翻訳日:2022-03-03 13:48:31 公開日:2022-03-02
# 忍耐力を持つ対向的ロバストな学習

Adversarially Robust Learning with Tolerance ( http://arxiv.org/abs/2203.00849v1 )

ライセンス: Link先を確認
Hassan Ashtiani, Vinayak Pathak, Ruth Urner(参考訳) 距離摂動集合に対する寛容逆PAC学習の問題について検討する。 敵対的pac学習では、敵はテストポイント $x$ を、半径 $r$ を中心とする閉じたボール内の任意の点に置き換えることができる。 耐性のあるバージョンでは、学習者の誤差はわずかに大きい摂動半径$(1+\gamma)r$に対して達成可能な最良の誤差と比較される。 二重次元 $d$ を持つ摂動集合に対して、自然の ``perturb-and-smooth&# x27;' アルゴリズムの変種 PAC が任意の仮説クラス $\mathcal{H}$ と VC 次元 $v$ と $\gamma$-tolerant の逆数集合 $O\left(\frac{v(1+1/\gamma)^{O(d)}}{\varepsilon}\right)$サンプルを学ぶことを示す。 これは、領域が実数直線であり摂動集合が半径 $r$ の閉球(内部)である特別な場合であっても、v$ に対する線形依存を持つ最初の一般保証である。 しかし、現在提案されているパーターブ・アンド・スムースアルゴリズムの保証は頑健な実現可能な設定を保ち、$d$に指数関数的依存を示すのみである。 さらに,より一般的な非依存の場合であっても2倍次元に線形依存したサンプル複雑性境界を生成する代替学習法を提案する。 このアプローチはサンプル圧縮に基づいている。

We study the problem of tolerant adversarial PAC learning with respect to metric perturbation sets. In adversarial PAC learning, an adversary is allowed to replace a test point $x$ with an arbitrary point in a closed ball of radius $r$ centered at $x$. In the tolerant version, the error of the learner is compared with the best achievable error with respect to a slightly larger perturbation radius $(1+\gamma)r$. For perturbation sets with doubling dimension $d$, we show that a variant of the natural ``perturb-and-smooth&# x27;' algorithm PAC learns any hypothesis class $\mathcal{H}$ with VC dimension $v$ in the $\gamma$-tolerant adversarial setting with $O\left(\frac{v(1+1/\gamma)^{O(d)}}{\varepsilon}\right)$ samples. This is the first such general guarantee with linear dependence on $v$ even for the special case where the domain is the real line and the perturbation sets are closed balls (intervals) of radius $r$. However, the proposed guarantees for the perturb-and-smooth algorithm currently only hold in the tolerant robust realizable setting and exhibit exponential dependence on $d$. We additionally propose an alternative learning method which yields sample complexity bounds with only linear dependence on the doubling dimension even in the more general agnostic case. This approach is based on sample compression.
翻訳日:2022-03-03 13:48:19 公開日:2022-03-02
# スパース探索とK-d木を用いた密度ピーククラスタリングアルゴリズム

A density peaks clustering algorithm with sparse search and K-d tree ( http://arxiv.org/abs/2203.00973v1 )

ライセンス: Link先を確認
Yunxiao Shan, Shu Li, Fuxiang Li, Yuxin Cui, Shuai Li, Minghua Chen, Xunjun He(参考訳) 密度ピーククラスタリングは,その単純さと実用性から,クラスタリングアルゴリズムのノバとなっている。 しかし、大きな欠点は1つある:高い計算複雑性のために時間がかかります。 そこで,sparse search と k-d tree を用いた密度ピーククラスタリングアルゴリズムを開発した。 まず、K-d木を用いてスパース距離行列を算出し、元のフルランク距離行列を置き換えることにより局所密度の計算を高速化する。 次に,k近傍の集合と,任意のデータ点に対して局所密度が大きいデータ点からなる集合との交点との相対分離の計算を高速化するために,スパース探索戦略を提案する。 さらに、クラスター中心を適応的に決定するために、決定値の2次差分法を採用する。 最後に,他の5つのクラスタリングアルゴリズムとの比較により,分布特性の異なるデータセットについて実験を行った。 このアルゴリズムが計算複雑性を効果的に低減できることが証明された。 特に大きなデータセットでは、効率が著しく向上します。 また、クラスタリング精度もある程度向上している。 したがって,新たに提案するアルゴリズムの全体的な性能は良好であると考えられる。

Density peaks clustering has become a nova of clustering algorithm because of its simplicity and practicality. However, there is one main drawback: it is time-consuming due to its high computational complexity. Herein, a density peaks clustering algorithm with sparse search and K-d tree is developed to solve this problem. Firstly, a sparse distance matrix is calculated by using K-d tree to replace the original full rank distance matrix, so as to accelerate the calculation of local density. Secondly, a sparse search strategy is proposed to accelerate the computation of relative-separation with the intersection between the set of k nearest neighbors and the set consisting of the data points with larger local density for any data point. Furthermore, a second-order difference method for decision values is adopted to determine the cluster centers adaptively. Finally, experiments are carried out on datasets with different distribution characteristics, by comparing with other five typical clustering algorithms. It is proved that the algorithm can effectively reduce the computational complexity. Especially for larger datasets, the efficiency is elevated more remarkably. Moreover, the clustering accuracy is also improved to a certain extent. Therefore, it can be concluded that the overall performance of the newly proposed algorithm is excellent.
翻訳日:2022-03-03 13:47:46 公開日:2022-03-02
# HighMMT:高モダリティ表現学習のためのモダリティとタスク一般化を目指して

HighMMT: Towards Modality and Task Generalization for High-Modality Representation Learning ( http://arxiv.org/abs/2203.01311v1 )

ライセンス: Link先を確認
Paul Pu Liang, Yiwei Lyu, Xiang Fan, Shengtong Mo, Dani Yogatama, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) マルチモーダル表現の学習は、複数の異種データソースからの対応の発見と情報の統合を伴う。 近年の研究では、より汎用的なマルチモーダルモデル(ドメインやモダリティに特化していたアーキテクチャとは対照的に)の設計が検討されているが、これらの手法は言語、ビジョン、オーディオ空間における小さなモダリティに主に焦点を絞っている。 多様なモダリティに対する一般化を加速するために、高モダリティ(多様モダリティの大規模な集合)と部分可観測性(各タスクはモダリティの小さなサブセットでのみ定義される)のシナリオの手法を調査した。 共有パラメータによるマルチタスク学習は、安定したパラメータカウント(アドレス拡張性)を可能にし、クロスモーダル転送学習は、モダリティとタスク間の情報共有(部分的可観測性)を可能にします。 得られたモデルは,テキスト,画像,ビデオ,オーディオ,時系列,センサ,テーブル,設定モダリティを多種多様な研究領域から一般化し,性能と効率のトレードオフを改善し,新しいモダリティやタスクに移行し,マルチタスクモデルにおける情報共有の性質に関する驚くべき洞察を明らかにする。 私たちはコードとベンチマークをリリースし、その後の理論と経験的分析のための統一プラットフォームを提示したいと考えています。

Learning multimodal representations involves discovering correspondences and integrating information from multiple heterogeneous sources of data. While recent research has begun to explore the design of more general-purpose multimodal models (contrary to prior focus on domain and modality-specific architectures), these methods are still largely focused on a small set of modalities in the language, vision, and audio space. In order to accelerate generalization towards diverse and understudied modalities, we investigate methods for high-modality (a large set of diverse modalities) and partially-observable (each task only defined on a small subset of modalities) scenarios. To tackle these challenges, we design a general multimodal model that enables multitask and transfer learning: multitask learning with shared parameters enables stable parameter counts (addressing scalability), and cross-modal transfer learning enables information sharing across modalities and tasks (addressing partial observability). Our resulting model generalizes across text, image, video, audio, time-series, sensors, tables, and set modalities from different research areas, improves the tradeoff between performance and efficiency, transfers to new modalities and tasks, and reveals surprising insights on the nature of information sharing in multitask models. We release our code and benchmarks which we hope will present a unified platform for subsequent theoretical and empirical analysis: https://github.com/p liang279/HighMMT.
翻訳日:2022-03-03 13:32:07 公開日:2022-03-02
# 事前学習型言語モデルのためのパラメータ効率の良い混合処理アーキテクチャ

Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained Language Models ( http://arxiv.org/abs/2203.01104v1 )

ライセンス: Link先を確認
Ze-Feng Gao, Peiyu Liu, Wayne Xin Zhao, Zhong-Yi Lu, Ji-Rong Wen(参考訳) 最先端のMixture-of-Expertsアーキテクチャ(MoEと略される)は、モデル容量の増加という点でいくつかの顕著な成功を収めている。 しかし、MoEは複雑さ、通信コスト、およびトレーニング不安定性のために広く採用されることを妨げている。 ここでは、量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。 元の行列を中心テンソル(コア情報を含む)と補助テンソル(パラメータのごく一部しか持たない)に分解することができる。 分解mpo構造により、専門家間でグローバル中心テンソルを共有し、専門家固有の補助テンソルを保持することにより、元のmoeアーキテクチャのパラメータを削減できる。 また,MPOのテンソル構造に対する勾配マスク戦略を設計し,オーバーフィッティング問題を緩和する。 GPT2に基づく3つの有名な下流自然言語データセットの実験では、モデルのキャパシティ向上のパフォーマンスと効率が向上した(同じ量の専門家を持つパラメータの7.26倍)。 また,マルチタスク学習におけるアプローチの肯定的伝達効果の改善も示す。

The state-of-the-art Mixture-of-Experts (short as MoE) architecture has achieved several remarkable successes in terms of increasing model capacity. However, MoE has been hindered widespread adoption due to complexity, communication costs, and training instability. Here we present a novel MoE architecture based on matrix product operators (MPO) from quantum many-body physics. It can decompose an original matrix into central tensors (containing the core information) and auxiliary tensors (with only a small proportion of parameters). With the decomposed MPO structure, we can reduce the parameters of the original MoE architecture by sharing a global central tensor across experts and keeping expert-specific auxiliary tensors. We also design the gradient mask strategy for the tensor structure of MPO to alleviate the overfitting problem. Experiments on the three well-known downstream natural language datasets based on GPT2 show improved performance and efficiency in increasing model capacity (7.26x fewer parameters with the same amount of experts). We additionally demonstrate an improvement in the positive transfer effects of our approach for multi-task learning.
翻訳日:2022-03-03 13:31:39 公開日:2022-03-02
# エンド・ツー・エンドのコンテキスト対応クラスタリングによるオープン・レスポンス・サーベイのための洞察の提供

Providing Insights for Open-Response Surveys via End-to-End Context-Aware Clustering ( http://arxiv.org/abs/2203.01294v1 )

ライセンス: Link先を確認
Soheil Esmaeilzadeh, Brian Williams, Davood Shamsi, Onar Vikingstad(参考訳) 教師はしばしば、予め定義された学生のグループからデータを収集し、興味のあるトピックに関する洞察を得るために調査を行う。 オープンエンドのテキスト応答を用いて調査を分析する場合、非常に時間がかかり、労働集約的であり、すべての回答を手作業で洞察に富んだ総合的なレポートに処理することは困難である。 分析ステップでは、伝統的に、教師は各回答を読み取って、洞察力のある情報を抽出するためにグループ化する方法を決定する必要がある。 特定のキーワードのみを使用して応答をグループ化することは可能であるが、そのようなアプローチは組み込みコンテキストを考慮せず、単一の単語で表現できない多文語、フレーズ、意味を検出できないため、制限される。 本研究では,オープンレスポンスサーベイデータ中の組込み意味パターンを抽出し,集約し,省略する,エンド・ツー・エンドのコンテキスト認識フレームワークを提案する。 我々のフレームワークは、テキストデータを意味ベクトルにエンコードするために、事前訓練された自然言語モデルに依存している。 符号化されたベクターは最適に調整された数の群に、または事前に指定されたタイトルを持つ群に分類される。 前者の場合、クラスタはさらに分析され、クラスタのラベルとして機能するキーワードや要約文の代表的なセットを抽出する。 このフレームワークでは、指定されたクラスタに対して、各グループ内のセマンティックに顕著なキーワードを示すコンテキスト対応のワードクラウドを提供する。 ユーザのプライバシに敬意を表して,モバイルデバイス上でのリアルタイム解析に適したフレームワークのオンデバイス実装を成功させ,合成データセット上でテストしました。 調査データから最も洞察に富んだ情報を抽出するプロセスを自動化し,大規模コストを削減する。

Teachers often conduct surveys in order to collect data from a predefined group of students to gain insights into topics of interest. When analyzing surveys with open-ended textual responses, it is extremely time-consuming, labor-intensive, and difficult to manually process all the responses into an insightful and comprehensive report. In the analysis step, traditionally, the teacher has to read each of the responses and decide on how to group them in order to extract insightful information. Even though it is possible to group the responses only using certain keywords, such an approach would be limited since it not only fails to account for embedded contexts but also cannot detect polysemous words or phrases and semantics that are not expressible in single words. In this work, we present a novel end-to-end context-aware framework that extracts, aggregates, and abbreviates embedded semantic patterns in open-response survey data. Our framework relies on a pre-trained natural language model in order to encode the textual data into semantic vectors. The encoded vectors then get clustered either into an optimally tuned number of groups or into a set of groups with pre-specified titles. In the former case, the clusters are then further analyzed to extract a representative set of keywords or summary sentences that serve as the labels of the clusters. In our framework, for the designated clusters, we finally provide context-aware wordclouds that demonstrate the semantically prominent keywords within each group. Honoring user privacy, we have successfully built the on-device implementation of our framework suitable for real-time analysis on mobile devices and have tested it on a synthetic dataset. Our framework reduces the costs at-scale by automating the process of extracting the most insightful information pieces from survey data.
翻訳日:2022-03-03 13:31:21 公開日:2022-03-02
# MSE損失下におけるニューラル崩壊の最適化景観について:制約のない特徴を持つ大域的最適性

On the Optimization Landscape of Neural Collapse under MSE Loss: Global Optimality with Unconstrained Features ( http://arxiv.org/abs/2203.01238v1 )

ライセンス: Link先を確認
Jinxin Zhou, Xiao Li, Tianyu Ding, Chong You, Qing Qu and Zhihui Zhu(参考訳) 分類タスクのためのディープニューラルネットワークのトレーニングでは、ラスト層分類器や特徴において興味深い経験的現象が広く観測されている。 i) クラス手段と最終層分類器は、すべて、スケーリングまで単純な等角的密閉フレーム(ETF)の頂点に崩壊し、 (ii) 最終層活性化のクラス内変動が0に崩壊する。 この現象は神経崩壊(neural collapse, nc)と呼ばれ、損失関数の選択に関係なく起こるように見える。 本研究では、NCを平均二乗誤差(MSE)損失下で正当化し、近年の実証的証拠は、デファクトのクロスエントロピー損失よりも可逆的あるいはそれ以上に機能することを示している。 単純化された非拘束的特徴モデルの下で、バニラ非凸MSE損失に対する最初のグローバルランドスケープ解析を行い、(ただ!)大域最小化器は神経崩壊解であり、他のすべての臨界点はヘッセンが負の曲率方向を示す厳密なサドルであることを示す。 さらに,ncソリューション周辺の最適化景観を探索することにより,再スケールされたmse損失の利用を正当化し,再スケーリングハイパーパラメータをチューニングすることで景観を改善することができることを示した。 最後に,本理論は実用的ネットワークアーキテクチャ上で実験的に検証される。

When training deep neural networks for classification tasks, an intriguing empirical phenomenon has been widely observed in the last-layer classifiers and features, where (i) the class means and the last-layer classifiers all collapse to the vertices of a Simplex Equiangular Tight Frame (ETF) up to scaling, and (ii) cross-example within-class variability of last-layer activations collapses to zero. This phenomenon is called Neural Collapse (NC), which seems to take place regardless of the choice of loss functions. In this work, we justify NC under the mean squared error (MSE) loss, where recent empirical evidence shows that it performs comparably or even better than the de-facto cross-entropy loss. Under a simplified unconstrained feature model, we provide the first global landscape analysis for vanilla nonconvex MSE loss and show that the (only!) global minimizers are neural collapse solutions, while all other critical points are strict saddles whose Hessian exhibit negative curvature directions. Furthermore, we justify the usage of rescaled MSE loss by probing the optimization landscape around the NC solutions, showing that the landscape can be improved by tuning the rescaling hyperparameters. Finally, our theoretical findings are experimentally verified on practical network architectures.
翻訳日:2022-03-03 13:30:37 公開日:2022-03-02
# TSAM: 因果感情改善のための2ストリーム注意モデル

TSAM: A Two-Stream Attention Model for Causal Emotion Entailment ( http://arxiv.org/abs/2203.00819v1 )

ライセンス: Link先を確認
Duzhen Zhang, Zhen Yang, Fandong Meng, Xiuyi Chen, Jie Zhou(参考訳) CEE(Causal Emotion Entailment)は、会話発話における感情の背後にある潜在的な原因を発見することを目的としている。 これまでCEEは、感情と話者情報を無視した独立した発話ペア分類問題として形式化されてきた。 新たな観点から、CEEを共同フレームワークとして検討する。 グローバルビューにおける発話間の相関を捉えるために,複数の発話を同期的に分類し,会話履歴における話者の感情的影響を効果的にモデル化する2ストリーム注意モデル(tsam)を提案する。 具体的には、感情注意ネットワーク(EAN)、話者注意ネットワーク(SAN)、対話モジュールの3つのモジュールで構成される。 EANとSANは、感情と話者情報を並列に含み、その後の相互作用モジュールは、相互ビアフィン変換を介して、EANとSAN間の関連情報を効果的に交換する。 ベンチマークデータセットによる実験結果から,本モデルが新たなSOTA(State-Of-The-Ar t)性能を実現し,ベースラインを著しく上回ることを示す。

Causal Emotion Entailment (CEE) aims to discover the potential causes behind an emotion in a conversational utterance. Previous works formalize CEE as independent utterance pair classification problems, with emotion and speaker information neglected. From a new perspective, this paper considers CEE in a joint framework. We classify multiple utterances synchronously to capture the correlations between utterances in a global view and propose a Two-Stream Attention Model (TSAM) to effectively model the speaker's emotional influences in the conversational history. Specifically, the TSAM comprises three modules: Emotion Attention Network (EAN), Speaker Attention Network (SAN), and interaction module. The EAN and SAN incorporate emotion and speaker information in parallel, and the subsequent interaction module effectively interchanges relevant information between the EAN and SAN via a mutual BiAffine transformation. Experimental results on a benchmark dataset demonstrate that our model achieves new State-Of-The-Art (SOTA) performance and outperforms baselines remarkably.
翻訳日:2022-03-03 13:30:12 公開日:2022-03-02
# incloud:point cloud place認識のためのインクリメンタル学習

InCloud: Incremental Learning for Point Cloud Place Recognition ( http://arxiv.org/abs/2203.00807v1 )

ライセンス: Link先を確認
Joshua Knights, Peyman Moghadam, Milad Ramezani, Sridha Sridharan, Clinton Fookes(参考訳) 位置認識はロボティクスの基本的な構成要素であり、近年ではディープラーニングモデルの使用によって大幅に改善されている。 ネットワークは、目に見えない、あるいは非常にダイナミックな環境にデプロイすると、パフォーマンスが大幅に低下し、収集されたデータに対する追加のトレーニングが必要になる。 しかし、新しいトレーニング分布のネイティブな微調整は、以前訪問したドメインにおけるパフォーマンスの深刻な低下を引き起こす可能性がある。 本稿では,ポイントクラウド位置認識のためのインクリメンタル学習の問題に対処し,ネットワークの埋め込み空間の高次構造を保つ構造認識蒸留に基づくアプローチであるincloudを導入する。 我々は,大規模lidarデータセット(oxford, mulran, in-house, kitti)において,さまざまなネットワークアーキテクチャに対するポイントクラウドプレース認識性能の広範な改善を示す,いくつかの新たなベンチマークを紹介する。 私たちの知る限りでは、この成果はポイントクラウドの場所認識にインクリメンタルな学習を効果的に適用した最初の作品です。

Place recognition is a fundamental component of robotics, and has seen tremendous improvements through the use of deep learning models in recent years. Networks can experience significant drops in performance when deployed in unseen or highly dynamic environments, and require additional training on the collected data. However naively fine-tuning on new training distributions can cause severe degradation of performance on previously visited domains, a phenomenon known as catastrophic forgetting. In this paper we address the problem of incremental learning for point cloud place recognition and introduce InCloud, a structure-aware distillation-based approach which preserves the higher-order structure of the network's embedding space. We introduce several challenging new benchmarks on four popular and large-scale LiDAR datasets (Oxford, MulRan, In-house and KITTI) showing broad improvements in point cloud place recognition performance over a variety of network architectures. To the best of our knowledge, this work is the first to effectively apply incremental learning for point cloud place recognition.
翻訳日:2022-03-03 13:29:16 公開日:2022-03-02
# (参考訳) 因果フェアネスによる選択・無視・挑戦 [全文訳有]

Selection, Ignorability and Challenges With Causal Fairness ( http://arxiv.org/abs/2202.13774v2 )

ライセンス: CC BY 4.0
Jake Fawkes, Robin Evans, Dino Sejdinovic(参考訳) 本稿では,因果カウンターファクトを用いた人気フェアネス手法について考察する。 これらの手法は、誰かの人種、性別、宗教が事実上異なる場合の予測と一致する場合、予測が公平であるという直感的な考えを捉えている。 これを達成するためには、反証的にこれらの特徴を変えるためには、誰かの姿をキャプチャできる因果モデルが必要です。 しかし、このようなことが可能なモデルは、フェアネス文学において一般的に考慮される、特によく振る舞うクラスの外にある必要があると論じる。 これは、公平性の設定において、このクラスのモデルは特に強い因果仮定を伴い、通常ランダムに制御されたトライアルでのみ見られるためである。 一般論として、これはありそうにない。 また,より広い個体群からサンプルが選択されていることから,明確に否定されるケースが多い。 このことは, 対実的公正性や, より一般的な因果的公正性手法の適用に困難をもたらすことを示す。

In this paper we look at popular fairness methods that use causal counterfactuals. These methods capture the intuitive notion that a prediction is fair if it coincides with the prediction that would have been made if someone's race, gender or religion were counterfactually different. In order to achieve this, we must have causal models that are able to capture what someone would be like if we were to counterfactually change these traits. However, we argue that any model that can do this must lie outside the particularly well behaved class that is commonly considered in the fairness literature. This is because in fairness settings, models in this class entail a particularly strong causal assumption, normally only seen in a randomised controlled trial. We argue that in general this is unlikely to hold. Furthermore, we show in many cases it can be explicitly rejected due to the fact that samples are selected from a wider population. We show this creates difficulties for counterfactual fairness as well as for the application of more general causal fairness methods.
翻訳日:2022-03-03 13:00:00 公開日:2022-03-02
# (参考訳) Concordance Index decomposition: 生存予測モデルのより深い理解のための尺度 [全文訳有]

The Concordance Index decomposition: a measure for a deeper understanding of survival prediction models ( http://arxiv.org/abs/2203.00144v2 )

ライセンス: CC BY 4.0
Abdallah Alabdallah, Mattias Ohlsson, Sepideh Pashami, Thorsteinn R\"ognvaldsson(参考訳) concordance index (c-index) は生存率分析において、予測モデルがどれだけ優れているかを評価するためによく用いられる指標である。 本稿では,c-indexを2種類の重み付き調和平均に分解することを提案する。1つは観測事象を他の観測事象と比較し,もう1つは観測事象を検閲事例と比較した場合の重み付き調和平均である。 この分解により、生存予測法の長所と短所をよりきめ細かい分析が可能となる。 本論文では,3つのベンチマークサバイバル分析モデル(Cox Proportional Hazard,Random Survival Forest,Deep Adversarial Time-to-Event Network)とニューラルネットを用いた新しい変分生成手法(SurVED)を用いて,その実用性を実証する。 デモは、さまざまな検閲レベルを持つ4つの公開データセットで実施される。 C-インデックス分解による分析は、全ての手法が、検閲レベルが高い場合、イベントと検閲ケースのランキングを測る用語の優位性から、本質的に同等に機能することを示している。 対照的に、検閲レベルが低下すると、イベントと他のイベントをうまくランク付けしないため、いくつかの方法が悪化する。

The Concordance Index (C-index) is a commonly used metric in Survival Analysis to evaluate how good a prediction model is. This paper proposes a decomposition of the C-Index into a weighted harmonic mean of two quantities: one for ranking observed events versus other observed events, and the other for ranking observed events versus censored cases. This decomposition allows a more fine-grained analysis of the pros and cons of survival prediction methods. The utility of the decomposition is demonstrated using three benchmark survival analysis models (Cox Proportional Hazard, Random Survival Forest, and Deep Adversarial Time-to-Event Network) together with a new variational generative neural-network-based method (SurVED), which is also proposed in this paper. The demonstration is done on four publicly available datasets with varying censoring levels. The analysis with the C-index decomposition shows that all methods essentially perform equally well when the censoring level is high because of the dominance of the term measuring the ranking of events versus censored cases. In contrast, some methods deteriorate when the censoring level decreases because they do not rank the events versus other events well.
翻訳日:2022-03-03 12:41:20 公開日:2022-03-02
# (参考訳) ピン入力法における中国語GPTの探索と適応 [全文訳有]

Exploring and Adapting Chinese GPT to Pinyin Input Method ( http://arxiv.org/abs/2203.00249v2 )

ライセンス: CC BY 4.0
Minghuan Tan, Yong Dai, Duyu Tang, Zhangyin Feng, Guoping Huang, Jing Jiang, Jiwei Li, Shuming Shi(参考訳) GPTはテキスト生成タスクのデファクトメソッドとなっているが、Pinyin 入力メソッドへの応用は未検討のままである。 本稿では,中国のgptをピンイン入力法に活用する最初の探索を行う。 凍結したGPTはピニインの最先端性能を実現する。 しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。 理由は、省略されたpinyinは、多くの完全なpinyinにマッピングできるためであり、これはさらに多くの漢字にリンクしている。 pinyinでコンテキストを豊かにし、ホモホンを識別するためのトレーニングプロセスを最適化することを含む、2つの戦略でこの問題を軽減する。 さらにPinyin入力手法の評価を容易にするため、15ドメインから270Kインスタンスからなるデータセットを作成する。 その結果,全領域にわたる短縮ピンインの性能が向上した。 モデル分析は、両方の戦略がパフォーマンス向上に寄与することを示している。

While GPT has become the de-facto method for text generation tasks, its application to pinyin input method remains unexplored. In this work, we make the first exploration to leverage Chinese GPT for pinyin input method. We find that a frozen GPT achieves state-of-the-art performance on perfect pinyin. However, the performance drops dramatically when the input includes abbreviated pinyin. A reason is that an abbreviated pinyin can be mapped to many perfect pinyin, which links to even larger number of Chinese characters. We mitigate this issue with two strategies, including enriching the context with pinyin and optimizing the training process to help distinguish homophones. To further facilitate the evaluation of pinyin input method, we create a dataset consisting of 270K instances from 15 domains. Results show that our approach improves performance on abbreviated pinyin across all domains. Model analysis demonstrates that both strategies contribute to the performance boost.
翻訳日:2022-03-03 12:20:51 公開日:2022-03-02
# エンコーダデコーダリカレントニューラルネットワークを用いた白色物質のWMTI-Watsonモデルのパラメータ推定

Parameter estimation for WMTI-Watson model of white matter using encoder-decoder recurrent neural network ( http://arxiv.org/abs/2203.00595v2 )

ライセンス: Link先を確認
Yujian Diao and Ileana Ozana Jelescu(参考訳) 拡散MRI信号の生体物理モデリングは、特定のミクロ組織特性を推定する。 非線形最小二乗法(NLLS)のような非線形最適化はモデル推定において最も広く使われている手法であるが、局所最小化と計算コストに悩まされている。 ディープラーニングアプローチは、NLフィッティングを着実に置き換えているが、各取得プロトコルとノイズレベルに対してモデルを再トレーニングする必要があるという制限が伴っている。 wmti(white matter tract integrity)-watsonモデル(wmti-watson model)は、拡散テンソルとクルトシステンソル(dki)からモデルパラメータを推定する白色物質における拡散の標準モデルの実装として提案された。 本稿では,エンコーダ・デコーダ・リカレントニューラルネットワーク(RNN)に基づくディープラーニング手法を提案し,ロバスト性を高め,WMTI-Watsonのパラメータ推定を高速化する。 学習データと実験データとの分布の潜在的差異に影響を受けないモデルを作成するために埋め込み手法を用いる。 したがって、このRNNベースの解法は、DKIがデータから事前計算される限り、取得プロトコルや基礎となるパラメータ分布によらず、計算効率が高く、他のデータセットに容易に変換できるという利点がある。 本研究では,ラットおよびヒト脳の合成および生体内データセットにおけるNLLS,RNN法および多層パーセプトロン(MLP)の性能評価を行った。 提案手法は,NLLSよりも高速に計算時間を短縮し(数時間から秒),精度と精度はよく,ロバスト性は向上し,MLPより新しいデータセットへの変換性が向上した。

Biophysical modelling of the diffusion MRI signal provides estimates of specific microstructural tissue properties. Although nonlinear optimization such as non-linear least squares (NLLS) is the most widespread method for model estimation, it suffers from local minima and high computational cost. Deep Learning approaches are steadily replacing NL fitting, but come with the limitation that the model needs to be retrained for each acquisition protocol and noise level. The White Matter Tract Integrity (WMTI)-Watson model was proposed as an implementation of the Standard Model of diffusion in white matter that estimates model parameters from the diffusion and kurtosis tensors (DKI). Here we proposed a deep learning approach based on the encoder-decoder recurrent neural network (RNN) to increase the robustness and accelerate the parameter estimation of WMTI-Watson. We use an embedding approach to render the model insensitive to potential differences in distributions between training data and experimental data. This RNN-based solver thus has the advantage of being highly efficient in computation and more readily translatable to other datasets, irrespective of acquisition protocol and underlying parameter distributions as long as DKI was pre-computed from the data. In this study, we evaluated the performance of NLLS, the RNN-based method and a multilayer perceptron (MLP) on synthetic and in vivo datasets of rat and human brain. We showed that the proposed RNN-based fitting approach had the advantage of highly reduced computation time over NLLS (from hours to seconds), with similar accuracy and precision but improved robustness, and superior translatability to new datasets over MLP.
翻訳日:2022-03-03 12:06:28 公開日:2022-03-02
# GROW: メモリ効率の良いグラフ畳み込みニューラルネットワークのためのRow-Stationary Sparse-Dense GEMM加速器

GROW: A Row-Stationary Sparse-Dense GEMM Accelerator for Memory-Efficient Graph Convolutional Neural Networks ( http://arxiv.org/abs/2203.00158v2 )

ライセンス: Link先を確認
Minhoo Kang, Ranggi Hwang, Jiwon Lee, Dongyun Kam, Youngjoo Lee, Minsoo Rhu(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、入力データがリレーショナルである様々なアプリケーション領域において重要な技術として登場した。 gcnsのユニークな特徴は、その2つの主要な実行段階である集約と組み合わせが著しく異なるデータフローを示すことである。 その結果、前回のGCN加速器はこの研究領域に取り組み、アグリゲーションと組み合わせの段階をスパースデンス行列の乗法としてキャストした。 しかし、以前の作業はしばしば非効率なデータ移動に悩まされ、大きなパフォーマンスがテーブルに残されている。 我々は,gustavson のアルゴリズムに基づく gcn アクセラレータである grow を用いて,sparse-dense gemm アクセラレータの設計を行った。 GROWは、GCNのローカリティと並列性のバランスを崩すソフトウェア/ハードウェアを共同設計し、最先端のGCNアクセラレータと比較して、大幅なエネルギー効率の改善を実現している。

Graph convolutional neural networks (GCNs) have emerged as a key technology in various application domains where the input data is relational. A unique property of GCNs is that its two primary execution stages, aggregation and combination, exhibit drastically different dataflows. Consequently, prior GCN accelerators tackle this research space by casting the aggregation and combination stages as a series of sparse-dense matrix multiplication. However, prior work frequently suffers from inefficient data movements, leaving significant performance left on the table. We present GROW, a GCN accelerator based on Gustavson's algorithm to architect a row-wise product based sparse-dense GEMM accelerator. GROW co-designs the software/hardware that strikes a balance in locality and parallelism for GCNs, achieving significant energy-efficiency improvements vs. state-of-the-art GCN accelerators.
翻訳日:2022-03-03 11:49:10 公開日:2022-03-02
# 歌声の美を学ぶ:ニューラルシンキング音声美容器

Learning the Beauty in Songs: Neural Singing Voice Beautifier ( http://arxiv.org/abs/2202.13277v2 )

ライセンス: Link先を確認
Jinglin Liu, Chengxi Li, Yi Ren, Zhiying Zhu, Zhou Zhao(参考訳) 我々は音声美歌(SVB)を歌う新しいタスクに興味を持っている。 アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。 現在の自動ピッチ補正技術は未熟であり、そのほとんどはイントネーションに制限されているが、全体的な美的品質は無視されている。 そこで本研究では,svbタスクを解決する最初の生成モデルであるneural singing voice beautifier (nsvb)を紹介し,条件付き変分オートエンコーダをバックボーンとして活用し,発声音の潜在表現を学習する。 nsvbでは,既存の時間ウォーピング手法のロバスト性を改善する形状認識動的時間ウォーピング (sadtw) により,アマチュア記録をテンプレートピッチ曲線と同期させる新しいピッチ補正手法を提案する。 さらに,素人の声調をプロフェッショナルな声調に変換するために,潜時空間における潜時マスキングアルゴリズムを提案する。 これを実現するために,アマチュア版とプロ版の両方の並列歌唱記録を含む新しいデータセットを提案する。 中国語と英語の歌を広範に実験した結果,客観的指標と主観的指標の両方において,本手法の有効性が示された。 オーディオサンプルは~\url{https://neuralsvb.gi thub.io}で入手できる。 コード: \url{https://github.com/M oonInTheRiver/Neural SVB}。

We are interested in a novel task, singing voice beautifying (SVB). Given the singing voice of an amateur singer, SVB aims to improve the intonation and vocal tone of the voice, while keeping the content and vocal timbre. Current automatic pitch correction techniques are immature, and most of them are restricted to intonation but ignore the overall aesthetic quality. Hence, we introduce Neural Singing Voice Beautifier (NSVB), the first generative model to solve the SVB task, which adopts a conditional variational autoencoder as the backbone and learns the latent representations of vocal tone. In NSVB, we propose a novel time-warping approach for pitch correction: Shape-Aware Dynamic Time Warping (SADTW), which ameliorates the robustness of existing time-warping approaches, to synchronize the amateur recording with the template pitch curve. Furthermore, we propose a latent-mapping algorithm in the latent space to convert the amateur vocal tone to the professional one. To achieve this, we also propose a new dataset containing parallel singing recordings of both amateur and professional versions. Extensive experiments on both Chinese and English songs demonstrate the effectiveness of our methods in terms of both objective and subjective metrics. Audio samples are available at~\url{https://neuralsvb.gi thub.io}. Codes: \url{https://github.com/M oonInTheRiver/Neural SVB}.
翻訳日:2022-03-03 11:48:53 公開日:2022-03-02
# 「中国語のBERTよりずっといい言葉」:中国語の文法的誤りの訂正をめざして

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction ( http://arxiv.org/abs/2203.00286v2 )

ライセンス: Link先を確認
Yong Dai, Linyang Li, Cong Zhou, Zhangyin Feng, Enbo Zhao, Xipeng Qiu, Piji Li, Duyu Tang(参考訳) 単語に対応するすべてのサブワードを一度にマスキングするWWM(Whole Word masking)は、英語のBERTモデルを改善する。 しかし中国語では、各トークンが原子的文字であるため、サブワードは存在しない。 中国語の単語の意味は、単語が複数の文字からなる構成単位であるという点で異なる。 このような違いは、WWMが中国のBERTにより良い文脈理解能力をもたらすかどうかを調査する動機となっている。 これを実現するために,文法的誤り訂正に関連する2つのプロビングタスクを導入し,事前学習したモデルに対して,マスキング言語モデリング手法によるトークンの修正や挿入を依頼する。 10,448文で19,075トークンのラベルを含むデータセットを構築した。 標準文字レベルマスキング(clm)、wwm、およびclmとwwmの組み合わせを用いた3つの中国語bertモデルを訓練した。 第一に、あるキャラクタを挿入または置き換える必要がある場合、CLMでトレーニングされたモデルが最もよく機能する。 第二に、複数の文字を扱う必要がある場合、WWMがパフォーマンス向上の鍵となる。 最後に、文レベルの下流タスクで微調整されると、異なるマスキング戦略でトレーニングされたモデルが比較可能に実行される。

Whole word masking (WWM), which masks all subwords corresponding to a word at once, makes a better English BERT model. For the Chinese language, however, there is no subword because each token is an atomic character. The meaning of a word in Chinese is different in that a word is a compositional unit consisting of multiple characters. Such difference motivates us to investigate whether WWM leads to better context understanding ability for Chinese BERT. To achieve this, we introduce two probing tasks related to grammatical error correction and ask pretrained models to revise or insert tokens in a masked language modeling manner. We construct a dataset including labels for 19,075 tokens in 10,448 sentences. We train three Chinese BERT models with standard character-level masking (CLM), WWM, and a combination of CLM and WWM, respectively. Our major findings are as follows: First, when one character needs to be inserted or replaced, the model trained with CLM performs the best. Second, when more than one character needs to be handled, WWM is the key to better performance. Finally, when being fine-tuned on sentence-level downstream tasks, models trained with different masking strategies perform comparably.
翻訳日:2022-03-03 11:48:29 公開日:2022-03-02
# CrossPoint: 3Dポイントクラウド理解のための自己監督型クロスモーダルコントラスト学習

CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding ( http://arxiv.org/abs/2203.00680v2 )

ライセンス: Link先を確認
Mohamed Afham, Isuru Dissanayake, Dinithi Dissanayake, Amaya Dharmasiri, Kanchana Thilakarathna, Ranga Rodrigo(参考訳) 3次元オブジェクト分類、セグメンテーション、検出などの様々なタスクのための大規模ポイントクラウドデータセットのマニュアルアノテーションは、ポイントクラウドの不規則な構造のため、しばしば困難である。 人間のラベル付けなしで動く自己教師型学習は、この問題に対処するための有望なアプローチである。 現実世界では、人間は2d画像から学習した視覚概念をマッピングして3d世界を理解することができると観察する。 そこで本研究では,移動可能な3Dポイントクラウド表現を学習するための,シンプルなクロスモーダルコントラスト学習手法であるCrossPointを提案する。 これは、点雲と対応する不変空間内の2次元画像との一致を最大化し、点雲様相の変換への不変性を助長することで、物体の3d-2次元対応を可能にする。 共同学習の目的は,3次元点クラウドと2次元画像モダリティの両方から,自己教師ありの方法でリッチな学習信号を合体させることである。 実験の結果,従来の教師なし学習手法よりも,3次元オブジェクトの分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。 さらに,アブレーション研究は,より良質な点雲理解のためのアプローチの有効性を検証する。 コードと事前訓練されたモデルはhttp://github.com/Mo hamedAfham/CrossPoin t.comで入手できる。

Manual annotation of large-scale point cloud dataset for varying tasks such as 3D object classification, segmentation and detection is often laborious owing to the irregular structure of point clouds. Self-supervised learning, which operates without any human labeling, is a promising approach to address this issue. We observe in the real world that humans are capable of mapping the visual concepts learnt from 2D images to understand the 3D world. Encouraged by this insight, we propose CrossPoint, a simple cross-modal contrastive learning approach to learn transferable 3D point cloud representations. It enables a 3D-2D correspondence of objects by maximizing agreement between point clouds and the corresponding rendered 2D image in the invariant space, while encouraging invariance to transformations in the point cloud modality. Our joint training objective combines the feature correspondences within and across modalities, thus ensembles a rich learning signal from both 3D point cloud and 2D image modalities in a self-supervised fashion. Experimental results show that our approach outperforms the previous unsupervised learning methods on a diverse range of downstream tasks including 3D object classification and segmentation. Further, the ablation studies validate the potency of our approach for a better point cloud understanding. Code and pretrained models are available at http://github.com/Mo hamedAfham/CrossPoin t.
翻訳日:2022-03-03 11:48:06 公開日:2022-03-02
# 自己監督型プレトレーニングにおける個人領域因子の影響の測定

Measuring the Impact of Individual Domain Factors in Self-Supervised Pre-Training ( http://arxiv.org/abs/2203.00648v2 )

ライセンス: Link先を確認
Ramon Sanabria, Wei-Ning Hsu, Alexei Baevski, Michael Auli(参考訳) 人間の音声データにはアクセント、構文、意味の多様性、音響環境といったドメイン要素が豊富に含まれている。 従来,事前学習と微調整の音声認識におけるドメインミスマッチの効果について検討してきたが,個々の要因の寄与を判別することはできなかった。 本稿では,事前学習された表現の性能に及ぼす因子の影響をよりよく理解するための制御研究について述べる。 そのために,1つの領域因子を修飾した修正自然音声か合成音声のいずれかのモデルの事前学習を行い,微調整後の自動音声認識の性能を測定した。 その結果,音素領域因子は事前学習において重要な役割を担っていることが明らかとなった。 本研究は,音声の自己教師付き事前学習におけるドメイン特性の理解を深めた最初の研究である。

Human speech data comprises a rich set of domain factors such as accent, syntactic and semantic variety, or acoustic environment. Previous work explores the effect of domain mismatch in automatic speech recognition between pre-training and fine-tuning as a whole but does not dissect the contribution of individual factors. In this paper, we present a controlled study to better understand the effect of such factors on the performance of pre-trained representations. To do so, we pre-train models either on modified natural speech or synthesized audio, with a single domain factor modified, and then measure performance on automatic speech recognition after fine tuning. Results show that phonetic domain factors play an important role during pre-training while grammatical and syntactic factors are far less important. To our knowledge, this is the first study to better understand the domain characteristics in self-supervised pre-training for speech.
翻訳日:2022-03-03 11:47:45 公開日:2022-03-02
# CoNICチャレンジにおけるデータ拡張によるマルチスケールSwinTransformer-HTCの利用

Using Multi-scale SwinTransformer-HTC with Data augmentation in CoNIC Challenge ( http://arxiv.org/abs/2202.13588v2 )

ライセンス: Link先を確認
Chia-Yen Lee, Hsiang-Chin Chien, Ching-Ping Wang, Hong Yen, Kai-Wen Zhen, Hong-Kun Lin(参考訳) 大腸癌は世界中で最も多いがんの1つであり、早期病理検査は非常に重要である。 しかし、臨床におけるH&E画像上の細胞数とタイプを特定するのに時間と労力がかかる。 そのため、CoNIC Challenge 2022により、病理領域からのH&E画像の自動分割と分類と細胞組成のカウントが提案される。 この課題のために,htc によるマルチスケールスウィントランスを提案し,さらに,既知の正規化法を適用して増補データを生成する。 最後に,マルチスケールが異なるスケールの特徴を識別する上で重要な役割を担い,モデル認識の促進がもたらされた。

Colorectal cancer is one of the most common cancers worldwide, so early pathological examination is very important. However, it is time-consuming and labor-intensive to identify the number and type of cells on H&E images in clinical. Therefore, automatic segmentation and classification task and counting the cellular composition of H&E images from pathological sections is proposed by CoNIC Challenge 2022. We proposed a multi-scale Swin transformer with HTC for this challenge, and also applied the known normalization methods to generate more augmentation data. Finally, our strategy showed that the multi-scale played a crucial role to identify different scale features and the augmentation arose the recognition of model.
翻訳日:2022-03-03 11:47:32 公開日:2022-03-02