このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220712となっている論文です。

PDF登録状況(公開日: 20220712)

TitleAuthorsAbstract論文公表日・翻訳日
# 連合学習におけるロバスト性とパーソナライゼーション:正則化による統一的アプローチ

Robustness and Personalization in Federated Learning: A Unified Approach via Regularization ( http://arxiv.org/abs/2009.06303v3 )

ライセンス: Link先を確認
Achintya Kundu, Pengqian Yu, Laura Wynter, Shiau Hong Lim(参考訳) 我々は、多くのフェデレーション学習アルゴリズムを統一するFed+と呼ばれる、堅牢でパーソナライズされたフェデレーション学習のための一連の方法を提案する。 このタイプの方法の主な利点は、パーティ間でのiidデータの欠如、外れ値やストラグラーへの堅牢性の必要性、パーティ固有のデータセットでうまく機能する必要性など、フェデレーショントレーニングで見られる実世界の特性をよりよく満足することです。 我々は,局所的な計算構造をそのまま保ちながら,局所的なモデルを集約する堅牢な手法を中央サーバに導入する問題定式化によってこれを達成した。 パーティ間での局所データの均一性の度合いを統計的に仮定することなく、異なる(ロバスト)集約法の下での凸損失関数と非凸損失関数に対するFed+の収束保証を提供する。 Fed+理論はまた、追加の仮定なしでストラグラーを含む異種コンピューティング環境を扱うようにも機能している。 標準ベンチマークデータセットにまたがる広範な実験を通じて、Fed+の利点を実証する。

We present a class of methods for robust, personalized federated learning, called Fed+, that unifies many federated learning algorithms. The principal advantage of this class of methods is to better accommodate the real-world characteristics found in federated training, such as the lack of IID data across parties, the need for robustness to outliers or stragglers, and the requirement to perform well on party-specific datasets. We achieve this through a problem formulation that allows the central server to employ robust ways of aggregating the local models while keeping the structure of local computation intact. Without making any statistical assumption on the degree of heterogeneity of local data across parties, we provide convergence guarantees for Fed+ for convex and non-convex loss functions under different (robust) aggregation methods. The Fed+ theory is also equipped to handle heterogeneous computing environments including stragglers without additional assumptions; specifically, the convergence results cover the general setting where the number of local update steps across parties can vary. We demonstrate the benefits of Fed+ through extensive experiments across standard benchmark datasets.
翻訳日:2022-10-18 12:09:28 公開日:2022-07-12
# 小児mr画像におけるシェーププリファレンスと逆ネットワークの併用による多構造骨分節化

Multi-structure bone segmentation in pediatric MR images with combined regularization from shape priors and adversarial network ( http://arxiv.org/abs/2009.07092v5 )

ライセンス: Link先を確認
Arnaud Boutillon, Bhushan Borotikar, Val\'erie Burdin and Pierre-Henri Conze(参考訳) 小児筋骨格系の形態学的および診断的評価は臨床において重要である。 しかし、ほとんどのセグメンテーションモデルは、少ない小児画像データではうまく機能しない。 異種小児磁気共鳴 (mr) 画像のセグメント化を課題とする新しい事前学習型正規化畳み込みエンコーダ-デコーダネットワークを提案する。 そこで我々は,損失関数の追加正規化項を含むセグメンテーションネットワークの新しい最適化手法を考案した。 グローバルに一貫した予測を得るために,オートエンコーダで学習した非線形形状表現から得られる,形状先行に基づく正規化を組み込む。 さらに、判別器によって計算される逆正則化を統合して正確な記述を促進する。 提案手法は, 病態と健康な検査を含む足関節と肩関節からの2つの希薄な小児画像データセットにおける多関節分節の課題について評価した。 提案手法は,Dice, 感度, 特異性, 最大対称表面距離, 平均対称表面距離, および相対絶対体積差の測定値について, 従来提案した手法と同等あるいは同等に動作する。 提案手法は, 様々な骨分割戦略に容易に統合でき, 大規模非医療画像データベースで事前学習したモデルの予測精度を向上できることを示す。 その結果,小児筋骨格障害に対する新たな視点が得られた。

Morphological and diagnostic evaluation of pediatric musculoskeletal system is crucial in clinical practice. However, most segmentation models do not perform well on scarce pediatric imaging data. We propose a new pre-trained regularized convolutional encoder-decoder network for the challenging task of segmenting heterogeneous pediatric magnetic resonance (MR) images. To this end, we have conceived a novel optimization scheme for the segmentation network which comprises additional regularization terms to the loss function. In order to obtain globally consistent predictions, we incorporate a shape priors based regularization, derived from a non-linear shape representation learnt by an auto-encoder. Additionally, an adversarial regularization computed by a discriminator is integrated to encourage precise delineations. The proposed method is evaluated for the task of multi-bone segmentation on two scarce pediatric imaging datasets from ankle and shoulder joints, comprising pathological as well as healthy examinations. The proposed method performed either better or at par with previously proposed approaches for Dice, sensitivity, specificity, maximum symmetric surface distance, average symmetric surface distance, and relative absolute volume difference metrics. We illustrate that the proposed approach can be easily integrated into various bone segmentation strategies and can improve the prediction accuracy of models pre-trained on large non-medical images databases. The obtained results bring new perspectives for the management of pediatric musculoskeletal disorders.
翻訳日:2022-10-18 06:43:03 公開日:2022-07-12
# Griddly:ゲームにおけるAI研究のためのプラットフォーム

Griddly: A platform for AI research in games ( http://arxiv.org/abs/2011.06363v3 )

ライセンス: Link先を確認
Chris Bamford, Shengyi Huang, Simon Lucas(参考訳) 近年、ゲームAI研究、特に強化学習(RL)において、大きなブレークスルーが起きている。 彼らの成功にもかかわらず、基礎となるゲームは通常、独自のプリセット環境とゲーム力学で実装されるため、研究者が異なるゲーム環境のプロトタイプを作成するのが難しくなる。 しかし、RLエージェントを様々なゲーム環境に対してテストすることは、RLの一般化を研究し、そうでなければ発生するオーバーフィッティングの問題を回避しようとする最近の取り組みにとって重要である。 本稿では,高度に構成可能なゲーム,異なるオブザーバ型,効率的なc++コアエンジンのユニークな組み合わせを提供する,ゲームai研究のための新たなプラットフォームとしてgriddlyを提案する。 さらに,rlエージェントの異なる観察構成と一般化能力の影響を研究するために,一連のベースライン実験を行った。

In recent years, there have been immense breakthroughs in Game AI research, particularly with Reinforcement Learning (RL). Despite their success, the underlying games are usually implemented with their own preset environments and game mechanics, thus making it difficult for researchers to prototype different game environments. However, testing the RL agents against a variety of game environments is critical for recent effort to study generalization in RL and avoid the problem of overfitting that may otherwise occur. In this paper, we present Griddly as a new platform for Game AI research that provides a unique combination of highly configurable games, different observer types and an efficient C++ core engine. Additionally, we present a series of baseline experiments to study the effect of different observation configurations and generalization ability of RL agents.
翻訳日:2022-09-26 07:06:30 公開日:2022-07-12
# EmoSens:LightGBMを用いたセンサデータ分析に基づく感情認識

EmoSens: Emotion Recognition based on Sensor data analysis using LightGBM ( http://arxiv.org/abs/2207.14640v1 )

ライセンス: Link先を確認
Gayathri S, Akshat Anand, Astha Vijayvargiya, Pushpalatha M, Vaishnavi Moorthy, Sumit Kumar, Harichandana B S S(参考訳) スマートウェアラブルは日々の生活において不可欠な役割を担ってきた。 心電図の信号の記録から体脂肪の組成の分析まで、スマートウェアラブルはあらゆることができる。 スマートデバイスは、ユーザの身体的および心理的状態に関する有意義な情報を引き出すために使用できる様々なセンサーを包含する。 提案手法は,教師付き機械学習技術を用いて,ユーザの気分の変動を識別・把握するために,そのようなセンサを活用することに焦点を当てる。 本研究では,データセット上の決定木,ランダム林,xgboost,lightgbmなどの教師あり学習モデルの性能について検討した。 提案モデルでは9種類の感情クラスに対してxgboostとlightgbmを用いて92.5%高い認識率を得た。 これを利用することで、メンタルヘルス分析と気分モニタリングを改善するために感情認識を支援する手法を即興で提案することを目指している。

Smart wearables have played an integral part in our day to day life. From recording ECG signals to analysing body fat composition, the smart wearables can do it all. The smart devices encompass various sensors which can be employed to derive meaningful information regarding the user's physical and psychological conditions. Our approach focuses on employing such sensors to identify and obtain the variations in the mood of a user at a given instance through the use of supervised machine learning techniques. The study examines the performance of various supervised learning models such as Decision Trees, Random Forests, XGBoost, LightGBM on the dataset. With our proposed model, we obtained a high recognition rate of 92.5% using XGBoost and LightGBM for 9 different emotion classes. By utilizing this, we aim to improvise and suggest methods to aid emotion recognition for better mental health analysis and mood monitoring.
翻訳日:2022-08-07 14:38:54 公開日:2022-07-12
# 人工知能による能動配電系統協調制御方法

Active Distribution System Coordinated Control Method via Artificial Intelligence ( http://arxiv.org/abs/2207.14642v1 )

ライセンス: Link先を確認
Matthew Lau, Kayla Thames and Sakis Meliopoulos(参考訳) 流通システムにおけるエンドユース・パワー・リソースの展開は活発な流通システムを生み出した。 制御されていない能動分布系は、高度に可変な風と太陽放射の最大パワートラッキング制御の下で運用されるものや、気象条件に依存したランダムな変動を示すものもあるため、一日を通して様々な電圧と負荷を示す。 正常な電圧と周波数で安定かつ確実に電力を供給するようにシステムを制御する必要がある。 この目標に向けてシステムを制御しようとする古典的な最適化アプローチは、問題の次元と、膨大な数の小さなリソースを調整するためのグローバル最適化アプローチの必要性に苦しむ。 人工知能(AI)手法は、この問題に対して実用的なアプローチを提供する代替手段を提供する。 自己認識機構を持つニューラルネットワークは,システムの最適化に役立つ可能性が示唆された。 本稿では,このアプローチについて述べるとともに,有望な予備結果を提供する。

The increasing deployment of end use power resources in distribution systems created active distribution systems. Uncontrolled active distribution systems exhibit wide variations of voltage and loading throughout the day as some of these resources operate under max power tracking control of highly variable wind and solar irradiation while others exhibit random variations and/or dependency on weather conditions. It is necessary to control the system to provide power reliably and securely under normal voltages and frequency. Classical optimization approaches to control the system towards this goal suffer from the dimensionality of the problem and the need for a global optimization approach to coordinate a huge number of small resources. Artificial Intelligence (AI) methods offer an alternative that can provide a practical approach to this problem. We suggest that neural networks with self-attention mechanisms have the potential to aid in the optimization of the system. In this paper, we present this approach and provide promising preliminary results.
翻訳日:2022-08-07 14:38:41 公開日:2022-07-12
# u-netを用いた衛星画像による森林と水域のセグメンテーション

Forest and Water Bodies Segmentation Through Satellite Images Using U-Net ( http://arxiv.org/abs/2207.11222v1 )

ライセンス: Link先を確認
Dmytro Filatov, Ghulam Nabi Ahmad Hassan Yar(参考訳) 地球環境モニタリングは、現代の急激な気候変動環境にさらなる注意を必要とする課題である。 これには森林破壊率や洪水の影響地域を監視することが含まれる。 衛星画像は地球の監視に大いに役立ち、ディープラーニング技術はこの監視プロセスの自動化に役立っている。 本稿では,森林と水に覆われた地域を観察するためのソリューションを提案する。 このタスクを実現するために,イメージセグメンテーションモデルであるUNetモデルが提案されている。 このモデルは、それぞれ森林と水に覆われた地域のセグメンテーションにおいて、82.55%と82.92%の検証精度を達成した。

Global environment monitoring is a task that requires additional attention in the contemporary rapid climate change environment. This includes monitoring the rate of deforestation and areas affected by flooding. Satellite imaging has greatly helped monitor the earth, and deep learning techniques have helped to automate this monitoring process. This paper proposes a solution for observing the area covered by the forest and water. To achieve this task UNet model has been proposed, which is an image segmentation model. The model achieved a validation accuracy of 82.55% and 82.92% for the segmentation of areas covered by forest and water, respectively.
翻訳日:2022-07-31 14:44:43 公開日:2022-07-12
# 多次元投影を用いた視覚的手法による高次元空間の理解

Understanding High Dimensional Spaces through Visual Means Employing Multidimensional Projections ( http://arxiv.org/abs/2207.10800v1 )

ライセンス: Link先を確認
Haseeb Younis, Paul Trust, Rosane Minghim(参考訳) データ視覚化は、複数の変数(機能とも呼ばれる)が表現するデータを理解するのに役立つ。 これらのデータ構造はしばしば多次元空間と呼ばれ、本論文では、多次元投影アルゴリズムの視覚的結果を用いて、それらの数学的枠組みのパラメータを理解し、微調整する方法について述べる。 これらのアプローチに共通する一般的な数学は、ラプラス行列、ユークリディアン距離、コサイン距離、および確率分布に適合し次元を縮小するために用いられるクルバック・リーブラー発散のような統計手法である。 データ視覚化分野における関連する2つのアルゴリズムは、t分散確率的近傍埋め込み(t-SNE)とLSP(Last-Square Projection)である。 これらのアルゴリズムは、データセットへの影響を含むいくつかの数学的機能を理解するために使用できる。 本稿では, t-SNE の背後にある主成分分析 (PCA) や LSP の背後にあるメッシュ再構成手法などの基礎的手法の数学的パラメータを, 数学的定式化によって得られる特性を反映するように調整する。 この結果は lsp と t-sne の過程の図解的手法によって支持され、学生にそのような方法の背後にある数学を理解するよう促し、それらを複数の応用における効果的なデータ分析タスクに適用することを目的としている。

Data visualisation helps understanding data represented by multiple variables, also called features, stored in a large matrix where individuals are stored in lines and variable values in columns. These data structures are frequently called multidimensional spaces.In this paper, we illustrate ways of employing the visual results of multidimensional projection algorithms to understand and fine-tune the parameters of their mathematical framework. Some of the common mathematical common to these approaches are Laplacian matrices, Euclidian distance, Cosine distance, and statistical methods such as Kullback-Leibler divergence, employed to fit probability distributions and reduce dimensions. Two of the relevant algorithms in the data visualisation field are t-distributed stochastic neighbourhood embedding (t-SNE) and Least-Square Projection (LSP). These algorithms can be used to understand several ranges of mathematical functions including their impact on datasets. In this article, mathematical parameters of underlying techniques such as Principal Component Analysis (PCA) behind t-SNE and mesh reconstruction methods behind LSP are adjusted to reflect the properties afforded by the mathematical formulation. The results, supported by illustrative methods of the processes of LSP and t-SNE, are meant to inspire students in understanding the mathematics behind such methods, in order to apply them in effective data analysis tasks in multiple applications.
翻訳日:2022-07-31 14:44:34 公開日:2022-07-12
# 逐次変換を伴う協調MARLのグローバル最適性に向けて

Towards Global Optimality in Cooperative MARL with Sequential Transformation ( http://arxiv.org/abs/2207.11143v1 )

ライセンス: Link先を確認
Jianing Ye, Chenghao Li, Jianhao Wang, Chongjie Zhang(参考訳) 多エージェント強化学習(MARL)における政策学習は,エージェント数に関して,共同行動空間の指数的成長により困難である。 スケーラビリティを高めるために、分散実行(CTDE)による集中トレーニングのパラダイムが、MARLの分解構造とともに広く採用されている。 しかし、協調的なMARLにおける既存のCTDEアルゴリズムは、単純な行列ゲームでも最適性を達成できない。 この現象を理解するために, 一般化されたマルチエージェント・アクタ-クリティックと政策因子化(gpf-mac)の枠組みを導入し, それぞれのエージェントの政策は, 自己の観察・行動履歴にのみ依存する, 因子化された共同政策の学習を特徴付ける。 GPF-MACの特殊例として,CTDE MARLアルゴリズムが広く用いられている。 本稿では,マルチエージェントmdpを逐次構造を持つ特別な"シングルエージェント"mdpとして再構成し,既成のシングルエージェント強化学習(sarl)アルゴリズムを用いて対応するマルチエージェントタスクを効率的に学習できる,新たなトランスフォーメーションフレームワークを提案する。 この変換は、協調的なMARLへのSARLアルゴリズムの最適性を保証する。 この変換フレームワークをインスタンス化するために、T-PPOと呼ばれる変換されたPPOを提案する。これは、有限個のマルチエージェント MDP において理論的に最適なポリシー学習を行い、多数の協調マルチエージェントタスクに対して大きな性能を示す。

Policy learning in multi-agent reinforcement learning (MARL) is challenging due to the exponential growth of joint state-action space with respect to the number of agents. To achieve higher scalability, the paradigm of centralized training with decentralized execution (CTDE) is broadly adopted with factorized structure in MARL. However, we observe that existing CTDE algorithms in cooperative MARL cannot achieve optimality even in simple matrix games. To understand this phenomenon, we introduce a framework of Generalized Multi-Agent Actor-Critic with Policy Factorization (GPF-MAC), which characterizes the learning of factorized joint policies, i.e., each agent's policy only depends on its own observation-action history. We show that most popular CTDE MARL algorithms are special instances of GPF-MAC and may be stuck in a suboptimal joint policy. To address this issue, we present a novel transformation framework that reformulates a multi-agent MDP as a special "single-agent" MDP with a sequential structure and can allow employing off-the-shelf single-agent reinforcement learning (SARL) algorithms to efficiently learn corresponding multi-agent tasks. This transformation retains the optimality guarantee of SARL algorithms into cooperative MARL. To instantiate this transformation framework, we propose a Transformed PPO, called T-PPO, which can theoretically perform optimal policy learning in the finite multi-agent MDPs and shows significant outperformance on a large set of cooperative multi-agent tasks.
翻訳日:2022-07-31 14:38:44 公開日:2022-07-12
# 機械学習を用いたコロナウイルス病状況分析と予測 : バングラデシュの人口調査

Coronavirus disease situation analysis and prediction using machine learning: a study on Bangladeshi population ( http://arxiv.org/abs/2207.13056v1 )

ライセンス: Link先を確認
Al-Akhir Nayan, Boonserm Kijsirikul, Yuji Iwahori(参考訳) パンデミックの間、患者感染率の早期予後は、治療施設の確保と適切な資源配分によって死亡を減らすことができる。 バングラデシュでは近年、死亡率と感染率の差が以前よりも大きくなっている。 この国は多くの患者に適度な医療を提供するのに苦労しています。 本研究は、機械学習モデルを区別し、今後数日の感染率と死亡率を予測する予測システムを作成する。 2020年3月1日から2021年8月10日まで、データセットにデータを搭載し、多層パーセプトロン(mlp)モデルを訓練した。 データは信頼された政府のウェブサイトから管理され、訓練のために手動で収集された。 いくつかのテストケースがモデルの精度と予測能力を決定する。 特定のモデルとの比較では、MLPモデルは支持ベクトル回帰(SVR)や線形回帰モデルよりも信頼性の高い予測能力を持つと仮定される。 モデルでは、危険状況と新型コロナウイルス感染症(COVID-19)の流行に関する報告を提示する。 モデルが作成した予測によると、バングラデシュでは929人から2443人、死亡者19人から57人という新型ウイルスが流行する可能性がある。

During a pandemic, early prognostication of patient infected rates can reduce the death by ensuring treatment facility and proper resource allocation. In recent months, the number of death and infected rates has increased more distinguished than before in Bangladesh. The country is struggling to provide moderate medical treatment to many patients. This study distinguishes machine learning models and creates a prediction system to anticipate the infected and death rate for the coming days. Equipping a dataset with data from March 1, 2020, to August 10, 2021, a multi-layer perceptron (MLP) model was trained. The data was managed from a trusted government website and concocted manually for training purposes. Several test cases determine the model's accuracy and prediction capability. The comparison between specific models assumes that the MLP model has more reliable prediction capability than the support vector regression (SVR) and linear regression model. The model presents a report about the risky situation and impending coronavirus disease (COVID-19) attack. According to the prediction produced by the model, Bangladesh may suffer another COVID-19 attack, where the number of infected cases can be between 929 to 2443 and death cases between 19 to 57.
翻訳日:2022-07-31 14:37:47 公開日:2022-07-12
# ヒト樹状管状構造分節の包括的考察と今後の展望

Human Treelike Tubular Structure Segmentation: A Comprehensive Review and Future Perspectives ( http://arxiv.org/abs/2207.11203v1 )

ライセンス: Link先を確認
Hao Li, Zeyu Tang, Yang Nan, Guang Yang(参考訳) 人間の生理学における様々な構造は木のような形態を辿り、しばしば非常に微細なスケールで複雑さを表現する。 そのような構造の例として、胸腔内気道、網膜血管、肝血管がある。 磁気共鳴画像(mri)、ct(ct)、光コヒーレンス断層撮影(oct)、および空間配置を観察できる超音波などの医用イメージングモードにより、2dおよび3d画像の大規模なコレクションが利用可能になっている。 疾患診断、治療計画、予後に関する洞察を提供するため、これらの構造を医用画像に分割することが非常に重要である。 放射線科医による広範囲なデータを手動でラベル付けすることは、しばしば時間がかかり、エラーを起こしやすい。 その結果、過去20年間に自動化または半自動化された計算モデルが医療画像の一般的な研究分野となり、その多くは現在まで開発されている。 本調査では,現在公開されているデータセット,セグメンテーションアルゴリズム,評価指標の総合的なレビューを行う。 また,現在の課題と今後の研究方向性についても論じる。

Various structures in human physiology follow a treelike morphology, which often expresses complexity at very fine scales. Examples of such structures are intrathoracic airways, retinal blood vessels, and hepatic blood vessels. Large collections of 2D and 3D images have been made available by medical imaging modalities such as magnetic resonance imaging (MRI), computed tomography (CT), Optical coherence tomography (OCT) and ultrasound in which the spatial arrangement can be observed. Segmentation of these structures in medical imaging is of great importance since the analysis of the structure provides insights into disease diagnosis, treatment planning, and prognosis. Manually labelling extensive data by radiologists is often time-consuming and error-prone. As a result, automated or semi-automated computational models have become a popular research field of medical imaging in the past two decades, and many have been developed to date. In this survey, we aim to provide a comprehensive review of currently publicly available datasets, segmentation algorithms, and evaluation metrics. In addition, current challenges and future research directions are discussed.
翻訳日:2022-07-31 14:36:52 公開日:2022-07-12
# GANによる顔編集 - レビュー

Face editing with GAN -- A Review ( http://arxiv.org/abs/2207.11227v1 )

ライセンス: Link先を確認
Parthak Mehta, Sarthak Mishra, Nikhil Chouhan, Neel Pethani, Ishani Saha(参考訳) 近年、ディープラーニングを扱う研究者やエンジニアの間で、gans(generative adversarial networks)がホットな話題となっている。 データの新たな断片を一貫した方法で生成できる画期的な技術である。 GANの話題は、画像生成や合成、音楽制作や作曲といった分野に適用可能であることから、人気が高まっている。 GANには2つの競合するニューラルネットワークがある。 ジェネレータは、新しいサンプルまたはコンテンツを生成するのに使用され、識別器は、コンテンツが本物か生成されたかを認識するのに使用される。 他の生成モデルと異なるのは、ラベルのないサンプルを学習する能力である。 本稿では, GANの進化, 著者らによるいくつかの改良, およびモデル間の簡単な比較について論じる。 インデックス用語 生成的な敵ネットワーク、教師なし学習、ディープラーニング。

In recent years, Generative Adversarial Networks (GANs) have become a hot topic among researchers and engineers that work with deep learning. It has been a ground-breaking technique which can generate new pieces of content of data in a consistent way. The topic of GANs has exploded in popularity due to its applicability in fields like image generation and synthesis, and music production and composition. GANs have two competing neural networks: a generator and a discriminator. The generator is used to produce new samples or pieces of content, while the discriminator is used to recognize whether the piece of content is real or generated. What makes it different from other generative models is its ability to learn unlabeled samples. In this review paper, we will discuss the evolution of GANs, several improvements proposed by the authors and a brief comparison between the different models. Index Terms generative adversarial networks, unsupervised learning, deep learning.
翻訳日:2022-07-31 14:30:23 公開日:2022-07-12
# DGraph: グラフ異常検出のための大規模財務データセット

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection ( http://arxiv.org/abs/2207.03579v2 )

ライセンス: Link先を確認
Xuanwen Huang, Yang Yang, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, Lei Chen(参考訳) グラフ異常検出(GAD)はその実用性と理論的価値から最近ホットな研究スポットとなっている。 GADは異常サンプルの応用と希少性を強調するため、そのデータセットの多様性を豊かにすることは基本的な作業である。 そこで本稿では,金融分野における実世界の動的グラフであるdgraphを提案する。 DGraphは、現在のGADデータセットの多くの制限を克服する。 約3Mノード、4Mダイナミックエッジ、1Mグランドトラスノードを含む。 dgraphの包括的観察を行い、異常ノードと正常ノードは一般に異なる構造、近傍分布、時間的ダイナミクスを有することを明らかにした。 さらに,これらのラベルのないノードは詐欺師の検出にも不可欠であることが示唆された。 さらに,DGraphについて広範な実験を行った。 観察と実験により、dgraphはgad研究を前進させ、異常ノードの詳細な探索を可能にする。

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is a fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that those unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.
翻訳日:2022-07-17 17:12:01 公開日:2022-07-12
# (参考訳) 深部近似による網膜フラクタル次元のロバストで効率的な計算

Robust and efficient computation of retinal fractal dimension through deep approximation ( http://arxiv.org/abs/2207.05757v1 )

ライセンス: CC BY 4.0
Justin Engelmann, Ana Villaplana-Velasco, Amos Storkey, Miguel O. Bernabeu(参考訳) 網膜形質または表現型は、網膜像の特定の側面を単一の数で要約する。 この方法は、例えば統計学の手法など、さらなる分析に使うことができる。 しかし、複雑な画像のアスペクトを単一の有意義な数に減らすのは困難である。 したがって、網膜特性を計算する方法は、高品質の画像にのみ適用可能な複雑で多段階のパイプラインである傾向がある。 つまり、研究者は利用可能なデータのかなりの部分を破棄しなければならない。 このようなパイプラインは、一般的な品質問題に対して堅牢な単一のシンプルなステップで近似できると仮定する。 本稿では,これらの画像の合成劣化バージョンから,既存のパイプラインの出力を予測するディープニューラルネットワークを用いた網膜特性(dart)の深い近似を提案する。 VAMPIREにより算出された網膜フラクタル次元(FD)のDARTを,英国バイオバンクの網膜画像を用いて実証した。 実験画像ではfd吸血鬼と非常に高い一致を示した(pearson r=0.9572)。 これらの画像がひどく劣化しても、DARTは元の画像から得られたFD VAMPIREとの良好な一致を示すFD推定を回復することができる(Pearson r=0.8817)。 この方法では、将来より少ない画像が捨てられる可能性が示唆されている。 1つのGPUを用いて1000img/s以上のFDを計算できる。 これらは初期の成果を大いに奨励するもので、網膜分析に有用なツールとしてこのアプローチを開発したいと考えている。

A retinal trait, or phenotype, summarises a specific aspect of a retinal image in a single number. This can then be used for further analyses, e.g. with statistical methods. However, reducing an aspect of a complex image to a single, meaningful number is challenging. Thus, methods for calculating retinal traits tend to be complex, multi-step pipelines that can only be applied to high quality images. This means that researchers often have to discard substantial portions of the available data. We hypothesise that such pipelines can be approximated with a single, simpler step that can be made robust to common quality issues. We propose Deep Approximation of Retinal Traits (DART) where a deep neural network is used predict the output of an existing pipeline on high quality images from synthetically degraded versions of these images. We demonstrate DART on retinal Fractal Dimension (FD) calculated by VAMPIRE, using retinal images from UK Biobank that previous work identified as high quality. Our method shows very high agreement with FD VAMPIRE on unseen test images (Pearson r=0.9572). Even when those images are severely degraded, DART can still recover an FD estimate that shows good agreement with FD VAMPIRE obtained from the original images (Pearson r=0.8817). This suggests that our method could enable researchers to discard fewer images in the future. Our method can compute FD for over 1,000img/s using a single GPU. We consider these to be very encouraging initial results and hope to develop this approach into a useful tool for retinal analysis.
翻訳日:2022-07-15 06:47:45 公開日:2022-07-12
# (参考訳) 実効分布的ロバスト最適化によるマイノリティ群の長期公平性

Long Term Fairness for Minority Groups via Performative Distributionally Robust Optimization ( http://arxiv.org/abs/2207.05777v1 )

ライセンス: CC BY 4.0
Liam Peet-Pare, Nidhi Hegde, Alona Fyshe(参考訳) 機械学習(ML)のフェアネス研究者は、MLモデルがフェアであることの意味を形式的に定義する、いくつかのフェアネス基準をまとめている。 しかし、これらの基準には重大な制限がある。 これらの形式的公正基準の4つの重要な欠点を特定し、分布的ロバストな目標を含むパフォーマンス予測を拡張して対処することを目指している。

Fairness researchers in machine learning (ML) have coalesced around several fairness criteria which provide formal definitions of what it means for an ML model to be fair. However, these criteria have some serious limitations. We identify four key shortcomings of these formal fairness criteria, and aim to help to address them by extending performative prediction to include a distributionally robust objective.
翻訳日:2022-07-15 06:37:30 公開日:2022-07-12
# (参考訳) バイナリニューラルネットを用いた低リソースデバイス用蒸留非合成音声埋め込み

Distilled Non-Semantic Speech Embeddings with Binary Neural Networks for Low-Resource Devices ( http://arxiv.org/abs/2207.05784v1 )

ライセンス: CC BY 4.0
Harlin Lee and Aaqib Saeed(参考訳) BRILLssonは、幅広い非意味的音声タスクのための、新しいバイナリニューラルネットワークベースの表現学習モデルである。 我々は,TRILLssonの訓練に使用するデータセットのごく一部を用いて,大規模かつ実数値のTRILLssonモデルから知識蒸留を用いてモデルを訓練する。 その結果生まれたBRILLssonモデルは、レイテンシが8ms未満の2MBしかなく、ウェアラブルなどの低リソースデバイスへのデプロイに適している。 BRILLssonを8つのベンチマークタスク(音声言語識別,感情認識,ヒース状態診断,キーワードスポッティングなど)で評価し,提案したウルトラライトおよび低レイテンシモデルが大規模モデルと同様に動作することを示す。

This work introduces BRILLsson, a novel binary neural network-based representation learning model for a broad range of non-semantic speech tasks. We train the model with knowledge distillation from a large and real-valued TRILLsson model with only a fraction of the dataset used to train TRILLsson. The resulting BRILLsson models are only 2MB in size with a latency less than 8ms, making them suitable for deployment in low-resource devices such as wearables. We evaluate BRILLsson on eight benchmark tasks (including but not limited to spoken language identification, emotion recognition, heath condition diagnosis, and keyword spotting), and demonstrate that our proposed ultra-light and low-latency models perform as well as large-scale models.
翻訳日:2022-07-15 06:06:28 公開日:2022-07-12
# (参考訳) コンフォーマル予測を用いた配電シフトによるAI医療機器の試験性能の推定

Estimating Test Performance for AI Medical Devices under Distribution Shift with Conformal Prediction ( http://arxiv.org/abs/2207.05796v1 )

ライセンス: CC BY 4.0
Charles Lu, Syed Rakin Ahmed, Praveer Singh, Jayashree Kalpathy-Cramer(参考訳) 配布シフト下でのソフトウェアaiベースの医療機器のテスト性能の推定は,臨床展開前の安全性,効率,ユーザビリティを評価する上で重要である。 規制された医療機器ソフトウェアの性質と、大量のラベル付き医療データセットを取得するのが困難であることから、元のトレーニングプロセスや元のソースデータの分布的仮定に修正することなく、ラベルなしのターゲットドメイン上の任意のブラックボックスモデルのテスト精度を予測するタスクを考える(つまり、このモデルを「ブラックボックス」として扱い、予測された出力応答のみを使用する)。 そこで本研究では, コンフォメーション予測に基づく「ブラックボックス」テスト推定手法を提案し, 臨床応用による分布変化(施設, ハードウェアスキャナー, アトラス, 病院)の3種類の画像データセット(マンモグラフィー, 皮膚科, 病理組織学)と比較した。 医療機器メーカーは,ブラックボックスモデルの実用的,効果的な評価手法を推進することによって,臨床用AIツールの堅牢性と信頼性を向上させるために,より標準化された,現実的な評価手順を開発することを期待する。

Estimating the test performance of software AI-based medical devices under distribution shifts is crucial for evaluating the safety, efficiency, and usability prior to clinical deployment. Due to the nature of regulated medical device software and the difficulty in acquiring large amounts of labeled medical datasets, we consider the task of predicting the test accuracy of an arbitrary black-box model on an unlabeled target domain without modification to the original training process or any distributional assumptions of the original source data (i.e. we treat the model as a "black-box" and only use the predicted output responses). We propose a "black-box" test estimation technique based on conformal prediction and evaluate it against other methods on three medical imaging datasets (mammography, dermatology, and histopathology) under several clinically relevant types of distribution shift (institution, hardware scanner, atlas, hospital). We hope that by promoting practical and effective estimation techniques for black-box models, manufacturers of medical devices will develop more standardized and realistic evaluation procedures to improve the robustness and trustworthiness of clinical AI tools.
翻訳日:2022-07-15 05:55:46 公開日:2022-07-12
# (参考訳) 適応型メトリック学習戦略を用いたリモートセンシング画像からのダム貯留層抽出

Dam reservoir extraction from remote sensing imagery using tailored metric learning strategies ( http://arxiv.org/abs/2207.05807v1 )

ライセンス: CC BY 4.0
Arnout van Soesbergen, Zedong Chu, Miaojing Shi, Mark Mulligan(参考訳) ダム貯水池は持続可能な開発目標と地球規模の気候目標を満たす上で重要な役割を果たしている。 しかし、特に小さなダム貯水池では、その地理的位置に関する一貫したデータが欠落している。 このデータギャップに対処するため、世界中のリモートセンシング画像に基づいてダム貯水池の自動抽出を行うことが期待できる。 これは、画像中の水領域を抽出し、自然の水域からダム貯水池を分離する、微細な水域抽出のタスクとみなすことができる。 本稿では,ダム貯水池抽出を水域セグメンテーションとダム貯水池認識に分解する新しいディープニューラルネットワーク(DNN)パイプラインを提案する。 各水域は、まず、区分モデルで背景地から分離され、各水域は、分類モデルでダム貯水池または自然水域として予測される。 前段では、画像にまたがる三重項を用いた点レベルのメトリック学習をセグメンテーションモデルに注入し、水域と陸地の間の曖昧さに対処する。 後者のステップでは、クラスタからのトリプレットを用いた事前誘導メトリック学習を分類モデルに注入し、貯水池クラスタに基づくきめ細かいレベルで画像埋め込み空間を最適化する。 今後の研究を容易にするために,西アフリカとインドの河川流域からの地球画像データと人ラベル付き貯水池を用いたベンチマークデータセットを構築した。 ダム貯水池認識タスク,ダム貯水池抽出タスクにおいて,このベンチマークを用いて広範囲な実験を行った。 この手法を最先端のアプローチと比較する場合,それぞれのタスクで優れた性能が観察されている。

Dam reservoirs play an important role in meeting sustainable development goals and global climate targets. However, particularly for small dam reservoirs, there is a lack of consistent data on their geographical location. To address this data gap, a promising approach is to perform automated dam reservoir extraction based on globally available remote sensing imagery. It can be considered as a fine-grained task of water body extraction, which involves extracting water areas in images and then separating dam reservoirs from natural water bodies. We propose a novel deep neural network (DNN) based pipeline that decomposes dam reservoir extraction into water body segmentation and dam reservoir recognition. Water bodies are firstly separated from background lands in a segmentation model and each individual water body is then predicted as either dam reservoir or natural water body in a classification model. For the former step, point-level metric learning with triplets across images is injected into the segmentation model to address contour ambiguities between water areas and land regions. For the latter step, prior-guided metric learning with triplets from clusters is injected into the classification model to optimize the image embedding space in a fine-grained level based on reservoir clusters. To facilitate future research, we establish a benchmark dataset with earth imagery data and human labelled reservoirs from river basins in West Africa and India. Extensive experiments were conducted on this benchmark in the water body segmentation task, dam reservoir recognition task, and the joint dam reservoir extraction task. Superior performance has been observed in the respective tasks when comparing our method with state of the art approaches.
翻訳日:2022-07-15 05:45:24 公開日:2022-07-12
# (参考訳) 深層学習の推論に必要なのはルックアップだけではない

Look-ups are not (yet) all you need for deep learning inference ( http://arxiv.org/abs/2207.05808v1 )

ライセンス: CC BY 4.0
Calvin McCarter, Nicholas Dronen(参考訳) 行列乗算に対する高速近似は、ニューラルネットワーク推論のコストを劇的に削減する可能性がある。 学習データから高速なハッシュ関数を組み込むことにより,コストのかかる乗算をテーブルルックアップに置き換えるための近似行列乗法に関する最近の研究が進められている。 本研究では,学習データと固定(既に学習済み)モデルの重み行列の両方にアクセス可能な深層学習推論設定を目標とした,これまでの研究の改善を提案する。 さらに、精度の損失を最小限に抑えつつ、ニューラルネットワーク全体を高速化する微調整手順を提案する。 最後に,提案手法を簡易な画像分類タスクで解析する。 先行作業の改善を示す一方で,全体の分類精度は正確な行列乗算と比較して著しく低下している。 この否定的な結果にもかかわらず、我々の研究は、高速な非線形ハッシュ法で内部製品を加速する今後の取り組みの方向性を示している。

Fast approximations to matrix multiplication have the potential to dramatically reduce the cost of neural network inference. Recent work on approximate matrix multiplication proposed to replace costly multiplications with table-lookups by fitting a fast hash function from training data. In this work, we propose improvements to this previous work, targeted to the deep learning inference setting, where one has access to both training data and fixed (already learned) model weight matrices. We further propose a fine-tuning procedure for accelerating entire neural networks while minimizing loss in accuracy. Finally, we analyze the proposed method on a simple image classification task. While we show improvements to prior work, overall classification accuracy remains substantially diminished compared to exact matrix multiplication. Our work, despite this negative result, points the way towards future efforts to accelerate inner products with fast nonlinear hashing methods.
翻訳日:2022-07-15 05:20:10 公開日:2022-07-12
# (参考訳) OSLAT:医療エンティティスパン抽出のためのオープンセットラベルアテンショントランス

OSLAT: Open Set Label Attention Transformer for Medical Entity Span Extraction ( http://arxiv.org/abs/2207.05817v1 )

ライセンス: CC BY 4.0
Raymond Li, Ilya Valmianski, Li Deng, Xavier Amatriain, Anitha Kannan(参考訳) 医療機関に対応する医療用テキストのスパンの特定は、ICDコーディング、医療発見抽出、医療ノートの文脈化など、多くの医療NLPタスクのコアステップの1つである。 既存のエンティティ抽出法は、医療エンティティの固定的かつ限定的な語彙に依存しており、異種スパンで表されるエンティティの抽出が困難である。 本稿では,従来の手法の制約の多くに対処する,オープンセットラベルアテンショントランスフォーマ(open set label attention transformer)と呼ばれる新しいトランスフォーマティブベースのアーキテクチャを提案する。 提案手法はラベル保持機構を用いて,関心の実体に関連するスパンを暗黙的に学習する。 これらのエンティティは、OSLATのトレーニング中に見えないエンティティを含む、フリーテキストとして提供することができ、モデルが非結合である場合でも、スパンを抽出することができる。 本手法の一般化性をテストするため,1)hNLPからの公開吐出ノートデータセットと,(2)より難易度の高い患者用テキストデータセット"Reasons for Encounter"(RFE)の2つの異なるデータセット上で,エンティティオーバーラップの少ない2つのモデルをトレーニングした。 RFEデータセットに適用された場合,OSLATモデルは規則ベースとファジィ文字列マッチングベースラインのいずれにおいても,エンティティが不整合スパンで表現されるhNLPデータセットの一部にも適用できることがわかった。 私たちのコードはhttps://github.com/curai/curai-research/tree/main/OSLATで確認できます。

Identifying spans in medical texts that correspond to medical entities is one of the core steps for many healthcare NLP tasks such as ICD coding, medical finding extraction, medical note contextualization, to name a few. Existing entity extraction methods rely on a fixed and limited vocabulary of medical entities and have difficulty with extracting entities represented by disjoint spans. In this paper, we present a new transformer-based architecture called OSLAT, Open Set Label Attention Transformer, that addresses many of the limitations of the previous methods. Our approach uses the label-attention mechanism to implicitly learn spans associated with entities of interest. These entities can be provided as free text, including entities not seen during OSLAT's training, and the model can extract spans even when they are disjoint. To test the generalizability of our method, we train two separate models on two different datasets, which have very low entity overlap: (1) a public discharge notes dataset from hNLP, and (2) a much more challenging proprietary patient text dataset "Reasons for Encounter" (RFE). We find that OSLAT models trained on either dataset outperform rule-based and fuzzy string matching baselines when applied to the RFE dataset as well as to the portion of hNLP dataset where entities are represented by disjoint spans. Our code can be found at https://github.com/curai/curai-research/tree/main/OSLAT.
翻訳日:2022-07-15 05:13:10 公開日:2022-07-12
# (参考訳) 感情予測のためのソーシャルグラフネットワークの利用

Exploiting Social Graph Networks for Emotion Prediction ( http://arxiv.org/abs/2207.05820v1 )

ライセンス: CC BY-SA 4.0
Maryam Khalid, Akane Sano(参考訳) 感情予測はメンタルヘルスや感情認識コンピューティングにおいて重要な役割を果たす。 感情の複雑な性質は、その人の生理的健康、精神状態、周囲の環境に依存するため、その予測は困難なタスクとなる。 本研究では,モバイルセンシングデータを用いて幸福感とストレスを予測する。 人の生理的特徴に加えて,気象や社会ネットワークを通じた環境への影響も取り入れる。 この目的のために、電話データを利用してソーシャルネットワークを構築し、グラフネットワークの複数のユーザから情報を集約し、すべてのユーザの感情を予測するデータの時間的ダイナミクスと統合する機械学習アーキテクチャを開発する。 ソーシャルネットワークの構築は、ユーザーからのemasやデータ収集に関して追加コストを発生せず、プライバシーの懸念も生じない。 本稿では,ユーザのソーシャルネットワークの統合が予測に影響を及ぼすことを自動化し,実生活におけるソーシャルネットワークの動的な分散を処理し,大規模ネットワークに拡張性を持たせるアーキテクチャを提案する。 当社の広範な評価は,ソーシャルネットワークの統合による改善を強調するものだ。 グラフトポロジーがモデルの性能に与える影響についてさらに検討する。

Emotion prediction plays an essential role in mental health and emotion-aware computing. The complex nature of emotion resulting from its dependency on a person's physiological health, mental state, and his surroundings makes its prediction a challenging task. In this work, we utilize mobile sensing data to predict happiness and stress. In addition to a person's physiological features, we also incorporate the environment's impact through weather and social network. To this end, we leverage phone data to construct social networks and develop a machine learning architecture that aggregates information from multiple users of the graph network and integrates it with the temporal dynamics of data to predict emotion for all the users. The construction of social networks does not incur additional cost in terms of EMAs or data collection from users and doesn't raise privacy concerns. We propose an architecture that automates the integration of a user's social network affect prediction, is capable of dealing with the dynamic distribution of real-life social networks, making it scalable to large-scale networks. Our extensive evaluation highlights the improvement provided by the integration of social networks. We further investigate the impact of graph topology on model's performance.
翻訳日:2022-07-15 04:54:13 公開日:2022-07-12
# (参考訳) ロジスティックス、グラフ、トランスフォーマー:旅行時間推定の改善を目指して

Logistics, Graphs, and Transformers: Towards improving Travel Time Estimation ( http://arxiv.org/abs/2207.05835v1 )

ライセンス: CC BY 4.0
Natalia Semenova, Vadim Porvatov, Vladislav Tishin, Artyom Sosedka, Vladislav Zamkovoy(参考訳) 旅行時間推定の問題は、近代ロジスティクスの根本的な課題として広く考えられている。 道路の空間的側面と地上輸送の時間的ダイナミクスの間の相互接続の複雑な性質は、まだ実験する領域を保存している。 しかし、現在蓄積されているデータの合計量は、以前のソリューションを大幅に上回るという視点を持つ学習モデルの構築を促進する。 旅行時間推定の問題に対処するため,トランスフォーマーアーキテクチャーであるTransTTEに基づく新しい手法を提案する。

The problem of travel time estimation is widely considered as the fundamental challenge of modern logistics. The complex nature of interconnections between spatial aspects of roads and temporal dynamics of ground transport still preserves an area to experiment with. However, the total volume of currently accumulated data encourages the construction of the learning models which have the perspective to significantly outperform earlier solutions. In order to address the problems of travel time estimation, we propose a new method based on transformer architecture - TransTTE.
翻訳日:2022-07-15 04:52:39 公開日:2022-07-12
# (参考訳) ネットワークモデル一般化への新たな希望

A new hope for network model generalization ( http://arxiv.org/abs/2207.05843v1 )

ライセンス: CC BY-SA 4.0
Alexander Dietm\"uller, Siddhant Ray, Romain Jacob, Laurent Vanbever(参考訳) ネットワークトラフィックダイナミクスのための機械学習モデル(ML)の一般化は、失われた原因とみなされる傾向がある。 したがって、新しいタスク毎に、モデルデプロイメントを模倣した環境で、新しいモデルを設計し、可能な限り収集されたモデル固有のデータセットでトレーニングすることをよく決心します。 このアプローチは基本的に一般化を諦める。 しかし、_transformer_と呼ばれるmlアーキテクチャは、他のドメインでこれまで想像できなかった一般化を可能にした。 今日では、大量のデータセットで事前トレーニングされたモデルをダウンロードして、特定のタスクやコンテキストに対してのみ、比較的少ない時間とデータで微調整することができる。 これらの微調整されたモデルは、今では多くのベンチマークで最先端である。 我々は、この進歩がネットワークに変換され、パケットトレースからネットワークのダイナミクスを学ぶのに適応したトランスフォーマーであるネットワークトラフィックトランスフォーマー(ntt)が提案されると信じている。 NTTは新しい予測タスクやコンテキストに一般化できるようです。 この研究は、まだ一般化への希望が残っていることを示唆している。

Generalizing machine learning (ML) models for network traffic dynamics tends to be considered a lost cause. Hence, for every new task, we often resolve to design new models and train them on model-specific datasets collected, whenever possible, in an environment mimicking the model's deployment. This approach essentially gives up on generalization. Yet, an ML architecture called_Transformer_ has enabled previously unimaginable generalization in other domains. Nowadays, one can download a model pre-trained on massive datasets and only fine-tune it for a specific task and context with comparatively little time and data. These fine-tuned models are now state-of-the-art for many benchmarks. We believe this progress could translate to networking and propose a Network Traffic Transformer (NTT), a transformer adapted to learn network dynamics from packet traces. Our initial results are promising: NTT seems able to generalize to new prediction tasks and contexts. This study suggests there is still hope for generalization, though it calls for a lot of future research.
翻訳日:2022-07-15 04:48:40 公開日:2022-07-12
# (参考訳) 支援ベクトルマシンのための変分量子分類器と量子カーネルの普遍表現性

Universal expressiveness of variational quantum classifiers and quantum kernels for support vector machines ( http://arxiv.org/abs/2207.05865v1 )

ライセンス: CC BY 4.0
Jonas J\"ager and Roman V. Krems(参考訳) 機械学習は量子コンピューティングの最も有望な応用の一つと考えられている。 したがって、機械学習モデルの量子アナログの量子的優位性を求めることが重要な研究目標である。 ここでは、変分量子分類器(VQC)と量子カーネル付きベクトルマシン(QSVM)が、PromiseBQP完全であることが知られているk-Forrelation問題に基づく分類問題を解くことができることを示す。 PromiseBQP複雑性クラスは、すべての境界誤差量子多項式時間(BQP)決定問題を含むため、この結果は、任意のBQP問題に対してVQCとQSVMを効率的に解ける特徴写像と量子カーネルが存在することを示唆している。 これは、vqc の機能マップや qsvm の量子カーネルは、多項式時間で古典的に解くことはできないが量子コンピュータでは逆の分類問題に対して量子的な優位性を持つように設計できることを意味する。

Machine learning is considered to be one of the most promising applications of quantum computing. Therefore, the search for quantum advantage of the quantum analogues of machine learning models is a key research goal. Here, we show that variational quantum classifiers (VQC) and support vector machines with quantum kernels (QSVM) can solve a classification problem based on the k-Forrelation problem, which is known to be PromiseBQP-complete. Because the PromiseBQP complexity class includes all Bounded-Error Quantum Polynomial-Time (BQP) decision problems, our results imply that there exists a feature map and a quantum kernel that make VQC and QSVM efficient solvers for any BQP problem. This means that the feature map of VQC or the quantum kernel of QSVM can be designed to have quantum advantage for any classification problem that cannot be classically solved in polynomial time but contrariwise by a quantum computer.
翻訳日:2022-07-15 04:35:15 公開日:2022-07-12
# (参考訳) グラフニューラルネットワークの幾何学のチューニング

Tuning the Geometry of Graph Neural Networks ( http://arxiv.org/abs/2207.05887v1 )

ライセンス: CC BY 4.0
Sowon Jeong, Claire Donnat(参考訳) 近傍全体にわたって再帰的にノードの特徴を要約することで、空間グラフ畳み込み演算子はグラフニューラルネットワーク(gnn)の成功の鍵とされてきた。 しかし、タスクやアプリケーションにまたがるGNNメソッドの乗算にもかかわらず、このアグリゲーション操作がパフォーマンスに与える影響は、まだ広く分析されていない。 実際、ニューラルネットワークのアーキテクチャを最適化することに集中してきたが、特徴付けしようとする研究は少ない。 (a)空間畳み込み作用素の異なるクラス b) 特定のクラスの選択がデータのプロパティとどのように関連しているか、そして (c)埋め込み空間の幾何学への影響。 本稿では,既存の演算子を2つの主クラス(対称性と列正規化空間畳み込み)に分けて3つの質問すべてに答えることを提案し,データの性質に関する異なる暗黙のバイアスにどのように変換するかを示す。 最後に、このアグリゲーション演算子は実際にチューニング可能であり、オペレーターの特定の選択(つまり、埋め込みジオメトリ)がより適切かもしれない明示的なレジームであることを示す。

By recursively summing node features over entire neighborhoods, spatial graph convolution operators have been heralded as key to the success of Graph Neural Networks (GNNs). Yet, despite the multiplication of GNN methods across tasks and applications, the impact of this aggregation operation on their performance still has yet to be extensively analysed. In fact, while efforts have mostly focused on optimizing the architecture of the neural network, fewer works have attempted to characterize (a) the different classes of spatial convolution operators, (b) how the choice of a particular class relates to properties of the data , and (c) its impact on the geometry of the embedding space. In this paper, we propose to answer all three questions by dividing existing operators into two main classes ( symmetrized vs. row-normalized spatial convolutions), and show how these translate into different implicit biases on the nature of the data. Finally, we show that this aggregation operator is in fact tunable, and explicit regimes in which certain choices of operators -- and therefore, embedding geometries -- might be more appropriate.
翻訳日:2022-07-15 04:19:53 公開日:2022-07-12
# エージェントベースモデルのデータ駆動制御:方程式・変数なし機械学習アプローチ

Data-driven Control of Agent-based Models: an Equation/Variable-free Machine Learning Approach ( http://arxiv.org/abs/2207.05779v1 )

ライセンス: Link先を確認
Dimitrios G. Patsatzis, Lucia Russo, Ioannis G. Kevrekidis, Constantinos Siettos(参考訳) 顕微鏡/エージェントベースシミュレータを用いてモデル化された複雑・マルチスケールシステムの集合力学を制御するための方程式/可変自由機械学習(EVFML)フレームワークを提案する。 このアプローチでは、サロゲートで低次モデルを構築する必要がなくなる。 a) 高次元エージェントベースシミュレーション、機械学習(特に非線形多様体学習(ディフフュージョンマップ(dms))は、創発的/集団的ダイナミクスが進化する低次元多様体をパラメータとする粗粒度変数の集合を特定するのに役立つ。 The out-of-sample extension and pre-image problems, i.e. the construction of non-linear mappings from the high-dimensional input space to the low-dimensional manifold and back, are solved by coupling DMs with the Nystrom extension and Geometric Harmonics, respectively; (B) having identified the manifold and its coordinates, we exploit the Equation-free approach to perform numerical bifurcation analysis of the emergent dynamics; then (C) based on the previous steps, we design data-driven embedded wash-out controllers that drive the agent-based simulators to their intrinsic, imprecisely known, emergent open-loop unstable steady-states, thus demonstrating that the scheme is robust against numerical approximation errors and modelling uncertainty. ~ 創発的不安定性を制御することにより, フレームワークの効率を図示する (i)決定論的エージェントに基づく交通力学モデルの走行波、及び (ii)マイメーシス付き確率金融市場エージェントモデルの平衡

We present an Equation/Variable free machine learning (EVFML) framework for the control of the collective dynamics of complex/multiscale systems modelled via microscopic/agent-based simulators. The approach obviates the need for construction of surrogate, reduced-order models.~The proposed implementation consists of three steps: (A) from high-dimensional agent-based simulations, machine learning (in particular, non-linear manifold learning (Diffusion Maps (DMs)) helps identify a set of coarse-grained variables that parametrize the low-dimensional manifold on which the emergent/collective dynamics evolve. The out-of-sample extension and pre-image problems, i.e. the construction of non-linear mappings from the high-dimensional input space to the low-dimensional manifold and back, are solved by coupling DMs with the Nystrom extension and Geometric Harmonics, respectively; (B) having identified the manifold and its coordinates, we exploit the Equation-free approach to perform numerical bifurcation analysis of the emergent dynamics; then (C) based on the previous steps, we design data-driven embedded wash-out controllers that drive the agent-based simulators to their intrinsic, imprecisely known, emergent open-loop unstable steady-states, thus demonstrating that the scheme is robust against numerical approximation errors and modelling uncertainty.~The efficiency of the framework is illustrated by controlling emergent unstable (i) traveling waves of a deterministic agent-based model of traffic dynamics, and (ii) equilibria of a stochastic financial market agent model with mimesis.
翻訳日:2022-07-14 16:08:43 公開日:2022-07-12
# 部分分散フィードバックを持つ差分プライベート線形帯域

Differentially Private Linear Bandits with Partial Distributed Feedback ( http://arxiv.org/abs/2207.05827v1 )

ライセンス: Link先を確認
Fengjiao Li, Xingyu Zhou, and Bo Ji(参考訳) 本稿では,分散フィードバックのみによるグローバル報酬の最大化の問題について検討する。 この問題は、いくつかの実世界のアプリケーション(例えば、セルラーネットワークの構成、動的価格設定、ポリシー選択)によって動機付けられており、中央のエンティティによって取られたアクションは、グローバルな報酬に寄与する大集団に影響を与える。 しかし、このような報奨のフィードバックを市民全体から集めることは、禁止的に高いコストをもたらすだけでなく、しばしばプライバシーの懸念を引き起こす。 そこで本研究では,利用者のごく一部(クライアントと呼ばれる)が学習プロセスに参加するために選択され,中央サーバは,これらのクライアントの局所的なフィードバックを差分プライベートな方法で反復的に集約することで,そのような部分的なフィードバックからグローバルモデルを学ぶ,微分的分散線形バンディットを考える。 そこで我々は,分散分散位相除去(DP-DPE)と呼ばれる一元的アルゴリズム学習フレームワークを提案し,このフレームワークを一般の差分プライバシー(DP)モデル(中央DP,局所DP,シャッフルDPを含む)と自然に統合することができる。 さらに,DP-DPEがサブリニア・後悔とサブリニア・コミュニケーションの両コストを実現することを証明する。 興味深いことに、DP-DPEはプライバシー保証による追加コストが低次の追加用語であるという意味で、プライバシー保護を「無料」にしている。 また,我々の手法の副産物として,標準微分プライベートリニアバンディットについても,同じ「フリー」プライバシの成果が得られている。 最後に,理論結果の相関をシミュレーションし,DP-DPEの有効性を実証する。

In this paper, we study the problem of global reward maximization with only partial distributed feedback. This problem is motivated by several real-world applications (e.g., cellular network configuration, dynamic pricing, and policy selection) where an action taken by a central entity influences a large population that contributes to the global reward. However, collecting such reward feedback from the entire population not only incurs a prohibitively high cost but often leads to privacy concerns. To tackle this problem, we consider differentially private distributed linear bandits, where only a subset of users from the population are selected (called clients) to participate in the learning process and the central server learns the global model from such partial feedback by iteratively aggregating these clients' local feedback in a differentially private fashion. We then propose a unified algorithmic learning framework, called differentially private distributed phased elimination (DP-DPE), which can be naturally integrated with popular differential privacy (DP) models (including central DP, local DP, and shuffle DP). Furthermore, we prove that DP-DPE achieves both sublinear regret and sublinear communication cost. Interestingly, DP-DPE also achieves privacy protection "for free" in the sense that the additional cost due to privacy guarantees is a lower-order additive term. In addition, as a by-product of our techniques, the same results of "free" privacy can also be achieved for the standard differentially private linear bandits. Finally, we conduct simulations to corroborate our theoretical results and demonstrate the effectiveness of DP-DPE.
翻訳日:2022-07-14 16:07:12 公開日:2022-07-12
# コンパクトに制限可能な計量政策最適化問題

Compactly Restrictable Metric Policy Optimization Problems ( http://arxiv.org/abs/2207.05850v1 )

ライセンス: Link先を確認
Victor D. Dorobantu, Kamyar Azizzadenesheli, and Yisong Yue(参考訳) 本稿では,計量状態と行動空間を持つ決定論的マルコフ決定過程(MDPs)に対する政策最適化問題について検討し,これを計量政策最適化問題(MPOPs)と呼ぶ。 当社の目標は,実際に関連する連続制御システムを特徴付けるmpopsの適切性に関する理論的結果を確立することにある。 そこで我々は,ロボットシステムの複雑な動作を捉えられるほど柔軟であるが,価値反復のような動的プログラミング手法を用いた解を許容するのに十分な特異性を有する,コンパクトに制限可能なmpops (cr-mpops) と呼ばれるmpopsの特殊クラスを定義する。 前方不変性を用いてCR-MPOPに到達する方法を示す。 さらに、CR-MPOPの理論的結果は、フィードバック線形化制御アフィンシステムの特徴付けに利用できることを示す。

We study policy optimization problems for deterministic Markov decision processes (MDPs) with metric state and action spaces, which we refer to as Metric Policy Optimization Problems (MPOPs). Our goal is to establish theoretical results on the well-posedness of MPOPs that can characterize practically relevant continuous control systems. To do so, we define a special class of MPOPs called Compactly Restrictable MPOPs (CR-MPOPs), which are flexible enough to capture the complex behavior of robotic systems but specific enough to admit solutions using dynamic programming methods such as value iteration. We show how to arrive at CR-MPOPs using forward-invariance. We further show that our theoretical results on CR-MPOPs can be used to characterize feedback linearizable control affine systems.
翻訳日:2022-07-14 16:06:43 公開日:2022-07-12
# 機能的オブジェクト指向ネットワークを用いた長距離タスクと運動計画

Long-Horizon Task and Motion Planning with Functional Object-Oriented Networks ( http://arxiv.org/abs/2207.05800v1 )

ライセンス: Link先を確認
David Paulius, Alejandro Agostini and Dongheui Lee(参考訳) ロボットの知識グラフ表現として機能的オブジェクト指向ネットワーク(foon)が導入された。 FOONは、二部グラフの形で、ロボットがタスクやその環境をオブジェクトレベルの計画に理解するのに有用な象徴的な(高レベルな)概念を含んでいる。 本稿では,タスクツリー検索を通じてFOONから取得したタスクプランをロボットが実行可能であることを示すために,FOONの概念は即時実行には抽象的すぎるため,これまではほとんど実施されていない。 我々は,フォオングラフをpddlに基づくドメイン知識の表現に変換して操作計画を行う階層的タスク計画手法を提案する。 これにより、動作コンテキストとスキルを動的運動プリミティブ(DMP)の形で活用することにより、ロボットが最初から最後まで実行可能なタスクプランを取得することができる。 CoppeliaSimを使って計画から実行までのパイプライン全体をデモし、学習したアクションコンテキストを、これまで見たことのないシナリオに拡張する方法を示します。

Following work on joint object-action representations, functional object-oriented networks (FOON) were introduced as a knowledge graph representation for robots. Taking the form of a bipartite graph, a FOON contains symbolic (high-level) concepts useful to a robot's understanding of tasks and its environment for object-level planning. Prior to this paper, little has been done to demonstrate how task plans acquired from FOON via task tree retrieval can be executed by a robot, as the concepts in a FOON are too abstract for immediate execution. We propose a hierarchical task planning approach that translates a FOON graph into a PDDL-based representation of domain knowledge for manipulation planning. As a result of this process, a task plan can be acquired that a robot can execute from start to end, leveraging the use of action contexts and skills in the form of dynamic movement primitives (DMP). We demonstrate the entire pipeline from planning to execution using CoppeliaSim and show how learned action contexts can be extended to never-before-seen scenarios.
翻訳日:2022-07-14 15:37:50 公開日:2022-07-12
# 加速MRIにおける適応拡散前処理

Adaptive Diffusion Priors for Accelerated MRI Reconstruction ( http://arxiv.org/abs/2207.05876v1 )

ライセンス: Link先を確認
Salman UH Dar, \c{S}aban \"Ozt\"urk, Yilmaz Korkmaz, Gokberk Elmas, Muzaffer \"Ozbey, Alper G\"ung\"or, Tolga \c{C}ukur(参考訳) ディープMRI再構成は通常、アンダーサンプリングされたデータを入力として完全サンプリングされたデータに出力としてマッピングする条件付きモデルで実行される。 条件付きモデルは、加速された撮像作用素の知識の下でデエイリアスを行うため、演算子の領域シフトの下では不十分な一般化を行う。 非条件モデルは、ドメインシフトに対する信頼性を改善するために、生成イメージを事前に学習する強力な代替手段である。 最近の拡散モデルは、その表現の多様性とサンプルの品質から特に有望である。 それでも、前もって静的イメージによるプロジェクションは、最適でないパフォーマンスにつながる可能性がある。 本稿では適応拡散に基づく新しいMRI再構成であるAdaDiffを提案する。 効率的な画像サンプリングを実現するため、大きな拡散ステップを利用できる対向マッパーが導入された。 初期再構成を生成する急速拡散相と、得られたk空間データに対する再構成損失を最小限に抑えるために拡散前を更新する適応相とを、訓練前の2相再構成を行う。 マルチコントラスト脳mriのデモンストレーションは、adadiffがクロスドメインタスクの競合モデルよりも優れたパフォーマンスを達成し、ドメイン内タスクにおいて同等か同等かを示している。

Deep MRI reconstruction is commonly performed with conditional models that map undersampled data as input onto fully-sampled data as output. Conditional models perform de-aliasing under knowledge of the accelerated imaging operator, so they poorly generalize under domain shifts in the operator. Unconditional models are a powerful alternative that instead learn generative image priors to improve reliability against domain shifts. Recent diffusion models are particularly promising given their high representational diversity and sample quality. Nevertheless, projections through a static image prior can lead to suboptimal performance. Here we propose a novel MRI reconstruction, AdaDiff, based on an adaptive diffusion prior. To enable efficient image sampling, an adversarial mapper is introduced that enables use of large diffusion steps. A two-phase reconstruction is performed with the trained prior: a rapid-diffusion phase that produces an initial reconstruction, and an adaptation phase where the diffusion prior is updated to minimize reconstruction loss on acquired k-space data. Demonstrations on multi-contrast brain MRI clearly indicate that AdaDiff achieves superior performance to competing models in cross-domain tasks, and superior or on par performance in within-domain tasks.
翻訳日:2022-07-14 15:37:17 公開日:2022-07-12
# 点群セマンティックセマンティックセグメンテーションのための近接センサエッジ計算システム

A Near Sensor Edge Computing System for Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2207.05888v1 )

ライセンス: Link先を確認
Lin Bai, Yiming Zhao and Xinming Huang(参考訳) 点雲セマンティックセグメンテーションは光条件に対する堅牢性から注目されている。 これにより、自動運転にとって理想的なセマンティックなソリューションとなる。 しかし、ニューラルネットワークの計算負荷と帯域幅の要求を考えると、全ての計算を車載電子制御ユニット(ECU)に組み込むことは効率的でも実用的でもない。 本稿では,範囲ビューに基づく軽量な点クラウドセマンティックセマンティック・セマンティック・ネットワークを提案する。 単純な前処理と標準の畳み込みのため、DPUのようなディープラーニングアクセラレータで実行する場合、効率的である。 さらに、自動運転車のための近接センサコンピューティングシステムも構築されている。 本システムでは、FPGAベースのディープラーニングアクセラレータコア(DPU)をLiDARセンサの横に配置し、ポイントクラウド前処理とセグメンテーションニューラルネットワークを実行する。 後処理のステップのみをECUに任せることで、このソリューションはECUの計算負担を軽減し、意思決定と車両の反応遅延を短縮する。 セマンティクスセグメンテーションネットワークは、xilinx dpu上で計算効率42.5 gop/wで10フレーム/秒(fps)を達成した。

Point cloud semantic segmentation has attracted attentions due to its robustness to light condition. This makes it an ideal semantic solution for autonomous driving. However, considering the large computation burden and bandwidth demanding of neural networks, putting all the computing into vehicle Electronic Control Unit (ECU) is not efficient or practical. In this paper, we proposed a light weighted point cloud semantic segmentation network based on range view. Due to its simple pre-processing and standard convolution, it is efficient when running on deep learning accelerator like DPU. Furthermore, a near sensor computing system is built for autonomous vehicles. In this system, a FPGA-based deep learning accelerator core (DPU) is placed next to the LiDAR sensor, to perform point cloud pre-processing and segmentation neural network. By leaving only the post-processing step to ECU, this solution heavily alleviate the computation burden of ECU and consequently shortens the decision making and vehicles reaction latency. Our semantic segmentation network achieved 10 frame per second (fps) on Xilinx DPU with computation efficiency 42.5 GOP/W.
翻訳日:2022-07-14 15:35:18 公開日:2022-07-12
# 創発的行動の枠組みとしての多エージェント強化学習におけるリレーショナルネットワーク

Reward-Sharing Relational Networks in Multi-Agent Reinforcement Learning as a Framework for Emergent Behavior ( http://arxiv.org/abs/2207.05886v1 )

ライセンス: Link先を確認
Hossein Haeri, Reza Ahmadzadeh, Kshitij Jerath(参考訳) 本研究では,ユーザ定義リレーショナルネットワークを通じて「社会的」相互作用をMARLセットアップに統合し,エージェントとエージェントの関係が創発的行動の発生に与える影響を検討する。 社会学と神経科学からの洞察を生かして、我々の提案するフレームワークは、ネットワークエッジウェイトが、あるエージェントが別のエージェントの成功(または「ケア」)にどれだけ投資されているかを測定する尺度として機能する、Reward-Sharing Relational Networks(RSRN)という概念を用いてエージェント関係をモデル化する。 RSRN相互作用重み関数の関数としてリレーショナル報酬を構築し,マルチエージェント強化学習アルゴリズムを用いてマルチエージェントシステムを一括訓練する。 システムの性能は、異なるリレーショナルネットワーク構造(例えば、利己的、コミュニティタリアン、権威主義的ネットワーク)を持つ3エージェントシナリオでテストされる。 その結果,報酬共有関係ネットワークは学習行動に大きな影響を与えることがわかった。 我々は、RSRNが、異なる関係ネットワークが、しばしばそのようなネットワークの侵入された社会学的理解と類似した、異なる創発的行動を生み出す枠組みとして機能できると仮定する。

In this work, we integrate `social' interactions into the MARL setup through a user-defined relational network and examine the effects of agent-agent relations on the rise of emergent behaviors. Leveraging insights from sociology and neuroscience, our proposed framework models agent relationships using the notion of Reward-Sharing Relational Networks (RSRN), where network edge weights act as a measure of how much one agent is invested in the success of (or `cares about') another. We construct relational rewards as a function of the RSRN interaction weights to collectively train the multi-agent system via a multi-agent reinforcement learning algorithm. The performance of the system is tested for a 3-agent scenario with different relational network structures (e.g., self-interested, communitarian, and authoritarian networks). Our results indicate that reward-sharing relational networks can significantly influence learned behaviors. We posit that RSRN can act as a framework where different relational networks produce distinct emergent behaviors, often analogous to the intuited sociological understanding of such networks.
翻訳日:2022-07-14 15:31:23 公開日:2022-07-12
# relaxloss: ユーティリティを失うことなくメンバシップ推論攻撃を防御する

RelaxLoss: Defending Membership Inference Attacks without Losing Utility ( http://arxiv.org/abs/2207.05801v1 )

ライセンス: Link先を確認
Dingfan Chen, Ning Yu, Mario Fritz(参考訳) トレーニングデータのプライバシに対する長期的な脅威として、メンバシップ推論攻撃(MIA)が機械学習モデルに広範に現れる。 既存の研究は、トレーニングとテストの損失分布の区別可能性とMIAに対するモデルの脆弱性との間に強い関係があることを証明している。 既存の結果に触発されて、より達成可能な学習目標を持つ緩和された損失に基づく新たなトレーニングフレームワークを提案し、一般化ギャップの狭化とプライバシー漏洩の低減につながる。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。 多様なモーダル性(画像、医療データ、トランザクションレコード)を持つ5つのデータセットに対する広範な評価を通じて、我々のアプローチはMIAに対するレジリエンスやモデルユーティリティの観点から、常に最先端の防御メカニズムを上回ります。 当社の防御は,ターゲットモデルの実用性を維持(あるいは改善)しながら,幅広い攻撃に耐えられる最初のものです。 ソースコードはhttps://github.com/DingfanChen/RelaxLossで入手できる。

As a long-term threat to the privacy of training data, membership inference attacks (MIAs) emerge ubiquitously in machine learning models. Existing works evidence strong connection between the distinguishability of the training and testing loss distributions and the model's vulnerability to MIAs. Motivated by existing results, we propose a novel training framework based on a relaxed loss with a more achievable learning target, which leads to narrowed generalization gap and reduced privacy leakage. RelaxLoss is applicable to any classification model with added benefits of easy implementation and negligible overhead. Through extensive evaluations on five datasets with diverse modalities (images, medical data, transaction records), our approach consistently outperforms state-of-the-art defense mechanisms in terms of resilience against MIAs as well as model utility. Our defense is the first that can withstand a wide range of attacks while preserving (or even improving) the target model's utility. Source code is available at https://github.com/DingfanChen/RelaxLoss
翻訳日:2022-07-14 15:30:29 公開日:2022-07-12
# dpart: 合成データ生成のための汎用フレームワークである差分的にプライベートな自動回帰タブラル

dpart: Differentially Private Autoregressive Tabular, a General Framework for Synthetic Data Generation ( http://arxiv.org/abs/2207.05810v1 )

ライセンス: Link先を確認
Sofiane Mahiou, Kai Xu, Georgi Ganev(参考訳) 汎用的でフレキシブルでスケーラブルなフレームワークdpartを提案する。dpartは、異なるプライベートな合成データ生成のためのオープンソースのpythonライブラリである。 このアプローチの中心にあるのは、自己回帰モデリング(autoregressive modeling) – 関節データの分布を、マシンラーニングモデル(ロジスティック/線形回帰、決定木など)や単純なヒストグラム数、カスタムテクニックといった、低次元の条件分布のシーケンスに分割する。 このライブラリは、合成データ生成の第一歩を踏み出したユーザから、モデリングのさまざまな側面を設定でき、新しいメソッドやメカニズムを貢献できるドメインの専門知識を持つユーザまで、迅速かつアクセス可能なベースラインとして機能すると同時に、幅広いユーザに対応するために作られた。 例えば、Independent、最適化されたPrivBayes、新しく提案されたモデルdp-synthpopなどがある。 コード: https://github.com/hazy/dpart

We propose a general, flexible, and scalable framework dpart, an open source Python library for differentially private synthetic data generation. Central to the approach is autoregressive modelling -- breaking the joint data distribution to a sequence of lower-dimensional conditional distributions, captured by various methods such as machine learning models (logistic/linear regression, decision trees, etc.), simple histogram counts, or custom techniques. The library has been created with a view to serve as a quick and accessible baseline as well as to accommodate a wide audience of users, from those making their first steps in synthetic data generation, to more experienced ones with domain expertise who can configure different aspects of the modelling and contribute new methods/mechanisms. Specific instances of dpart include Independent, an optimized version of PrivBayes, and a newly proposed model, dp-synthpop. Code: https://github.com/hazy/dpart
翻訳日:2022-07-14 15:30:10 公開日:2022-07-12
# インシシデント政策の条件付きエネルギーモデル:理論と実践のギャップ

Conditional Energy-Based Models for Implicit Policies: The Gap between Theory and Practice ( http://arxiv.org/abs/2207.05824v1 )

ライセンス: Link先を確認
Duy-Nguyen Ta, Eric Cousineau, Huihua Zhao, Siyuan Feng(参考訳) 本稿では,条件付エネルギーベースモデル(ebm)を行動制限ポリシーの暗黙表現として用いる理論と実践のギャップについて考察する。 また,この領域における今後の研究を支援するために,先行研究における微妙な,潜在的に紛らわしい詳細を明らかにする。 非条件ESMと条件付きEMMの主な違いを指摘し、一方を他方に盲目的に適用すると、望ましくない結果をもたらす可能性があることを警告した。 最後に,条件付きebmを回帰タスクの暗黙モデルとして優れた一般化を達成するために必要な条件として,最大相互情報原理の重要性を強調した。

We present our findings in the gap between theory and practice of using conditional energy-based models (EBM) as an implicit representation for behavior-cloned policies. We also clarify several subtle, and potentially confusing, details in previous work in an attempt to help future research in this area. We point out key differences between unconditional and conditional EBMs, and warn that blindly applying training methods for one to the other could lead to undesirable results that do not generalize well. Finally, we emphasize the importance of the Maximum Mutual Information principle as a necessary condition to achieve good generalization in conditional EBMs as implicit models for regression tasks.
翻訳日:2022-07-14 15:29:51 公開日:2022-07-12
# 児童福祉意思決定を支援するための機械学習の概念的枠組み

A Conceptual Framework for Using Machine Learning to Support Child Welfare Decisions ( http://arxiv.org/abs/2207.05855v1 )

ライセンス: Link先を確認
Ka Ho Brian Chor, Kit T. Rodolfa, Rayid Ghani(参考訳) ヒューマンサービスシステムは、社会の個人に影響を与える重要な決定をする。 児童福祉制度は、児童保護調査に対する虐待や軽視の疑いの報告をスクリーニングし、児童を養護施設に置き、子どもを恒久的な家庭環境に戻すなど、そのような決定を下している。 子どもの生活におけるこれらの複雑で影響力のある決定は、児童福祉決定者の判断に依存する。 児童福祉機関は、機械学習(ML)を含む実証的なデータインフォームド手法でこれらの決定を支援する方法を模索している。 本稿では、児童福祉決定を支援するためのMLの概念的枠組みについて述べる。 MLフレームワークは、児童福祉機関が、MLが解決できる対象の問題を概念化する方法、MLを構築するための利用可能な管理データを検証し、関連する人口と機関が行っている介入を反映したML仕様を策定し、開発すること、MLを児童福祉のコンテキストとして展開、評価、監視すること、政策、時間の経過とともに変化を実践することである。 倫理的考慮、ステークホルダーの関与、共通の落とし穴の回避が、フレームワークの影響と成功を支えている。 要約から具体的へ、この枠組みの児童福祉判断を支援する一つの応用について述べる。 このMLフレームワークは、児童福祉に重点を置いているが、他の公共政策の問題を解決するために一般化できる。

Human services systems make key decisions that impact individuals in the society. The U.S. child welfare system makes such decisions, from screening-in hotline reports of suspected abuse or neglect for child protective investigations, placing children in foster care, to returning children to permanent home settings. These complex and impactful decisions on children's lives rely on the judgment of child welfare decisionmakers. Child welfare agencies have been exploring ways to support these decisions with empirical, data-informed methods that include machine learning (ML). This paper describes a conceptual framework for ML to support child welfare decisions. The ML framework guides how child welfare agencies might conceptualize a target problem that ML can solve; vet available administrative data for building ML; formulate and develop ML specifications that mirror relevant populations and interventions the agencies are undertaking; deploy, evaluate, and monitor ML as child welfare context, policy, and practice change over time. Ethical considerations, stakeholder engagement, and avoidance of common pitfalls underpin the framework's impact and success. From abstract to concrete, we describe one application of this framework to support a child welfare decision. This ML framework, though child welfare-focused, is generalizable to solving other public policy problems.
翻訳日:2022-07-14 15:28:58 公開日:2022-07-12
# 多くの分類器を用いた非教師なし領域適応のための領域ギャップ推定

Domain Gap Estimation for Source Free Unsupervised Domain Adaptation with Many Classifiers ( http://arxiv.org/abs/2207.05785v1 )

ライセンス: Link先を確認
Ziyang Zong, Jun He, Lei Zhang, Hai Huan(参考訳) 理論上、教師なし領域適応(UDA)の成功はドメインギャップの推定に大きく依存している。 しかし、ソースフリーなUDAでは、ソースドメインデータは適応中にアクセスできないため、ドメインギャップを計測するという大きな課題が生じる。 本稿では,2つのドメインデータに同時アクセスできない場合でも,ドメインギャップのより深い上限となるソース領域決定境界を学習するために,多くの分類器を使用することを提案する。 ソースモデルは、決定境界の正確性を確保しながら、それぞれの分類器をプッシュアウトするように訓練される。 この意味で、我々の多くの分類器モデルは、対象領域における多くの分類器の最大不一致を誘導する、可能な限りソースの異なるカテゴリを分離し、転送可能なソースドメイン知識を最大化する。 適応のために、ソースモデルは分類器のペア間の合意を最大化するために適応される。 これにより、対象の機能は決定境界から追い出される。 UDAのいくつかのデータセットに対する実験により、我々のアプローチは、ソースフリーなUDAアプローチ間のアートパフォーマンスの状態を達成し、ソースフリーなUDA手法と競合することさえできることを示した。

In theory, the success of unsupervised domain adaptation (UDA) largely relies on domain gap estimation. However, for source free UDA, the source domain data can not be accessed during adaptation, which poses great challenge of measuring the domain gap. In this paper, we propose to use many classifiers to learn the source domain decision boundaries, which provides a tighter upper bound of the domain gap, even if both of the domain data can not be simultaneously accessed. The source model is trained to push away each pair of classifiers whilst ensuring the correctness of the decision boundaries. In this sense, our many classifiers model separates the source different categories as far as possible which induces the maximum disagreement of many classifiers in the target domain, thus the transferable source domain knowledge is maximized. For adaptation, the source model is adapted to maximize the agreement among pairs of the classifiers. Thus the target features are pushed away from the decision boundaries. Experiments on several datasets of UDA show that our approach achieves state of the art performance among source free UDA approaches and can even compete to source available UDA methods.
翻訳日:2022-07-14 15:10:58 公開日:2022-07-12
# REZCR:ラジカル抽出によるゼロショット文字認識法

REZCR: A Zero-shot Character Recognition Method via Radical Extraction ( http://arxiv.org/abs/2207.05842v1 )

ライセンス: Link先を確認
Xiaolei Diao, Daqian Shi, Hao Tang, Lei Wu, Yanzeng Li, Hao Xu(参考訳) ロングテール効果は、現実世界のデータセットにおけるディープラーニングモデルのパフォーマンスを制限する一般的な問題である。 文字画像データセットの開発は、文字使用頻度の違いによる不均衡なデータ分布にも影響される。 これにより、実世界のデータセット、特にトレーニングサンプルが不足している尾の文字カテゴリ、例えば、稀な文字や歴史文書の文字に適用する場合、現在の文字認識方法が制限される。 本稿では,ラディカル抽出,すなわちrezcrを用いたゼロショット文字認識フレームワークを提案する。 REZCRは、注意に基づく急進情報抽出器(RIE)と知識グラフに基づく文字推論器(KGR)から構成される。 RIEは、文字画像から候補ラジカルとその構造的関係を認識することを目的としている。 結果はKGRに入力され、事前に設計された文字知識グラフで推論してターゲット文字を認識する。 提案手法を複数のデータセット上で検証し,REZCRが有望な実験結果を示す。

The long-tail effect is a common issue that limits the performance of deep learning models on real-world datasets. Character image dataset development is also affected by such unbalanced data distribution due to differences in character usage frequency. Thus, current character recognition methods are limited when applying to real-world datasets, in particular to the character categories in the tail which are lacking training samples, e.g., uncommon characters, or characters from historical documents. In this paper, we propose a zero-shot character recognition framework via radical extraction, i.e., REZCR, to improve the recognition performance of few-sample character categories, in which we exploit information on radicals, the graphical units of characters, by decomposing and reconstructing characters following orthography. REZCR consists of an attention-based radical information extractor (RIE) and a knowledge graph-based character reasoner (KGR). The RIE aims to recognize candidate radicals and their possible structural relations from character images. The results will be fed into KGR to recognize the target character by reasoning with a pre-designed character knowledge graph. We validate our method on multiple datasets, REZCR shows promising experimental results, especially for few-sample character datasets.
翻訳日:2022-07-14 15:10:37 公開日:2022-07-12
# Wayformer: シンプルで効率的な注意ネットワークによる動き予測

Wayformer: Motion Forecasting via Simple & Efficient Attention Networks ( http://arxiv.org/abs/2207.05844v1 )

ライセンス: Link先を確認
Nigamaa Nayakanti, Rami Al-Rfou, Aurick Zhou, Kratarth Goel, Khaled S. Refaat, Benjamin Sapp(参考訳) 複雑な運転シナリオが静的および動的入力の不均一な混合をもたらすため、自律運転の動作予測は難しい課題である。 道路形状、車線接続、時間変化のある交通信号状態、動的エージェントの集合とその相互作用の履歴などの情報を効果的に符号化する上で、どのように表現し、融合するかは、オープンな問題である。 この多様な入力特徴セットをモデル化するために、様々なモジュラリティ固有のモジュールからなる等しく複雑なシステムを設計するための多くのアプローチが提案された。 この結果、スケール、拡張、チューニングが困難なシステムが、品質と効率をトレードオフする厳密な方法で実現されるのです。 本稿では,シンプルで均質な動き予測のための注意に基づくアーキテクチャであるwayformerを提案する。 wayformerは注意に基づくシーンエンコーダとデコーダからなるコンパクトなモデル記述を提供する。 シーンエンコーダでは,入力モードの早期,後期,階層的な融合の選択について検討する。 それぞれの融合タイプに対して、分解された注意または遅延クエリの注意を通して効率と品質をトレードオフする戦略を検討します。 建設の単純さにもかかわらず、初期の融合はモダリティに依存しないだけでなく、Waymo Open MotionDataset(WOMD)とArgoverseのリーダーボードで最先端の成果を達成し、設計哲学の有効性を実証している。

Motion forecasting for autonomous driving is a challenging task because complex driving scenarios result in a heterogeneous mix of static and dynamic inputs. It is an open problem how best to represent and fuse information about road geometry, lane connectivity, time-varying traffic light state, and history of a dynamic set of agents and their interactions into an effective encoding. To model this diverse set of input features, many approaches proposed to design an equally complex system with a diverse set of modality specific modules. This results in systems that are difficult to scale, extend, or tune in rigorous ways to trade off quality and efficiency. In this paper, we present Wayformer, a family of attention based architectures for motion forecasting that are simple and homogeneous. Wayformer offers a compact model description consisting of an attention based scene encoder and a decoder. In the scene encoder we study the choice of early, late and hierarchical fusion of the input modalities. For each fusion type we explore strategies to tradeoff efficiency and quality via factorized attention or latent query attention. We show that early fusion, despite its simplicity of construction, is not only modality agnostic but also achieves state-of-the-art results on both Waymo Open MotionDataset (WOMD) and Argoverse leaderboards, demonstrating the effectiveness of our design philosophy
翻訳日:2022-07-14 15:10:18 公開日:2022-07-12
# 映像における人間の動きの外部力推定の学習

Learning to Estimate External Forces of Human Motion in Video ( http://arxiv.org/abs/2207.05845v1 )

ライセンス: Link先を確認
Nathan Louis, Tylan N. Templin, Travis D. Eliason, Daniel P. Nicolella, and Jason J. Corso(参考訳) スポーツのパフォーマンスの分析や怪我の予防には、特定の運動中に人体が行使する地上反応力(grf)を捉える必要がある。 標準手法では, 制御された環境において, 力板と組み合わせた物理マーカーを用いるが, 繰り返し実験における高コスト, 長い実装時間, ばらつきに悩まされるため, ビデオからのGRF推論を提案する。 最近の研究では、LSTMを用いて2次元視点からGRFを推定しているが、モデリングや表現能力に制限がある。 まず、まず、ビデオタスクからgrfに取り組むためにトランスフォーマーアーキテクチャを使うことを提案する。 次に,回帰曲線における衝撃ピークを最小化するために,新たな損失を導入する。 また,2次元から3次元のポーズ推定における事前学習とマルチタスク学習が,目に見えない動作への一般化を促進することを示す。 そして、この異なるタスクの事前トレーニングは、より小さな(より粗い)GRFデータセットを微調整する際に、優れた初期重みを与える。 LAAS Parkourと新たに収集したForcePoseデータセットについて検討した。

Analyzing sports performance or preventing injuries requires capturing ground reaction forces (GRFs) exerted by the human body during certain movements. Standard practice uses physical markers paired with force plates in a controlled environment, but this is marred by high costs, lengthy implementation time, and variance in repeat experiments; hence, we propose GRF inference from video. While recent work has used LSTMs to estimate GRFs from 2D viewpoints, these can be limited in their modeling and representation capacity. First, we propose using a transformer architecture to tackle the GRF from video task, being the first to do so. Then we introduce a new loss to minimize high impact peaks in regressed curves. We also show that pre-training and multi-task learning on 2D-to-3D human pose estimation improves generalization to unseen motions. And pre-training on this different task provides good initial weights when finetuning on smaller (rarer) GRF datasets. We evaluate on LAAS Parkour and a newly collected ForcePose dataset; we show up to 19% decrease in error compared to prior approaches.
翻訳日:2022-07-14 15:09:55 公開日:2022-07-12
# SpOT:3次元物体追跡のための時空間モデリング

SpOT: Spatiotemporal Modeling for 3D Object Tracking ( http://arxiv.org/abs/2207.05856v1 )

ライセンス: Link先を確認
Colton Stearns, Davis Rempe, Jie Li, Rares Ambrus, Sergey Zakharov, Vitor Guizilini, Yanchao Yang, Leonidas J Guibas(参考訳) 3dマルチオブジェクトトラッキングは、時間を通じてすべてのモバイルエンティティをユニークかつ一貫して識別することを目的としている。 この設定で利用可能な豊富な時空間情報にもかかわらず、現在の3Dトラッキング手法は主に抽象化された情報と制限された歴史、例えばシングルフレームオブジェクト境界ボックスに依存している。 本研究では,シーン内の俳優の空間的情報と時間的情報の両方を活用した交通シーンの総合表現を開発する。 具体的には,追跡対象を時間スタンプ点の列として表現し,長い時間的履歴のバウンディングボックスとして表現することで,時空間問題として追跡を再構成する。 それぞれのタイムスタンプで、追跡されたオブジェクトの位置と動きの見積もりを、オブジェクト履歴の完全なシーケンスで学習することで改善します。 時間と空間を共同で考えることで、我々の表現は自然にオブジェクトの永続性や時間間の一貫性といった基本的な物理前駆を符号化します。 我々の時空間追跡フレームワークはWaymoとnuScenesベンチマークで最先端のパフォーマンスを実現する。

3D multi-object tracking aims to uniquely and consistently identify all mobile entities through time. Despite the rich spatiotemporal information available in this setting, current 3D tracking methods primarily rely on abstracted information and limited history, e.g. single-frame object bounding boxes. In this work, we develop a holistic representation of traffic scenes that leverages both spatial and temporal information of the actors in the scene. Specifically, we reformulate tracking as a spatiotemporal problem by representing tracked objects as sequences of time-stamped points and bounding boxes over a long temporal history. At each timestamp, we improve the location and motion estimates of our tracked objects through learned refinement over the full sequence of object history. By considering time and space jointly, our representation naturally encodes fundamental physical priors such as object permanence and consistency across time. Our spatiotemporal tracking framework achieves state-of-the-art performance on the Waymo and nuScenes benchmarks.
翻訳日:2022-07-14 15:09:38 公開日:2022-07-12
# CQC:クロストーク対応の量子プログラムコンパイルフレームワーク

CQC: A Crosstalk-Aware Quantum Program Compilation Framework ( http://arxiv.org/abs/2207.05751v1 )

ライセンス: Link先を確認
Fei Hua, Yuwei Jin, Yanhao Chen, Chi Zhang, Ari Hayes, Hang Gao, Eddy.Z Zhang(参考訳) 短期量子システムはうるさい。 クロストークノイズは、超伝導中規模量子(nisq)デバイスにおけるノイズの主な源の1つである。 クロストークは、近くのキュービット上で \texttt{CX} のような2ビットゲートの同時実行から生じる。 個別に実行するよりも、ゲートのエラー率を大幅に増加させる可能性がある。 crosstalkはスケジューリングやハードウェアチューニングによって緩和できる。 しかし、以前の研究では、コンパイル後の非常に遅い段階で、一般的にハードウェアマッピングが完了した後、クロストークを処理する。 アルゴリズムロジック、ルーティング、クロストークを同時に最適化する大きな機会を逃すかもしれません。 本稿では,初期コンパイル段階で,これらすべての要因を同時に考慮し,エンベロープを押下する。 本稿では,cqcと呼ばれるクロストーク対応量子プログラムコンパイルフレームワークを提案する。 さらに,アプリケーション固有のクロストーク緩和のための中間表現から回路への変換の機会,例えば変分量子固有解法 (vqe) における \texttt{cx} ラダー構成を同定する。 シミュレーションと実際のIBM-Qデバイスによる評価から、我々のフレームワークは、最先端のゲートスケジューリング手法と比較して、回路深さが60倍の6$\times$で、エラー率を大幅に削減できることがわかった。 特に VQE では,IBMQ Guadalupe を用いた H4 分子の先行技術よりも 9.6 % の忠実度向上で 49 % の回路深さ減少を示す。 私たちのCQCフレームワークはGitHubでリリースされます。

Near-term quantum systems are noisy. Crosstalk noise has been identified as one of the major sources of noises in superconducting Noisy Intermediate-Scale Quantum (NISQ) devices. Crosstalk arises from the concurrent execution of two-qubit gates, such as \texttt{CX}, on nearby qubits. It may significantly increase the error rate of gates compared to running them individually. Crosstalk can be mitigated through scheduling or hardware tuning. Prior studies, however, handle crosstalk at a very late stage in the compilation later, typically after hardware mapping is done. It might miss great opportunities of optimizing algorithm logic, routing, and crosstalk at the same time. In this paper, we push the envelope by considering all these factors simultaneously at the very early compilation stage. We propose a crosstalk-aware quantum program compilation framework called CQC that can enhance crosstalk-mitigation while achieving satisfactory circuit depth. Moreover, we identify opportunities for translation from intermediate representation to the circuit for application-specific crosstalk mitigation, for instance, the \texttt{CX} ladder construction in variational quantum eigensolvers (VQE). Evaluations through simulation and on real IBM-Q devices show that our framework can significantly reduce the error rate by up to 6$\times$, with only $\sim$60\% circuit depth compared to state-of-the-art gate scheduling approaches. In particular for VQE, we demonstrate 49\% circuit depth reduction with 9.6\% fidelity improvement over prior art on the H4 molecule using IBMQ Guadalupe. Our CQC framework will be released on GitHub.
翻訳日:2022-07-14 14:59:40 公開日:2022-07-12
# 最適PAC強化学習 : インスタンス依存の視点

Optimistic PAC Reinforcement Learning: the Instance-Dependent View ( http://arxiv.org/abs/2207.05852v1 )

ライセンス: Link先を確認
Andrea Tirinzoni, Aymen Al-Marjani, Emilie Kaufmann(参考訳) 表層表層MDPの最小化には,ミニマックスとインスタンス依存の両面から最適化アルゴリズムが広く研究されている。 しかしながら、高い確率で最適に近いポリシーを特定することを目的としたpac rl問題では、インスタンス依存のサンプル複雑性についてはほとんど知られていない。 Wagenmaker et al. (2021) の否定的な結果は、楽観的なサンプリング規則は(まだ解明されていない)最適なインスタンス依存のサンプル複雑性を達成するには使えないことを示唆している。 正の面では、pac rl, bpi-ucrlの楽観的アルゴリズムに対する最初のインスタンス依存境界を提供し、minimaxの保証のみを利用可能とした(kaufmann et al., 2021)。 私たちの境界は、訪問確率の最小化を特徴としていますが、以前の作業で現れる値のギャップと比較して、サブオプティリティギャップという洗練された概念も特徴です。 さらに, 決定論的遷移を伴うMDPでは, BPI-UCRLがほぼ最適であることを示す。 技術的な面では、独立した関心の新たな“ターゲットトリック”のおかげで、私たちの分析は非常に単純です。 PAC RLのインスタンス依存的な複雑性が,ミニマックス法とは異なり,後悔の最小化と容易に関連付けられない理由を説明するために,これらの知見を新しい硬さの結果で補完する。

Optimistic algorithms have been extensively studied for regret minimization in episodic tabular MDPs, both from a minimax and an instance-dependent view. However, for the PAC RL problem, where the goal is to identify a near-optimal policy with high probability, little is known about their instance-dependent sample complexity. A negative result of Wagenmaker et al. (2021) suggests that optimistic sampling rules cannot be used to attain the (still elusive) optimal instance-dependent sample complexity. On the positive side, we provide the first instance-dependent bound for an optimistic algorithm for PAC RL, BPI-UCRL, for which only minimax guarantees were available (Kaufmann et al., 2021). While our bound features some minimal visitation probabilities, it also features a refined notion of sub-optimality gap compared to the value gaps that appear in prior work. Moreover, in MDPs with deterministic transitions, we show that BPI-UCRL is actually near-optimal. On the technical side, our analysis is very simple thanks to a new "target trick" of independent interest. We complement these findings with a novel hardness result explaining why the instance-dependent complexity of PAC RL cannot be easily related to that of regret minimization, unlike in the minimax regime.
翻訳日:2022-07-14 14:59:13 公開日:2022-07-12
# 医用画像診断のための形状認識マスク

Shape-Aware Masking for Inpainting in Medical Imaging ( http://arxiv.org/abs/2207.05787v1 )

ライセンス: Link先を確認
Yousef Yeganeh, Azade Farshad, Nassir Navab(参考訳) Inpaintingは、教師なしの医療画像モデル発見のためのディープラーニング技術として最近提案されている。 塗装に用いられるマスクは一般的にデータセットとは独立であり、解剖学の異なるクラスで実行するように調整されていない。 本研究では, 塗装用形状認識マスクの生成手法について紹介し, 先行する統計的形状の学習を目的とした。 マスクの変動はインペイントモデルの一般化性を向上させるが、マスクの形状は興味ある臓器のトポロジーに従うべきであると仮定する。 そこで本研究では,オフザシェルフ塗装モデルとスーパーピクセルオーバーセグメンテーションアルゴリズムに基づく教師なしマスキング手法を提案し,幅広い形状依存マスクを生成する。 腹部mri画像再構成実験の結果,正方形または不規則形状マスクのデータセットを用いた標準法よりもマスキング法が優れていることがわかった。

Inpainting has recently been proposed as a successful deep learning technique for unsupervised medical image model discovery. The masks used for inpainting are generally independent of the dataset and are not tailored to perform on different given classes of anatomy. In this work, we introduce a method for generating shape-aware masks for inpainting, which aims at learning the statistical shape prior. We hypothesize that although the variation of masks improves the generalizability of inpainting models, the shape of the masks should follow the topology of the organs of interest. Hence, we propose an unsupervised guided masking approach based on an off-the-shelf inpainting model and a superpixel over-segmentation algorithm to generate a wide range of shape-dependent masks. Experimental results on abdominal MR image reconstruction show the superiority of our proposed masking method over standard methods using square-shaped or dataset of irregular shape masks.
翻訳日:2022-07-14 14:22:12 公開日:2022-07-12
# オフライン政策評価のためのベルマン完全表現の学習

Learning Bellman Complete Representations for Offline Policy Evaluation ( http://arxiv.org/abs/2207.05837v1 )

ライセンス: Link先を確認
Jonathan D. Chang and Kaiwen Wang and Nathan Kallus and Wen Sun(参考訳) 本稿では,オフライン強化学習(RL)における表現学習について検討し,オフライン政策評価(OPE)の重要な課題に着目した。 近年の研究では、教師付き学習とは対照的に、Q-関数の実現性は学習に十分でないことが示されている。 サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。 先行研究は、しばしばこれらの条件を満たす表現が与えられると仮定し、その結果は本質的に理論上ほとんどである。 本稿では,BCRLを提案する。BCRLは,データから直接,ほぼ線形なベルマン完全表現を,良好なカバレッジで学習する。 この学習表現を用いて、学習表現に線形関数を持つLast Square Policy Evaluation (LSPE)を用いてOPEを実行する。 本稿では、線形ベルマン完備であるリッチクラスにおける表現を仮定して、2段階のアルゴリズムが多項式サンプルの複雑性を楽しむことを示す。 実験により,Deepmind Control Suiteによる画像ベース連続制御の課題に対するアルゴリズムを広範囲に評価した。 我々は, オフポリティクスRL(例えば, CURL, SPR)で開発された従来の表現学習手法と比較して, 表現によりOPEが向上することを示す。 BCRLは、最先端のQ評価法であるFitted Q-Evaluation (FQE)と競合するOPE誤差を達成し、初期状態分布を超えて評価するとFQEを破る。 提案手法の線形ベルマン完全成分とカバレッジ成分の両方が重要であることを示す。

We study representation learning for Offline Reinforcement Learning (RL), focusing on the important task of Offline Policy Evaluation (OPE). Recent work shows that, in contrast to supervised learning, realizability of the Q-function is not enough for learning it. Two sufficient conditions for sample-efficient OPE are Bellman completeness and coverage. Prior work often assumes that representations satisfying these conditions are given, with results being mostly theoretical in nature. In this work, we propose BCRL, which directly learns from data an approximately linear Bellman complete representation with good coverage. With this learned representation, we perform OPE using Least Square Policy Evaluation (LSPE) with linear functions in our learned representation. We present an end-to-end theoretical analysis, showing that our two-stage algorithm enjoys polynomial sample complexity provided some representation in the rich class considered is linear Bellman complete. Empirically, we extensively evaluate our algorithm on challenging, image-based continuous control tasks from the Deepmind Control Suite. We show our representation enables better OPE compared to previous representation learning methods developed for off-policy RL (e.g., CURL, SPR). BCRL achieve competitive OPE error with the state-of-the-art method Fitted Q-Evaluation (FQE), and beats FQE when evaluating beyond the initial state distribution. Our ablations show that both linear Bellman complete and coverage components of our method are crucial.
翻訳日:2022-07-14 14:21:10 公開日:2022-07-12
# Sockeye 3: PyTorchによる高速ニューラルネットワーク翻訳

Sockeye 3: Fast Neural Machine Translation with PyTorch ( http://arxiv.org/abs/2207.05851v1 )

ライセンス: Link先を確認
Felix Hieber, Michael Denkowski, Tobias Domhan, Barbara Darques Barros, Celina Dong Ye, Xing Niu, Cuong Hoang, Ke Tran, Benjamin Hsu, Maria Nadejde, Surafel Lakew, Prashant Mathur, Marcello Federico, Anna Currey(参考訳) Sockeye 3は、Neural Machine Translation (NMT)のためのSockyeツールキットの最新バージョンである。 現在、pytorchをベースにしたsockeye 3は、さらに合理化されたコードベースで、より高速なモデル実装とより高度な機能を提供します。 これにより、より速いイテレーションによる広範な実験、より強く高速なモデルの効率的なトレーニング、新しいアイデアを研究から生産へと素早く移行するための柔軟性が可能になる。 同等のモデルを実行する場合、sockeye 3はgpu上の他のpytorch実装よりも最大126%高速で、cpuでは最大292%高速である。 Sockeye 3はApache 2.0ライセンス下でリリースされたオープンソースソフトウェアである。

Sockeye 3 is the latest version of the Sockeye toolkit for Neural Machine Translation (NMT). Now based on PyTorch, Sockeye 3 provides faster model implementations and more advanced features with a further streamlined codebase. This enables broader experimentation with faster iteration, efficient training of stronger and faster models, and the flexibility to move new ideas quickly from research to production. When running comparable models, Sockeye 3 is up to 126% faster than other PyTorch implementations on GPUs and up to 292% faster on CPUs. Sockeye 3 is open source software released under the Apache 2.0 license.
翻訳日:2022-07-14 14:19:21 公開日:2022-07-12
# 財務質問応答タスクのための新しいDeBERTaモデル

A Novel DeBERTa-based Model for Financial Question Answering Task ( http://arxiv.org/abs/2207.05875v1 )

ライセンス: Link先を確認
Yanbo J. Wang, Yuming Li, Hui Qin, Yuhang Guan and Sheng Chen(参考訳) 自然言語処理分野のスターとして、Q&Aシステム(Q&Aシステム)はあらゆる人生で広く使われている。 他のシナリオと比較して、アプリケーションインの財務シナリオは、Q&Aシステムのトレーサビリティと解釈可能性に強い要件を持っています。 さらに、人工知能技術の需要が、初期計算知能から認知知能へと徐々にシフトしてきたため、この研究は主に財務数値推論データセットFinQAに焦点を当てている。 共有タスクでは、テキストと表を含む所定の財務報告に従って推論プログラムと最終回答を生成する。 我々は,DeBERTa事前学習言語モデルに基づく手法を用いて,マルチモデル融合,トレーニングセットの組み合わせを含む最適化手法を提案する。 最終的に、実行精度68.99、プログラム精度64.53を取得し、2022年のFinQAチャレンジで4位となった。

As a rising star in the field of natural language processing, question answering systems (Q&A Systems) are widely used in all walks of life. Compared with other scenarios, the applicationin financial scenario has strong requirements in the traceability and interpretability of the Q&A systems. In addition, since the demand for artificial intelligence technology has gradually shifted from the initial computational intelligence to cognitive intelligence, this research mainly focuses on the financial numerical reasoning dataset - FinQA. In the shared task, the objective is to generate the reasoning program and the final answer according to the given financial report containing text and tables. We use the method based on DeBERTa pre-trained language model, with additional optimization methods including multi-model fusion, training set combination on this basis. We finally obtain an execution accuracy of 68.99 and a program accuracy of 64.53, ranking No. 4 in the 2022 FinQA Challenge.
翻訳日:2022-07-14 14:19:09 公開日:2022-07-12
# 解釈可能な証拠による不公平モデルの探索

Revealing Unfair Models by Mining Interpretable Evidence ( http://arxiv.org/abs/2207.05811v1 )

ライセンス: Link先を確認
Mohit Bajaj, Lingyang Chu, Vittorio Romaniello, Gursimran Singh, Jian Pei, Zirui Zhou, Lanjun Wang, Yong Zhang(参考訳) 機械学習の人気は、司法制度、薬物/ワクチン設計、医療診断など、高額な応用に不公平なモデルが配備されるリスクを高めている。 公平なモデルをスクラッチからトレーニングするには効果的な方法があるが、トレーニングされたモデルの不公平性を自動的に明らかにし説明する方法は、依然として難しい課題である。 解釈可能な方法で機械学習モデルの不公平性を明らかにすることは、公正で信頼できるAIへの重要なステップである。 本稿では,解釈可能な証拠(RUMIE)をマイニングすることで不公平なモデルを明らかにする新しい課題を体系的に解決する。 重要なアイデアは、モデルによって最も識別されるデータインスタンスのグループの形で確かな証拠を見つけることである。 証拠を解釈するために、識別されたデータインスタンスを識別し、他の非識別データと区別する、人間の理解可能なキー属性と決定ルールのセットを見つける。 実世界の多くのデータセットに対する広範な実験によって実証されたように、本手法は、訓練されたモデルの不公平性を効果的に明らかにするために、極めて解釈可能で確固たる証拠を見出す。 さらに、すべてのベースラインメソッドよりもはるかにスケーラブルです。

The popularity of machine learning has increased the risk of unfair models getting deployed in high-stake applications, such as justice system, drug/vaccination design, and medical diagnosis. Although there are effective methods to train fair models from scratch, how to automatically reveal and explain the unfairness of a trained model remains a challenging task. Revealing unfairness of machine learning models in interpretable fashion is a critical step towards fair and trustworthy AI. In this paper, we systematically tackle the novel task of revealing unfair models by mining interpretable evidence (RUMIE). The key idea is to find solid evidence in the form of a group of data instances discriminated most by the model. To make the evidence interpretable, we also find a set of human-understandable key attributes and decision rules that characterize the discriminated data instances and distinguish them from the other non-discriminated data. As demonstrated by extensive experiments on many real-world data sets, our method finds highly interpretable and solid evidence to effectively reveal the unfairness of trained models. Moreover, it is much more scalable than all of the baseline methods.
翻訳日:2022-07-14 12:51:06 公開日:2022-07-12
# 新型コロナウイルス(covid-19)感染拡大の予測-スペインを事例として

Forecasting COVID-19 spreading trough an ensemble of classical and machine learning models: Spain's case study ( http://arxiv.org/abs/2207.05753v1 )

ライセンス: Link先を確認
Ignacio Heredia Cacha, Judith Sainz-Pardo D\'iaz, Mar\'ia Castrillo Melguizo, \'Alvaro L\'opez Garc\'ia(参考訳) 本研究では、新型コロナウイルス(covid-19)パンデミック(covid-19)の近い将来の発展を予測するために、人口モデルと機械学習モデルのアンサンブルの適用性を評価する。 私たちは機械学習モデル(ランダムフォレスト、グラデーションブースティング、k-nearest近傍、カーネルリッジ回帰)に餌をやるために、入射率、ワクチン接種、人の移動性、気象データを使って、オープンデータセットとパブリックデータセットのみに頼っています。 インシデントデータを用いて、古典的な人口モデル(Gompertz、Logistic、Richards、Bertalanffy)を調整し、データの傾向をよりよく把握できるようにします。 次に、より堅牢で正確な予測を得るために、これらの2つのモデルのファミリーを組み立てます。 さらに,新たな特徴(ワクチン,移動性,気候条件)を追加することによって,機械学習モデルによる予測の改善が見られ,それぞれがShapley Additive Explanation値を用いて重要かを解析した。 他のモデリング作業と同様に、データと予測の品質にはいくつかの制限があります。 本研究は,これらのモデルのアンサンブル利用により,個々の予測(機械学習モデルのみ,あるいは人口モデルのみ)が向上し,関連するデータがないために構成モデルが利用できない場合に注意して適用可能であることを結論づける。

In this work we evaluate the applicability of an ensemble of population models and machine learning models to predict the near future evolution of the COVID-19 pandemic, with a particular use case in Spain. We rely solely in open and public datasets, fusing incidence, vaccination, human mobility and weather data to feed our machine learning models (Random Forest, Gradient Boosting, k-Nearest Neighbours and Kernel Ridge Regression). We use the incidence data to adjust classic population models (Gompertz, Logistic, Richards, Bertalanffy) in order to be able to better capture the trend of the data. We then ensemble these two families of models in order to obtain a more robust and accurate prediction. Furthermore, we have observed an improvement in the predictions obtained with machine learning models as we add new features (vaccines, mobility, climatic conditions), analyzing the importance of each of them using Shapley Additive Explanation values. As in any other modelling work, data and predictions quality have several limitations and therefore they must be seen from a critical standpoint, as we discuss in the text. Our work concludes that the ensemble use of these models improves the individual predictions (using only machine learning models or only population models) and can be applied, with caution, in cases when compartmental models cannot be utilized due to the lack of relevant data.
翻訳日:2022-07-14 12:25:53 公開日:2022-07-12
# 相互情報を用いた畳み込みニューラルネットワークの逆例と逆ロバスト性探索

Exploring Adversarial Examples and Adversarial Robustness of Convolutional Neural Networks by Mutual Information ( http://arxiv.org/abs/2207.05756v1 )

ライセンス: Link先を確認
Jiebao Zhang, Wenhua Qian, Rencan Nie, Jinde Cao, Dan Xu(参考訳) 畳み込みニューラルネットワーク(CNN)の直感的特性は、敵の例に固有の感受性であり、セキュリティクリティカルな分野におけるCNNの適用を著しく妨げている。 敵対的な例は元の例に似ているが、悪意のある摂動を含んでいる。 対人訓練は、CNNの堅牢性を改善するための単純で効果的な訓練方法である。 敵の例と敵の訓練の背後にあるメカニズムを探求する価値がある。 そこで本研究では,情報抽出における2種類のcnn(正規およびロバストの両方)の類似性と相違について,相互情報に対する傾向を観察することで検討する。 私たちはそれを示します 1) CNNが本来の事例から抽出した相互情報の量は, CNNが通常の訓練中であっても, 敵の訓練中であってもほぼ同様であり, 敵の事例がCNNを誤解させる理由として, 他のカテゴリに関するテクスチャベースの情報が多く含まれていることが挙げられる。 2) 通常の訓練に比べ, 対向訓練は困難であり, 頑健なcnnによる情報抽出量は少ない。 3)異なる手法で訓練されたcnnは、特定の種類の情報に対して異なる好みを持ち、通常訓練されたcnnは入力からテクスチャに基づく情報を抽出する傾向があり、反対に訓練されたモデルは形状に基づく情報を好む。 さらに,本研究では,カーネル密度推定法と結合法を用いて相互情報推定器の解析を行い,中間層の出力の幾何的特性をある程度概説した。

A counter-intuitive property of convolutional neural networks (CNNs) is their inherent susceptibility to adversarial examples, which severely hinders the application of CNNs in security-critical fields. Adversarial examples are similar to original examples but contain malicious perturbations. Adversarial training is a simple and effective training method to improve the robustness of CNNs to adversarial examples. The mechanisms behind adversarial examples and adversarial training are worth exploring. Therefore, this work investigates similarities and differences between two types of CNNs (both normal and robust ones) in information extraction by observing the trends towards the mutual information. We show that 1) the amount of mutual information that CNNs extract from original and adversarial examples is almost similar, whether CNNs are in normal training or adversarial training; the reason why adversarial examples mislead CNNs may be that they contain more texture-based information about other categories; 2) compared with normal training, adversarial training is more difficult and the amount of information extracted by the robust CNNs is less; 3) the CNNs trained with different methods have different preferences for certain types of information; normally trained CNNs tend to extract texture-based information from the inputs, while adversarially trained models prefer to shape-based information. Furthermore, we also analyze the mutual information estimators used in this work, kernel-density-estimation and binning methods, and find that these estimators outline the geometric properties of the middle layer's output to a certain extent.
翻訳日:2022-07-14 12:25:24 公開日:2022-07-12
# アプリケーション指向コンテキストにおけるディープラーニング手法による連続学習

Continual Learning with Deep Learning Methods in an Application-Oriented Context ( http://arxiv.org/abs/2207.06233v1 )

ライセンス: Link先を確認
Benedikt Pf\"ulb(参考訳) 抽象知識は多くのコンピュータベースのアプリケーションに深く根ざしている。 人工知能(AI)の重要な研究領域は、データから知識を自動的に導出することである。 機械学習は、そのアルゴリズムを提供する。 ある研究領域は、生物学的にインスパイアされた学習アルゴリズムの開発に焦点を当てている。 それぞれの機械学習手法は神経学的概念に基づいており、データから知識を体系的に導き出して保存することができる。 ディープニューラルネットワーク(Deep Neural Networks、DNN)とは、ディープラーニングモデルに分類される機械学習アルゴリズムの一種である。 DNNは、バックプロパゲーションアルゴリズムを用いてトレーニングされた複数の人工ニューロンからなる。 これらの深層学習手法は、高次元データから複雑な知識を推論し保存する素晴らしい能力を示す。 しかし、DNNは、新しい知識が既存のベースに追加されるのを防ぐ問題の影響を受けている。 知識を継続的に蓄積する能力は進化に寄与する重要な要素であり、従って強力なAIを開発するための前提条件である。 CF(catastrophic forgetting)効果と呼ばれるこの効果により、DNNは、新しいデータ分散に関する数回のトレーニングを繰り返した後、すぐに、既に派生した知識を緩めることができる。 過去の共同データ分布と新しいデータとのエネルギ的に高価な再トレーニングだけが、新しい知識全体の抽象化を可能にします。 この効果を克服するために、cf問題の緩和や解決を目標として、様々な技術が開発されており、現在も開発が続けられている。 これらのcf回避研究は、通常、様々な連続学習タスクへのアプローチの有効性を示唆している。 この論文は、ディープラーニング手法による継続的機械学習のコンテキストに設定されている。 最初の部分は ... の開発を扱う。

Abstract knowledge is deeply grounded in many computer-based applications. An important research area of Artificial Intelligence (AI) deals with the automatic derivation of knowledge from data. Machine learning offers the according algorithms. One area of research focuses on the development of biologically inspired learning algorithms. The respective machine learning methods are based on neurological concepts so that they can systematically derive knowledge from data and store it. One type of machine learning algorithms that can be categorized as "deep learning" model is referred to as Deep Neural Networks (DNNs). DNNs consist of multiple artificial neurons arranged in layers that are trained by using the backpropagation algorithm. These deep learning methods exhibit amazing capabilities for inferring and storing complex knowledge from high-dimensional data. However, DNNs are affected by a problem that prevents new knowledge from being added to an existing base. The ability to continuously accumulate knowledge is an important factor that contributed to evolution and is therefore a prerequisite for the development of strong AIs. The so-called "catastrophic forgetting" (CF) effect causes DNNs to immediately loose already derived knowledge after a few training iterations on a new data distribution. Only an energetically expensive retraining with the joint data distribution of past and new data enables the abstraction of the entire new set of knowledge. In order to counteract the effect, various techniques have been and are still being developed with the goal to mitigate or even solve the CF problem. These published CF avoidance studies usually imply the effectiveness of their approaches for various continual learning tasks. This dissertation is set in the context of continual machine learning with deep learning methods. The first part deals with the development of an ...
翻訳日:2022-07-14 12:23:26 公開日:2022-07-12
# 大きなアクション空間を持つコンテキスト帯域:実践的

Contextual Bandits with Large Action Spaces: Made Practical ( http://arxiv.org/abs/2207.05836v1 )

ライセンス: Link先を確認
Yinglun Zhu, Dylan J. Foster, John Langford, Paul Mineiro(参考訳) 逐次意思決定における中心的な問題は、実用的で計算効率が良く、柔軟な汎用モデルの使用をサポートするアルゴリズムを開発することである。 文脈的バンディット問題に焦点をあてて、近年の進歩は、可能な選択肢(アクション)の数が小さい場合に、証明可能な効率のよいアルゴリズムを提供するが、大きな連続的なアクション空間における意思決定の保証は未解決のままであり、理論と実践の間に大きなギャップが生じる。 本稿では,連続的かつ線形に構造化された行動空間を持つコンテキスト帯域に対する,最初の効率的汎用アルゴリズムを提案する。 我々のアルゴリズムは計算オラクルを利用する (i)指導学習、及び (ii)アクション空間を最適化し、アクション空間のサイズに依存しないサンプルの複雑さ、実行時、メモリを実現する。 加えて、シンプルで実用的です。 大規模な経験的評価を行い,本手法は標準ベースラインよりも性能と効率が優れていることを示す。

A central problem in sequential decision making is to develop algorithms that are practical and computationally efficient, yet support the use of flexible, general-purpose models. Focusing on the contextual bandit problem, recent progress provides provably efficient algorithms with strong empirical performance when the number of possible alternatives ("actions") is small, but guarantees for decision making in large, continuous action spaces have remained elusive, leading to a significant gap between theory and practice. We present the first efficient, general-purpose algorithm for contextual bandits with continuous, linearly structured action spaces. Our algorithm makes use of computational oracles for (i) supervised learning, and (ii) optimization over the action space, and achieves sample complexity, runtime, and memory independent of the size of the action space. In addition, it is simple and practical. We perform a large-scale empirical evaluation, and show that our approach typically enjoys superior performance and efficiency compared to standard baselines.
翻訳日:2022-07-14 12:23:04 公開日:2022-07-12
# 円滑な後悔を伴う文脈的バンディット:連続的行動空間における効率的な学習

Contextual Bandits with Smooth Regret: Efficient Learning in Continuous Action Spaces ( http://arxiv.org/abs/2207.05849v1 )

ライセンス: Link先を確認
Yinglun Zhu, Paul Mineiro(参考訳) 大規模な(あるいは連続)アクションスペースで動作する効率的な汎用コンテキストバンディットアルゴリズムを設計することで、情報検索やレコメンデーションシステム、継続的な制御といった重要なシナリオへのアプリケーションの適用が容易になる。 標準的な後悔の保証を得ることは望ましくないが、大きな行動設定に取り組むために別の後悔の概念が提案されている。 従来提案されていた代替案を優越する文脈的バンディットに対して,スムーズな後悔概念を提案する。 提案するスムーズな後悔のために,統計的かつ計算学的に効率的なアルゴリズムを設計する。 また,任意の滑らかさレベルに自動適応する適応アルゴリズムを提案する。 我々のアルゴリズムは、例えば、複数のベストアームを持つバンディット問題やリプシッツ/H{\"o}old banditsなどにおいて、標準的な後悔の下で、以前のminimax/Paretoの最適保証を回復するために使用できる。 提案アルゴリズムの有効性を示す大規模な実験評価を行う。

Designing efficient general-purpose contextual bandit algorithms that work with large -- or even continuous -- action spaces would facilitate application to important scenarios such as information retrieval, recommendation systems, and continuous control. While obtaining standard regret guarantees can be hopeless, alternative regret notions have been proposed to tackle the large action setting. We propose a smooth regret notion for contextual bandits, which dominates previously proposed alternatives. We design a statistically and computationally efficient algorithm -- for the proposed smooth regret -- that works with general function approximation under standard supervised oracles. We also present an adaptive algorithm that automatically adapts to any smoothness level. Our algorithms can be used to recover the previous minimax/Pareto optimal guarantees under the standard regret, e.g., in bandit problems with multiple best arms and Lipschitz/H{\"o}lder bandits. We conduct large-scale empirical evaluations demonstrating the efficacy of our proposed algorithms.
翻訳日:2022-07-14 12:22:48 公開日:2022-07-12
# 慢性関節リウマチマウスの免疫状態決定のための特徴選択アルゴリズムの利用

Employing Feature Selection Algorithms to Determine the Immune State of Mice with Rheumatoid Arthritis ( http://arxiv.org/abs/2207.05882v1 )

ライセンス: Link先を確認
Brendon K. Colbert, Joslyn L. Mangal, Aleksandr Talitckii, Abhinav P. Acharya and Matthew M. Peet(参考訳) 免疫応答は、体が抗原が自己であるか否かを判断するダイナミックなプロセスである。 この動的プロセスの状態は、この意思決定プロセスを構成する炎症性および規制的なアクターの相対的バランスと人口によって定義される。 関節リウマチ(ra)などに対する免疫療法の目標は、免疫状態の偏りを調節因子に委ねることであり、反応中の自己免疫経路を遮断することである。 免疫療法にはいくつかの既知のアプローチがあるが、治療の有効性は、この介入がこの状態の進化をどのように変化させるかに依存する。 残念ながら、このプロセスはプロセスのダイナミクスによって決定されるだけでなく、介入時のシステムの状態によって決定される。

The immune response is a dynamic process by which the body determines whether an antigen is self or nonself. The state of this dynamic process is defined by the relative balance and population of inflammatory and regulatory actors which comprise this decision making process. The goal of immunotherapy as applied to, e.g. Rheumatoid Arthritis (RA), then, is to bias the immune state in favor of the regulatory actors - thereby shutting down autoimmune pathways in the response. While there are several known approaches to immunotherapy, the effectiveness of the therapy will depend on how this intervention alters the evolution of this state. Unfortunately, this process is determined not only by the dynamics of the process, but the state of the system at the time of intervention - a state which is difficult if not impossible to determine prior to application of the therapy.
翻訳日:2022-07-14 12:22:33 公開日:2022-07-12
# earthformer: 地球系予測のための時空変圧器の探索

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting ( http://arxiv.org/abs/2207.05833v1 )

ライセンス: Link先を確認
Zhihan Gao, Xingjian Shi, Hao Wang, Yi Zhu, Yuyang Wang, Mu Li, Dit-Yan Yeung(参考訳) 従来、地球システム(例えば天気と気候)の予測は複雑な物理モデルによる数値シミュレーションに依存しているため、計算コストもドメインの専門知識も高い。 過去10年間の時空間地球観測データの爆発的な成長により、深層学習(DL)を応用したデータ駆動モデルは、様々な地球系予測タスクに顕著な可能性を示している。 新たなDLアーキテクチャとしてのTransformerは、他のドメインで広く成功したにもかかわらず、この分野では限定的に採用されている。 本稿では,地球系予測のための時空変圧器であるearthformerを提案する。 Earthformerは、Cuboid Attentionという、汎用的で柔軟で効率的な時空アテンションブロックに基づいている。 データをキュービイドに分解し、キュービイドレベルの自己アテンションを並列に適用する。 これらの立方体はさらに大域ベクトルの集合と結びついている。 我々は,移動MNISTデータセットと新たに提案されたカオスN体MNISTデータセットを用いて,立方体アテンションの有効性を検証し,アースフォーマの最適設計を明らかにする。 降水に関する2つの実世界のベンチマークとエルニーノ/南方振動(ENSO)予測の実験は、アースフォーマーが最先端のパフォーマンスを達成したことを示している。

Conventionally, Earth system (e.g., weather and climate) forecasting relies on numerical simulation with complex physical models and are hence both expensive in computation and demanding on domain expertise. With the explosive growth of the spatiotemporal Earth observation data in the past decade, data-driven models that apply Deep Learning (DL) are demonstrating impressive potential for various Earth system forecasting tasks. The Transformer as an emerging DL architecture, despite its broad success in other domains, has limited adoption in this area. In this paper, we propose Earthformer, a space-time Transformer for Earth system forecasting. Earthformer is based on a generic, flexible and efficient space-time attention block, named Cuboid Attention. The idea is to decompose the data into cuboids and apply cuboid-level self-attention in parallel. These cuboids are further connected with a collection of global vectors. We conduct experiments on the MovingMNIST dataset and a newly proposed chaotic N-body MNIST dataset to verify the effectiveness of cuboid attention and figure out the best design of Earthformer. Experiments on two real-world benchmarks about precipitation nowcasting and El Nino/Southern Oscillation (ENSO) forecasting show Earthformer achieves state-of-the-art performance.
翻訳日:2022-07-14 11:57:20 公開日:2022-07-12
# RcTorch: 自動ハイパーパラメータ最適化を備えたPyTorch貯留層計算パッケージ

RcTorch: a PyTorch Reservoir Computing Package with Automated Hyper-Parameter Optimization ( http://arxiv.org/abs/2207.05870v1 )

ライセンス: Link先を確認
Hayden Joy, Marios Mattheakis, Pavlos Protopapas(参考訳) 貯水池コンピュータ(rcs)は、他のリカレントニューラルネットワークと比較した場合、すべてのニューラルネットワークの中で最速のトレーニングである。 RCはシーケンシャルなデータを処理しながらも、この優位性を持っている。 しかし、RCの採用は、モデルがハイパーパラメータ(HPs)に敏感であるため、他のニューラルネットワークモデルを引き付けている。 これらのパラメータを自動的にチューニングする現代的な統一ソフトウェアパッケージは、文献に欠けている。 これらの数値を手動で調整することは極めて困難であり、従来のグリッド探索手法のコストは、考慮されたHPの数とともに指数関数的に増加し、RCの使用を妨げ、考案可能なRCモデルの複雑さを制限する。 PyTorchベースのRCニューラルネットワークパッケージであるRcTorchを導入し,HPの自動チューニングを実現する。 そこで本研究では,様々な力によって作用する駆動振り子の複雑なダイナミクスを予測し,rctorchの有用性を実証する。 この作品にはコーディングの例が含まれている。 例えば、python jupyter notebooksはgithubリポジトリhttps://github.com/blindedjoy/rctorchで、ドキュメントはhttps://rctorch.readthedocs.io/で閲覧できます。

Reservoir computers (RCs) are among the fastest to train of all neural networks, especially when they are compared to other recurrent neural networks. RC has this advantage while still handling sequential data exceptionally well. However, RC adoption has lagged other neural network models because of the model's sensitivity to its hyper-parameters (HPs). A modern unified software package that automatically tunes these parameters is missing from the literature. Manually tuning these numbers is very difficult, and the cost of traditional grid search methods grows exponentially with the number of HPs considered, discouraging the use of the RC and limiting the complexity of the RC models which can be devised. We address these problems by introducing RcTorch, a PyTorch based RC neural network package with automated HP tuning. Herein, we demonstrate the utility of RcTorch by using it to predict the complex dynamics of a driven pendulum being acted upon by varying forces. This work includes coding examples. Example Python Jupyter notebooks can be found on our GitHub repository https://github.com/blindedjoy/RcTorch and documentation can be found at https://rctorch.readthedocs.io/.
翻訳日:2022-07-14 11:56:22 公開日:2022-07-12
# 学習型GAN圧縮を用いたビデオ符号化

Video Coding Using Learned Latent GAN Compression ( http://arxiv.org/abs/2207.04324v2 )

ライセンス: Link先を確認
Mustafa Shukor, Bharath Bhushan Damodaran, Xu Yao, Pierre Hellier(参考訳) 本稿では,顔映像圧縮の新しいパラダイムを提案する。 我々は、StyleGANのようなGANの生成能力を活用して、イントラ圧縮やインター圧縮を含むビデオの表現と圧縮を行う。 各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。 そのため、画像符号化にエントロピーモデルを最適化できる正規化フローモデルを用いて、二相的潜在表現を学習する。 さらに,他のものよりも効率のよい新たな知覚的損失を提案する。 最後に、予め構築した潜在表現において、残差を有するビデオインターコーディングのためのエントロピーモデルも学習する。 我々の手法(SGANC)は,VTMやAV1といった最先端のコーデックや,最近のディープラーニング技術と比較して,画像やビデオの符号化において,シンプルで高速な訓練結果が得られる。 特に、低ビットレートでの知覚歪みを劇的に最小化する。

We propose in this paper a new paradigm for facial video compression. We leverage the generative capacity of GANs such as StyleGAN to represent and compress a video, including intra and inter compression. Each frame is inverted in the latent space of StyleGAN, from which the optimal compression is learned. To do so, a diffeomorphic latent representation is learned using a normalizing flows model, where an entropy model can be optimized for image coding. In addition, we propose a new perceptual loss that is more efficient than other counterparts. Finally, an entropy model for video inter coding with residual is also learned in the previously constructed latent representation. Our method (SGANC) is simple, faster to train, and achieves better results for image and video coding compared to state-of-the-art codecs such as VTM, AV1, and recent deep learning techniques. In particular, it drastically minimizes perceptual distortion at low bit rates.
翻訳日:2022-07-14 11:34:12 公開日:2022-07-12
# 適応クリッピングによる(ほぼ)最適プライベート線形回帰

(Nearly) Optimal Private Linear Regression via Adaptive Clipping ( http://arxiv.org/abs/2207.04686v2 )

ライセンス: Link先を確認
Prateek Varshney, Abhradeep Thakurta, Prateek Jain(参考訳) 本研究では,各データポイントを固定サブガウシアン分布からサンプリングした微分プライベート線形回帰問題について検討する。 我々は,各イテレーションのポイントを置換せずにサンプリングした1パスミニバッチ確率勾配降下法(dp-ambssgd)を提案し,解析する。 DPにはノイズが追加されるが、ノイズ標準偏差はオンラインで推定される。 サブ最適誤差境界を持つ既存の$(\epsilon, \delta)$-dp技術と比較して、dp-ambssgdは、次元$d$、点数$n$、観測におけるノイズの標準偏差$\sigma$といった重要なパラメータの観点で、ほぼ最適な誤差境界を提供できる。 例えば、通常の分布から$d$次元の共変体をサンプリングする場合、プライバシーによるDP-AMBSSGDの過大な誤差は$\frac{\sigma^2 d}{N}(1+\frac{d}{\epsilon^2 N})$、つまり、サンプル数$N= \Omega(d \log d)$が線形回帰の標準的な操作規則であるときに有意である。 対照的に、この設定における既存の効率的なメソッドの誤差境界は、$\mathcal{O}\big(\frac{d^3}{\epsilon^2 N^2}\big)$, even for $\sigma=0$である。 つまり、定数$\epsilon$の場合、既存のテクニックは非自明な結果を与えるために$N=\Omega(d\sqrt{d})$を必要とする。

We study the problem of differentially private linear regression where each data point is sampled from a fixed sub-Gaussian style distribution. We propose and analyze a one-pass mini-batch stochastic gradient descent method (DP-AMBSSGD) where points in each iteration are sampled without replacement. Noise is added for DP but the noise standard deviation is estimated online. Compared to existing $(\epsilon, \delta)$-DP techniques which have sub-optimal error bounds, DP-AMBSSGD is able to provide nearly optimal error bounds in terms of key parameters like dimensionality $d$, number of points $N$, and the standard deviation $\sigma$ of the noise in observations. For example, when the $d$-dimensional covariates are sampled i.i.d. from the normal distribution, then the excess error of DP-AMBSSGD due to privacy is $\frac{\sigma^2 d}{N}(1+\frac{d}{\epsilon^2 N})$, i.e., the error is meaningful when number of samples $N= \Omega(d \log d)$ which is the standard operative regime for linear regression. In contrast, error bounds for existing efficient methods in this setting are: $\mathcal{O}\big(\frac{d^3}{\epsilon^2 N^2}\big)$, even for $\sigma=0$. That is, for constant $\epsilon$, the existing techniques require $N=\Omega(d\sqrt{d})$ to provide a non-trivial result.
翻訳日:2022-07-14 11:33:58 公開日:2022-07-12
# (参考訳) 畳み込みニューラルネットワークの逆入力に対する再訓練の誘導

Guiding the retraining of convolutional neural networks against adversarial inputs ( http://arxiv.org/abs/2207.03689v2 )

ライセンス: CC BY 4.0
Francisco Dur\'an L\'opez, Silverio Mart\'inez-Fern\'andez, Michael Felderer and Xavier Franch(参考訳) 背景: ディープラーニングモデルを使用する場合、多くの脆弱性があり、最も懸念されているのは、逆入力である。 したがって、これらの入力に対する脆弱性に対処するソフトウェアテストプロセスの一部として、これらのモデルを再訓練する必要がある。 さらに、エネルギー効率のよいテストと再トレーニングのために、データサイエンティストは最高のガイダンスメトリクスと最適なデータセット設定をサポートする必要がある。 Aims: 畳み込みニューラルネットワークのトレーニングのための4つのガイダンス指標と3つのトレーニング構成を検討した。 本研究の目的は,画像分類の文脈におけるデータサイエンティストの視点から,精度,資源利用,時間に関する敵対的入力に対するモデルを改善することである。 方法: 2つのデータセットを用いた画像分類実験を行った。 探索します (a)4つの異なる指導指標(ニューロンカバレッジ、確率ベースサプライズ適性、距離ベースサプライズ適性、ランダム)で設定された新しい訓練を発注することにより、畳み込みニューラルネットワークの再訓練の正確性、資源利用、時間 b)3つの異なる構成(スクラッチと拡張データセット、重みと拡張データセット、重みと逆入力のみ)による畳み込みニューラルネットワークのリトレーニングの正確性とリソース利用。 結果: 元の重みから逆入力で再トレーニングし, 予期せぬ精度の指標で順序付けすることで, 使用済みメトリクスで最高のモデルが得られることがわかった。 結論: より多くの研究が必要であるが、データサイエンティストは、多くの入力を使わずに、敵対的な入力に対するモデルを改善することができるため、深層学習モデルの敵対的な入力に対する脆弱性に対処するために、上記の構成とメトリクスを使用することを推奨する。

Background: When using deep learning models, there are many possible vulnerabilities and some of the most worrying are the adversarial inputs, which can cause wrong decisions with minor perturbations. Therefore, it becomes necessary to retrain these models against adversarial inputs, as part of the software testing process addressing the vulnerability to these inputs. Furthermore, for an energy efficient testing and retraining, data scientists need support on which are the best guidance metrics and optimal dataset configurations. Aims: We examined four guidance metrics for retraining convolutional neural networks and three retraining configurations. Our goal is to improve the models against adversarial inputs regarding accuracy, resource utilization and time from the point of view of a data scientist in the context of image classification. Method: We conducted an empirical study in two datasets for image classification. We explore: (a) the accuracy, resource utilization and time of retraining convolutional neural networks by ordering new training set by four different guidance metrics (neuron coverage, likelihood-based surprise adequacy, distance-based surprise adequacy and random), (b) the accuracy and resource utilization of retraining convolutional neural networks with three different configurations (from scratch and augmented dataset, using weights and augmented dataset, and using weights and only adversarial inputs). Results: We reveal that retraining with adversarial inputs from original weights and by ordering with surprise adequacy metrics gives the best model w.r.t. the used metrics. Conclusions: Although more studies are necessary, we recommend data scientists to use the above configuration and metrics to deal with the vulnerability to adversarial inputs of deep learning models, as they can improve their models against adversarial inputs without using many inputs.
翻訳日:2022-07-14 09:01:20 公開日:2022-07-12
# (参考訳) 光流予測のための深部ネットワークによる輝度の補間

Complementing Brightness Constancy with Deep Networks for Optical Flow Prediction ( http://arxiv.org/abs/2207.03790v2 )

ライセンス: CC BY 4.0
Vincent Le Guen, Cl\'ement Rambour, Nicolas Thome(参考訳) 光フロー推定の最先端手法は、実世界のデータで最適な性能に達するために複雑な逐次トレーニングスキームを必要とするディープラーニングに依存している。 本稿では,従来の手法で使用される輝度定数モデル(bc)を明示的に活用した,コンボ深層ネットワークを提案する。 BCはいくつかの状況において近似物理モデルに反するので,データ駆動型ネットワークを補完する物理的制約付きネットワークを訓練することを提案する。 我々は,BCモデルの不確実な定量化を含む,物理前駆体とデータ駆動補体の間に一意かつ有意義な流れ分解を導入する。 最適協調を保証する分解の異なる構成要素を学習するための共同学習手法を教師ありながら半教師あり文脈でも導出する。 実験の結果、COMBOは最先端の監視ネットワーク(RAFTなど)の性能を改善し、いくつかのベンチマークで最先端の結果を得ることができた。 COMBOがBCモデルをどのように活用し、その制限に適応できるかを強調します。 最後に,本手法は訓練手順を大幅に単純化できることを示す。

State-of-the-art methods for optical flow estimation rely on deep learning, which require complex sequential training schemes to reach optimal performances on real-world data. In this work, we introduce the COMBO deep network that explicitly exploits the brightness constancy (BC) model used in traditional methods. Since BC is an approximate physical model violated in several situations, we propose to train a physically-constrained network complemented with a data-driven network. We introduce a unique and meaningful flow decomposition between the physical prior and the data-driven complement, including an uncertainty quantification of the BC model. We derive a joint training scheme for learning the different components of the decomposition ensuring an optimal cooperation, in a supervised but also in a semi-supervised context. Experiments show that COMBO can improve performances over state-of-the-art supervised networks, e.g. RAFT, reaching state-of-the-art results on several benchmarks. We highlight how COMBO can leverage the BC model and adapt to its limitations. Finally, we show that our semi-supervised method can significantly simplify the training procedure.
翻訳日:2022-07-14 07:56:56 公開日:2022-07-12
# (参考訳) AIとUSPTOオープンデータの最新動向

Recent Developments in AI and USPTO Open Data ( http://arxiv.org/abs/2207.05239v1 )

ライセンス: CC BY 4.0
Scott Beliveau, Jerry Ma(参考訳) USPTOは、世界中の科学、技術、商業データの公開可能な最大のリポジトリの1つである。 USPTOデータは歴史的に特許分析、経済学、訴追・訴訟ツールなどの分野で頻繁に利用されている。 本稿では,人工知能技術の研究,開発,応用に向け,新たな種類のユースケースを紹介する。 このようなユースケースは、実用的なIPアプリケーションのための人工知能機能の提供と、USPTOデータ製品による最先端の人工知能研究の実現の両方を念頭に置いている。 uspto内外からの例がケーススタディとして提供されている。

The USPTO disseminates one of the largest publicly accessible repositories of scientific, technical, and commercial data worldwide. USPTO data has historically seen frequent use in fields such as patent analytics, economics, and prosecution & litigation tools. This article highlights an emerging class of usecases directed to the research, development, and application of artificial intelligence technology. Such usecases contemplate both the delivery of artificial intelligence capabilities for practical IP applications and the enablement of future state-of-the-art artificial intelligence research via USPTO data products. Examples from both within and beyond the USPTO are offered as case studies.
翻訳日:2022-07-14 03:04:09 公開日:2022-07-12
# (参考訳) 非パラメトリックモーメント法による状態空間モデルにおける観測関数の教師なし学習

Unsupervised learning of observation functions in state-space models by nonparametric moment methods ( http://arxiv.org/abs/2207.05242v1 )

ライセンス: CC BY 4.0
Qingci An, Yannis Kevrekidis, Fei Lu, Mauro Maggioni(参考訳) 非線形状態空間モデルにおける非可逆観測関数の教師なし学習について検討する。 観測過程の豊富なデータと状態過程の分布を仮定し、非パラメトリック一般化モーメント法を導入し、制約付き回帰を用いて観測関数を推定する。 主な課題は、観測関数の非可逆性と、状態と観測の間のデータペアの欠如にある。 二次損失汎関数からの識別可能性の根本的な問題に対処し、その汎函数空間が状態過程に固有のRKHSの閉包であることを示す。 数値的な結果から、最初の2つのモーメントと時間的相関は、上界と下界とともに、分割多項式から滑らかな関数まで幅広い関数を識別でき、収束推定子に繋がることが示された。 この方法の限界、例えば対称性と定常性による非識別性についても論じる。

We investigate the unsupervised learning of non-invertible observation functions in nonlinear state-space models. Assuming abundant data of the observation process along with the distribution of the state process, we introduce a nonparametric generalized moment method to estimate the observation function via constrained regression. The major challenge comes from the non-invertibility of the observation function and the lack of data pairs between the state and observation. We address the fundamental issue of identifiability from quadratic loss functionals and show that the function space of identifiability is the closure of a RKHS that is intrinsic to the state process. Numerical results show that the first two moments and temporal correlations, along with upper and lower bounds, can identify functions ranging from piecewise polynomials to smooth functions, leading to convergent estimators. The limitations of this method, such as non-identifiability due to symmetry and stationarity, are also discussed.
翻訳日:2022-07-14 02:55:08 公開日:2022-07-12
# (参考訳) 適応時空間サンプリングを用いた人間の視覚誘発行動認識

Efficient Human Vision Inspired Action Recognition using Adaptive Spatiotemporal Sampling ( http://arxiv.org/abs/2207.05249v1 )

ライセンス: CC BY 4.0
Khoi-Nguyen C. Mac, Minh N. Do, Minh P. Vo(参考訳) ビデオの時空間的冗長性を利用する適応サンプリングは、コンピューティングとバッテリーリソースの制限のあるウェアラブルデバイスにおける常時オンアクション認識に不可欠である。 一般的に使われる固定サンプリング戦略は文脈認識ではなく、視覚コンテンツを過小評価する可能性があるため、計算効率と精度の両方に悪影響を及ぼす。 本稿では,人間の視覚知覚機構からのフォビア視覚の概念と事前接触処理に着想を得て,効率的な行動認識のための適応時空間サンプリングスキームを提案する。 本システムでは,グローバルシーンのコンテキストを低解像度で事前にスキャンし,高精細な領域で高精細度機能をスキップしたり要求したりする。 動作認識のためのEPIC-KITCHENSおよびUCF-101データセット上でのシステム検証を行い,提案手法により,最先端のベースラインに比べて精度の低下が許容できることを示す。

Adaptive sampling that exploits the spatiotemporal redundancy in videos is critical for always-on action recognition on wearable devices with limited computing and battery resources. The commonly used fixed sampling strategy is not context-aware and may under-sample the visual content, and thus adversely impacts both computation efficiency and accuracy. Inspired by the concepts of foveal vision and pre-attentive processing from the human visual perception mechanism, we introduce a novel adaptive spatiotemporal sampling scheme for efficient action recognition. Our system pre-scans the global scene context at low-resolution and decides to skip or request high-resolution features at salient regions for further processing. We validate the system on EPIC-KITCHENS and UCF-101 datasets for action recognition, and show that our proposed approach can greatly speed up inference with a tolerable loss of accuracy compared with those from state-of-the-art baselines.
翻訳日:2022-07-14 02:19:33 公開日:2022-07-12
# (参考訳) 言語に基づく因果表現学習

Language-Based Causal Representation Learning ( http://arxiv.org/abs/2207.05259v1 )

ライセンス: CC BY 4.0
Blai Bonet and Hector Geffner(参考訳) エージェントがパッケージをピックアップしてドロップする長方形グリッドに移動する、単純で離散的な動的システムから生じる有限状態グラフを考えてみましょう。 問題の状態変数、すなわちエージェントの場所とパッケージの場所は、オブジェクトや状態の構造、あるいはバックグラウンド知識に関する情報にアクセスすることなく、状態グラフの構造からのみ回収できるだろうか? これは、ダイナミクスが、未知と仮定されるオブジェクトと関係を囲む適切なドメインに依存しない一階の因果言語から学べるならば可能であることを示す。 データと互換性のある言語でもっともコンパクトな表現を好むことは、これを可能にする強力で有意義な学習バイアスをもたらす。 構造化因果モデル(scms)の言語は(静的な)因果モデルを表現するための標準言語であるが、オブジェクトが人口する動的世界では、"古典的なai計画"で使われるような一階の因果言語が必要である。 古典的AI」は手作りの表現を必要とするが、同じ言語上の非構造化データから同様の表現を学ぶことができる。 実際、世界の構造を提供し、対象、関係、原因を明らかにする言語とそれらの言語のコンパクト表現の好みである。

Consider the finite state graph that results from a simple, discrete, dynamical system in which an agent moves in a rectangular grid picking up and dropping packages. Can the state variables of the problem, namely, the agent location and the package locations, be recovered from the structure of the state graph alone without having access to information about the objects, the structure of the states, or any background knowledge? We show that this is possible provided that the dynamics is learned over a suitable domain-independent first-order causal language that makes room for objects and relations that are not assumed to be known. The preference for the most compact representation in the language that is compatible with the data provides a strong and meaningful learning bias that makes this possible. The language of structured causal models (SCMs) is the standard language for representing (static) causal models but in dynamic worlds populated by objects, first-order causal languages such as those used in "classical AI planning" are required. While "classical AI" requires handcrafted representations, similar representations can be learned from unstructured data over the same languages. Indeed, it is the languages and the preference for compact representations in those languages that provide structure to the world, uncovering objects, relations, and causes.
翻訳日:2022-07-14 01:58:50 公開日:2022-07-12
# (参考訳) PLM-ICD:事前学習言語モデルを用いた自動ICD符号化

PLM-ICD: Automatic ICD Coding with Pretrained Language Models ( http://arxiv.org/abs/2207.05289v1 )

ライセンス: CC BY 4.0
Chao-Wei Huang, Shang-Chi Tsai, Yun-Nung Chen(参考訳) 電子健康記録(EHR)を診断コードに自動分類することは、NLPコミュニティにとって困難である。 最先端手法はこの問題をマルチラベル分類問題として扱い、この問題をモデル化するための様々なアーキテクチャを提案した。 しかし、これらのシステムは、自然言語理解タスクにおいて最高性能を達成した事前学習言語モデルの最高性能を生かしていない。 事前の作業では、事前学習された言語モデルは、通常の微調整スキームでこのタスクに過小評価されていることが示されている。 そこで本研究では,性能低下の原因を分析し,事前学習言語モデルを用いた自動ICD符号化のためのフレームワークを開発することを目的とする。 実験で3つの主な問題を発見しました 1)大きなラベルスペース、 2)長い入力シーケンス、および 3)事前訓練と微調整のドメインミスマッチ。 様々な戦略で課題に取り組むためのフレームワークであるPLMICDを提案する。 実験結果は,提案フレームワークが課題を克服し,ベンチマーク・ミイト・データにおける複数のメトリクスを用いて最先端のパフォーマンスを実現することを示す。 ソースコードはhttps://github.com/MiuLab/PLM-ICDで入手できる。

Automatically classifying electronic health records (EHRs) into diagnostic codes has been challenging to the NLP community. State-of-the-art methods treated this problem as a multilabel classification problem and proposed various architectures to model this problem. However, these systems did not leverage the superb performance of pretrained language models, which achieved superb performance on natural language understanding tasks. Prior work has shown that pretrained language models underperformed on this task with the regular finetuning scheme. Therefore, this paper aims at analyzing the causes of the underperformance and developing a framework for automatic ICD coding with pretrained language models. We spotted three main issues through the experiments: 1) large label space, 2) long input sequences, and 3) domain mismatch between pretraining and fine-tuning. We propose PLMICD, a framework that tackles the challenges with various strategies. The experimental results show that our proposed framework can overcome the challenges and achieves state-of-the-art performance in terms of multiple metrics on the benchmark MIMIC data. The source code is available at https://github.com/MiuLab/PLM-ICD
翻訳日:2022-07-14 01:42:10 公開日:2022-07-12
# (参考訳) フルスライド画像のための信頼度マルチスケール分類フレームワーク

Trusted Multi-Scale Classification Framework for Whole Slide Image ( http://arxiv.org/abs/2207.05290v1 )

ライセンス: CC BY 4.0
Ming Feng, Kele Xu, Nanhui Wu, Weiquan Huang, Yan Bai, Changjian Wang and Huaimin Wang(参考訳) 顕著な努力にもかかわらず、ギガピクセル全体スライディング画像(WSI)の分類は、スライド全体の制約された計算資源から厳しく制限されているか、あるいは異なるスケールからの知識の活用が制限されている。 さらに、以前の試みのほとんどは不確実性推定の能力に欠けていた。 病理学者はしばしば、異なる拡大からwsiを共同分析する。 病理学者が単一の倍率を用いて不確かであれば、その倍率を何度も変えて組織の様々な特徴を発見する。 本稿では,病理学者の診断プロセスに動機づけられ,wsiの信頼性の高いマルチスケール分類フレームワークを提案する。 マルチブランチのバックボーンとして視覚トランスフォーマーを利用することで,モデリングを共同で分類し,顕微鏡の各倍率の不確かさを推定し,異なる倍率からのエビデンスを統合する。 さらに,WSIの識別パッチを利用して計算資源の要求を減らし,アテンションロールアウトと非最大抑制を用いた新しいパッチ選択スキーマを提案する。 提案手法の有効性を実証的に検証するために,2つのベンチマークデータベースを用いてwsi分類タスクで実験を行った。 その結果、信頼されたフレームワークは最新手法と比較してwsi分類性能を大幅に向上できることが示唆された。

Despite remarkable efforts been made, the classification of gigapixels whole-slide image (WSI) is severely restrained from either the constrained computing resources for the whole slides, or limited utilizing of the knowledge from different scales. Moreover, most of the previous attempts lacked of the ability of uncertainty estimation. Generally, the pathologists often jointly analyze WSI from the different magnifications. If the pathologists are uncertain by using single magnification, then they will change the magnification repeatedly to discover various features of the tissues. Motivated by the diagnose process of the pathologists, in this paper, we propose a trusted multi-scale classification framework for the WSI. Leveraging the Vision Transformer as the backbone for multi branches, our framework can jointly classification modeling, estimating the uncertainty of each magnification of a microscope and integrate the evidence from different magnification. Moreover, to exploit discriminative patches from WSIs and reduce the requirement for computation resources, we propose a novel patch selection schema using attention rollout and non-maximum suppression. To empirically investigate the effectiveness of our approach, empirical experiments are conducted on our WSI classification tasks, using two benchmark databases. The obtained results suggest that the trusted framework can significantly improve the WSI classification performance compared with the state-of-the-art methods.
翻訳日:2022-07-14 01:28:00 公開日:2022-07-12
# (参考訳) 固有値上昇による断線グラフのエッジ拡張

Edge Augmentation on Disconnected Graphs via Eigenvalue Elevation ( http://arxiv.org/abs/2207.05301v1 )

ライセンス: CC BY 4.0
Tianyi Li(参考訳) 切り離されたサブグラフのコミュニティ内接続に基づいてコミュニティ間エッジを決定するグラフ理論的タスクを提案する。 グラフスペクトルのゼロ固有値の上昇に基づいて,このエッジ拡張タスクのためのアルゴリズムを開発した。 固有値上昇振幅と対応する拡張エッジ密度の上限を導出し、ランダムグラフ上のシミュレーションにより認証する。 このアルゴリズムは合成ネットワークと実ネットワークで一貫して動作し、グラフコンポーネントを接続するのに望ましいパフォーマンスをもたらす。 異なるコミュニティ検出法 (Girvan-Newman法, greedy modularity maximization, label propagation, Louvain法, fluid community) の下でエッジ拡張リバースエンジニアリンググラフ分割を行う場合, コミュニティ間エッジを50%の周波数で生成する場合が多い。

The graph-theoretical task of determining most likely inter-community edges based on disconnected subgraphs' intra-community connectivity is proposed. An algorithm is developed for this edge augmentation task, based on elevating the zero eigenvalues of graph's spectrum. Upper bounds for eigenvalue elevation amplitude and for the corresponding augmented edge density are derived and are authenticated with simulation on random graphs. The algorithm works consistently across synthetic and real networks, yielding desirable performance at connecting graph components. Edge augmentation reverse-engineers graph partition under different community detection methods (Girvan-Newman method, greedy modularity maximization, label propagation, Louvain method, and fluid community), in most cases producing inter-community edges at >50% frequency.
翻訳日:2022-07-14 01:15:03 公開日:2022-07-12
# (参考訳) フェアネスの因果概念とその原因

Causal Conceptions of Fairness and their Consequences ( http://arxiv.org/abs/2207.05302v1 )

ライセンス: CC BY 4.0
Hamed Nilforoshan, Johann Gaebler, Ravi Shroff, Sharad Goel(参考訳) 最近の研究は、公平な意思決定アルゴリズムの設計における因果関係の役割を強調している。 しかし、フェアネスの既存の因果概念が互いにどう関係しているか、あるいはこれらの定義を設計原則として使用する結果がどのようなものであるかは、すぐには明らかではない。 ここでは,アルゴリズムフェアネスの一般的な因果的定義を,(1)反現実的格差に対する決定の影響を制限するもの,(2)人種や性別といった法的に保護された特徴が決定に与える影響を制限するもの,の2つに分類する。 次に、分析的かつ実証的に、両方の定義の族が -- 測定理論的な意味で -- 強いパレートの支配的な決定政策をもたらすことを示し、つまり、大きな自然クラスから引き出された選好を持つ利害関係者に好まれる代替的で拘束力のない政策が存在することを示します。 例えば、大学の入学決定の場合、因果的公平性の定義を満たすために制約された政策は、学術的準備と多様性の両方に対して中立的または肯定的な選好を持つすべての利害関係者によって不利になる。 実際、因果フェアネスの明確な定義の下では、学術的資格やグループメンバーシップに関係なく、すべての学生に同じ確率で受け入れる必要があることが証明されている。 本研究は, 因果公正性の数学的概念の形式的限界と潜在的な悪影響を明らかにするものである。

Recent work highlights the role of causality in designing equitable decision-making algorithms. It is not immediately clear, however, how existing causal conceptions of fairness relate to one another, or what the consequences are of using these definitions as design principles. Here, we first assemble and categorize popular causal definitions of algorithmic fairness into two broad families: (1) those that constrain the effects of decisions on counterfactual disparities; and (2) those that constrain the effects of legally protected characteristics, like race and gender, on decisions. We then show, analytically and empirically, that both families of definitions \emph{almost always} -- in a measure theoretic sense -- result in strongly Pareto dominated decision policies, meaning there is an alternative, unconstrained policy favored by every stakeholder with preferences drawn from a large, natural class. For example, in the case of college admissions decisions, policies constrained to satisfy causal fairness definitions would be disfavored by every stakeholder with neutral or positive preferences for both academic preparedness and diversity. Indeed, under a prominent definition of causal fairness, we prove the resulting policies require admitting all students with the same probability, regardless of academic qualifications or group membership. Our results highlight formal limitations and potential adverse consequences of common mathematical notions of causal fairness.
翻訳日:2022-07-14 01:02:16 公開日:2022-07-12
# (参考訳) cpo:ロバストなパノラマをポイントクラウドローカライズに変更

CPO: Change Robust Panorama to Point Cloud Localization ( http://arxiv.org/abs/2207.05317v1 )

ライセンス: CC BY 4.0
Junho Kim, Hojun Jang, Changwoon Choi, and Young Min Kim(参考訳) 2dパノラマを、おそらく変化を含むシーンの3dポイントクラウドに対してローカライズする、高速でロバストなアルゴリズムであるcpoを提案する。 本手法は,シーン変化に頑健に対処するため,従来の特徴点マッチングから逸脱し,パノラマ画像から提供される空間的コンテキストに焦点をあてる。 具体的には,スコアマップを用いた効率的なカラーヒストグラム生成とそれに続くロバスト定位を提案する。 球面投影の特異な均一性を利用して,多数のカメラポーズに対して,候補ポーズの画像を明示的にレンダリングすることなく,非常に高速なカラーヒストグラム生成を提案する。 我々は,パノラマとポイントクラウドの地域的一貫性を2d/3dスコアマップとして蓄積し,入力カラー値の重み付けに用いた。 重み付き色分布は素早く良い初期条件を見つけ、勾配に基づく最適化のための安定した収束を達成する。 cpoは軽量で、テストされたすべてのシナリオにおいて効果的なローカライズを実現し、シーンの変更や繰り返し構造、機能のない領域に関わらず安定したパフォーマンスを示す。

We present CPO, a fast and robust algorithm that localizes a 2D panorama with respect to a 3D point cloud of a scene possibly containing changes. To robustly handle scene changes, our approach deviates from conventional feature point matching, and focuses on the spatial context provided from panorama images. Specifically, we propose efficient color histogram generation and subsequent robust localization using score maps. By utilizing the unique equivariance of spherical projections, we propose very fast color histogram generation for a large number of camera poses without explicitly rendering images for all candidate poses. We accumulate the regional consistency of the panorama and point cloud as 2D/3D score maps, and use them to weigh the input color values to further increase robustness. The weighted color distribution quickly finds good initial poses and achieves stable convergence for gradient-based optimization. CPO is lightweight and achieves effective localization in all tested scenarios, showing stable performance despite scene changes, repetitive structures, or featureless regions, which are typical challenges for visual localization with perspective cameras.
翻訳日:2022-07-14 01:00:53 公開日:2022-07-12
# (参考訳) 視覚言語事前学習のためのオンラインマルチラベル認識によるテキスト多様性の向上

IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training ( http://arxiv.org/abs/2207.05333v1 )

ライセンス: CC BY 4.0
Xinyu Huang, Youcai Zhang, Ying Cheng, Weiwei Tian, Ruiwei Zhao, Rui Feng, Yuejie Zhang, Yaqian Li, Yandong Guo, Xiaobo Zhang(参考訳) 大規模画像テキストペアを用いたVLP(Vision-Language Pre-Training)は,様々な分野で優れた性能を示した。 しかし、画像とテキストのペアは、通常、VLPに最適である明示的なアライメント情報を欠いている。 画像タグ情報を活用するために、既製の物体検出装置を採用する方法が提案されている。 しかし、オブジェクト検出器は時間を要するため、事前定義されたオブジェクトカテゴリのみを識別でき、モデルの容量を制限できる。 テキストに不完全な細かな画像情報が含まれているという観察に触発されて,vlpのオンラインマルチラベル認識によるテキスト多様性の増大を意味するideaを紹介する。 IDEAは、テキストから抽出した画像タグを用いたマルチラベル学習を、VLP中に共同で最適化可能であることを示す。 さらにIDEAは、オンラインで貴重なイメージタグを識別して、より明確なテキスト管理を提供する。 包括的な実験によって、複数のダウンストリームデータセットのパフォーマンスを、少ない計算コストで大幅に向上させることができることが示されている。

Vision-Language Pre-training (VLP) with large-scale image-text pairs has demonstrated superior performance in various fields. However, the image-text pairs co-occurrent on the Internet typically lack explicit alignment information, which is suboptimal for VLP. Existing methods proposed to adopt an off-the-shelf object detector to utilize additional image tag information. However, the object detector is time-consuming and can only identify the pre-defined object categories, limiting the model capacity. Inspired by the observation that the texts incorporate incomplete fine-grained image information, we introduce IDEA, which stands for increasing text diversity via online multi-label recognition for VLP. IDEA shows that multi-label learning with image tags extracted from the texts can be jointly optimized during VLP. Moreover, IDEA can identify valuable image tags online to provide more explicit textual supervision. Comprehensive experiments demonstrate that IDEA can significantly boost the performance on multiple downstream datasets with a small extra computational cost.
翻訳日:2022-07-14 00:45:15 公開日:2022-07-12
# (参考訳) CP3: Pretrain-Prompt-Predict Paradigmによるポイントクラウド補完の統合

CP3: Unifying Point Cloud Completion by Pretrain-Prompt-Predict Paradigm ( http://arxiv.org/abs/2207.05359v1 )

ライセンス: CC BY 4.0
Mingye Xu, Yali Wang, Yihao Liu, Yu Qiao(参考訳) ポイント雲の完成は、部分的な観測から完全な形状を予測することを目的としている。 現在のアプローチは主に粗大なスタイルで生成および改良段階で構成されている。 しかしながら、生成段階は異なる不完全な変化に取り組むための堅牢性に欠けることが多いが、改良段階は意味的な認識なしに点雲を盲目的に回復する。 これらの課題に対処するため、ポイントクラウドコンプリートを汎用的なPretrain-Prompt-Predictパラダイム、すなわちCP3で統一する。 NLPからのアプローチをきっかけに、我々はそれぞれ、プロンプトと予測段階として、ポイントクラウドの生成と改善を創造的に再解釈した。 そして,提案前に,簡潔な自己教師付き事前学習ステージを導入する。 incompletion-of-incompletion (ioi) プリテキストタスクによって、ポイントクラウド生成のロバスト性が効果的に向上する。 さらに,予測段階において,SCR(Semantic Conditional Refinement)ネットワークを新たに構築する。 セマンティクスのガイダンスにより、マルチスケールな洗練度を判別的に調節することができる。 最後に、広範な実験により、cp3は最先端のメソッドよりも大きなマージンで優れています。

Point cloud completion aims to predict complete shape from its partial observation. Current approaches mainly consist of generation and refinement stages in a coarse-to-fine style. However, the generation stage often lacks robustness to tackle different incomplete variations, while the refinement stage blindly recovers point clouds without the semantic awareness. To tackle these challenges, we unify point cloud Completion by a generic Pretrain-Prompt-Predict paradigm, namely CP3. Inspired by prompting approaches from NLP, we creatively reinterpret point cloud generation and refinement as the prompting and predicting stages, respectively. Then, we introduce a concise self-supervised pretraining stage before prompting. It can effectively increase robustness of point cloud generation, by an Incompletion-Of-Incompletion (IOI) pretext task. Moreover, we develop a novel Semantic Conditional Refinement (SCR) network at the predicting stage. It can discriminatively modulate multi-scale refinement with the guidance of semantics. Finally, extensive experiments demonstrate that our CP3 outperforms the state-of-the-art methods with a large margin.
翻訳日:2022-07-14 00:26:44 公開日:2022-07-12
# (参考訳) 塩分マップ推定における勾配重みの影響再考

Rethinking gradient weights' influence over saliency map estimation ( http://arxiv.org/abs/2207.05374v1 )

ライセンス: CC BY 4.0
Masud An Nur Islam Fahim, Nazmus Saqib, Shafkat Khan Siam, Ho Yub Jung(参考訳) クラスアクティベーションマップ(CAM)は、ディープニューラルネットワークの予測を解釈するのに役立つサリエンシマップの定式化を支援する。 勾配に基づく手法は一般に、視覚解釈の他の分野よりも高速であり、人間の指導とは無関係である。 CAMライクな研究のパフォーマンスは、支配モデルの層応答と勾配の影響に依存する。 典型的な勾配指向cam研究は、勾配写像を単一の重み値に投影することで、塩分マップの推定のために重み付き凝集に依存する。 この問題に対処するために、我々はグローバルガイダンスマップを用いて、塩分濃度推定時の重み付けアグリゲーション操作の修正を行い、結果の解釈は比較的クリーンなerとインスタンス固有である。 特徴写像と対応する勾配写像を要素的に乗算することで,グローバルガイダンスマップを得る。 本研究の妥当性を検証するために,提案手法を8種類のサリエンシービジュアライザと比較した。 さらに,7つの評価指標を用いて定量的比較を行った。 提案手法は,ImageNet, MS-COCO 14, PASCAL VOC 2012データセットから得られたテスト画像よりも大幅に改善されている。

Class activation map (CAM) helps to formulate saliency maps that aid in interpreting the deep neural network's prediction. Gradient-based methods are generally faster than other branches of vision interpretability and independent of human guidance. The performance of CAM-like studies depends on the governing model's layer response, and the influences of the gradients. Typical gradient-oriented CAM studies rely on weighted aggregation for saliency map estimation by projecting the gradient maps into single weight values, which may lead to over generalized saliency map. To address this issue, we use a global guidance map to rectify the weighted aggregation operation during saliency estimation, where resultant interpretations are comparatively clean er and instance-specific. We obtain the global guidance map by performing elementwise multiplication between the feature maps and their corresponding gradient maps. To validate our study, we compare the proposed study with eight different saliency visualizers. In addition, we use seven commonly used evaluation metrics for quantitative comparison. The proposed scheme achieves significant improvement over the test images from the ImageNet, MS-COCO 14, and PASCAL VOC 2012 datasets.
翻訳日:2022-07-14 00:04:33 公開日:2022-07-12
# (参考訳) 動的照明補正とデュアルビューセマンティクス融合による創傷分節

Wound Segmentation with Dynamic Illumination Correction and Dual-view Semantic Fusion ( http://arxiv.org/abs/2207.05388v1 )

ライセンス: CC BY 4.0
Honghui Liu, Changjian Wang, Kele Xu, Fangzhao Li, Ming Feng, Yuxing Peng and Hongjun He(参考訳) 創部イメージセグメンテーションは, 臨床診断と創傷のリアルタイム治療において重要な要素である。 近年,深層学習が創傷画像セグメンテーションの主流となっている。 しかし、トレーニングフェーズ前には、照明補正などの創傷画像の事前処理が必要であり、性能が大幅に向上する。 深層モデルの補正手順と訓練は互いに独立しており、全ての画像に固定照明補正が適さないため、準最適セグメンテーション性能をもたらす。 上記の問題に対処するために,学習可能な照明補正モジュールを深部セグメンテーションモデルに組み込むことにより,エンドツーエンドのデュアルビューセグメンテーション手法を提案する。 モジュールのパラメータはトレーニングステージ中に自動的に学習および更新でき、デュアルビュー融合はrawイメージと拡張されたイメージの両方の機能を完全に活用することができる。 提案手法の有効性とロバスト性を示すため,ベンチマークデータセットを用いて広範な実験を行った。 その結果,最先端手法と比較して,セグメンテーション性能が大幅に向上する可能性が示唆された。

Wound image segmentation is a critical component for the clinical diagnosis and in-time treatment of wounds. Recently, deep learning has become the mainstream methodology for wound image segmentation. However, the pre-processing of the wound image, such as the illumination correction, is required before the training phase as the performance can be greatly improved. The correction procedure and the training of deep models are independent of each other, which leads to sub-optimal segmentation performance as the fixed illumination correction may not be suitable for all images. To address aforementioned issues, an end-to-end dual-view segmentation approach was proposed in this paper, by incorporating a learn-able illumination correction module into the deep segmentation models. The parameters of the module can be learned and updated during the training stage automatically, while the dual-view fusion can fully employ the features from both the raw images and the enhanced ones. To demonstrate the effectiveness and robustness of the proposed framework, the extensive experiments are conducted on the benchmark datasets. The encouraging results suggest that our framework can significantly improve the segmentation performance, compared to the state-of-the-art methods.
翻訳日:2022-07-13 23:54:09 公開日:2022-07-12
# (参考訳) 知識凝縮蒸留

Knowledge Condensation Distillation ( http://arxiv.org/abs/2207.05409v1 )

ライセンス: CC BY 4.0
Chenxin Li, Mingbao Lin, Zhiyuan Ding, Nie Lin, Yihong Zhuang, Yue Huang, Xinghao Ding, Liujuan Cao(参考訳) 知識蒸留(KD)は、高能力の教師ネットワークから知識を伝達し、より小さな学生を強化する。 既存の手法では、知識のヒントを抽出し、知識全体を学生に転送することに焦点を当てている。 しかし、知識の冗長性は、知識が異なる学習段階の学生に異なる価値を示すため生じる。 本稿では,知識凝縮蒸留(KCD)を提案する。 具体的には、各サンプルの知識値を動的に推定し、期待最大化(em)フレームワークを鍛造して教師からのコンパクトな知識セットを反復的に凝縮して学生学習を指導する。 我々のアプローチは、既製のKDメソッドの上に構築しやすく、追加のトレーニングパラメータや無視可能な計算オーバーヘッドがない。 そこで本研究では,教師の知識を積極的に認識し,その適性に合わせた学習を効果的かつ効率的に行うkdの新しい視点を提案する。 標準ベンチマーク実験により, 提案するkcdはより高蒸留効率で学生モデルの性能を向上できることがわかった。 コードはhttps://github.com/dzy3/KCDで入手できる。

Knowledge Distillation (KD) transfers the knowledge from a high-capacity teacher network to strengthen a smaller student. Existing methods focus on excavating the knowledge hints and transferring the whole knowledge to the student. However, the knowledge redundancy arises since the knowledge shows different values to the student at different learning stages. In this paper, we propose Knowledge Condensation Distillation (KCD). Specifically, the knowledge value on each sample is dynamically estimated, based on which an Expectation-Maximization (EM) framework is forged to iteratively condense a compact knowledge set from the teacher to guide the student learning. Our approach is easy to build on top of the off-the-shelf KD methods, with no extra training parameters and negligible computation overhead. Thus, it presents one new perspective for KD, in which the student that actively identifies teacher's knowledge in line with its aptitude can learn to learn more effectively and efficiently. Experiments on standard benchmarks manifest that the proposed KCD can well boost the performance of student model with even higher distillation efficiency. Code is available at https://github.com/dzy3/KCD.
翻訳日:2022-07-13 23:39:20 公開日:2022-07-12
# (参考訳) 画像キャプションにおける分布外例検出のためのベースライン

A Baseline for Detecting Out-of-Distribution Examples in Image Captioning ( http://arxiv.org/abs/2207.05418v1 )

ライセンス: CC BY 4.0
Gabi Shalev, Gal-Lev Shalev, Joseph Keshet(参考訳) 画像キャプション研究は近年,トレーニング画像と同じ分布から抽出された画像に対して,多種多様な高品質な記述を生成するニューラルモデルを開発することで,画期的な成果を上げている。 しかし、腐敗した画像や未知のオブジェクトを含む画像など、分布外(ood)のイメージに直面すると、モデルは関連するキャプションを生成することに失敗する。 本稿では,画像キャプションにおけるOOD検出の問題点について考察する。 問題を定式化し、そのタスクにおけるモデルの性能を評価するための評価設定を提案する。 そして,OOD画像の検出と拒否におけるキャプションの確率スコアの有効性を分析し,その結果から,入力画像と生成されたキャプションの関連性がスコア内にカプセル化されていることを示す。

Image captioning research achieved breakthroughs in recent years by developing neural models that can generate diverse and high-quality descriptions for images drawn from the same distribution as training images. However, when facing out-of-distribution (OOD) images, such as corrupted images, or images containing unknown objects, the models fail in generating relevant captions. In this paper, we consider the problem of OOD detection in image captioning. We formulate the problem and suggest an evaluation setup for assessing the model's performance on the task. Then, we analyze and show the effectiveness of the caption's likelihood score at detecting and rejecting OOD images, which implies that the relatedness between the input image and the generated caption is encapsulated within the score.
翻訳日:2022-07-13 23:21:25 公開日:2022-07-12
# (参考訳) UniNet: 畳み込み、トランスフォーマー、MLPを備えた統一アーキテクチャ検索

UniNet: Unified Architecture Search with Convolution, Transformer, and MLP ( http://arxiv.org/abs/2207.05420v1 )

ライセンス: CC BY 4.0
Jihao Liu and Xin Huang and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 近年,変圧器と多層パーセプトロン (MLP) アーキテクチャは様々な視覚タスクにおいて印象的な成果を上げている。 しかし、これらの演算子を効果的に組み合わせてハイパフォーマンスなハイブリッドビジュアルアーキテクチャを構築する方法は依然として課題である。 本研究では,新しいアーキテクチャ探索手法を提案することにより,畳み込み,トランスフォーマー,MLPの学習可能な組み合わせについて検討する。 提案手法には,高性能ネットワークの探索を実現するための2つの重要な設計が含まれている。 まず、非常に異なる検索可能な演算子を統一した形式でモデル化することで、演算子を同じ構成パラメータで特徴付けることができる。 このようにして、検索スペース全体のサイズが大幅に削減され、検索コストの合計が安価になる。 第2に,異なる種類の演算子間のギャップを軽減するために,コンテキスト認識型ダウンサンプリングモジュール(dsms)を提案する。 提案したDSMは,高性能ハイブリッドアーキテクチャの同定に重要な,さまざまなタイプの演算子の特徴を適応させることができる。 最後に、構成可能な演算子とDSMを統一検索空間に統合し、強化学習に基づく探索アルゴリズムを用いて演算子の最適組み合わせを探索する。 この目的のために,ベースラインネットワークを探索し,UniNetと呼ばれるモデル群をスケールアップし,従来のConvNetやTransformerよりもはるかに精度と効率のよいモデル群を得る。 特に、私たちのUniNet-B5は、ImageNetの84.9%のトップ-1精度を達成し、それぞれ44%と55%のFLOPで効率の良いNet-B7とBoTNet-T7を上回った。 ImageNet-21Kで事前トレーニングを行うことで、UniNet-B6は87.4%を達成し、51%のFLOP、41%のパラメータでSwin-Lを上回った。 コードはhttps://github.com/Sense-X/UniNetで入手できる。

Recently, transformer and multi-layer perceptron (MLP) architectures have achieved impressive results on various vision tasks. However, how to effectively combine those operators to form high-performance hybrid visual architectures still remains a challenge. In this work, we study the learnable combination of convolution, transformer, and MLP by proposing a novel unified architecture search approach. Our approach contains two key designs to achieve the search for high-performance networks. First, we model the very different searchable operators in a unified form, and thus enable the operators to be characterized with the same set of configuration parameters. In this way, the overall search space size is significantly reduced, and the total search cost becomes affordable. Second, we propose context-aware downsampling modules (DSMs) to mitigate the gap between the different types of operators. Our proposed DSMs are able to better adapt features from different types of operators, which is important for identifying high-performance hybrid architectures. Finally, we integrate configurable operators and DSMs into a unified search space and search with a Reinforcement Learning-based search algorithm to fully explore the optimal combination of the operators. To this end, we search a baseline network and scale it up to obtain a family of models, named UniNets, which achieve much better accuracy and efficiency than previous ConvNets and Transformers. In particular, our UniNet-B5 achieves 84.9% top-1 accuracy on ImageNet, outperforming EfficientNet-B7 and BoTNet-T7 with 44% and 55% fewer FLOPs respectively. By pretraining on the ImageNet-21K, our UniNet-B6 achieves 87.4%, outperforming Swin-L with 51% fewer FLOPs and 41% fewer parameters. Code is available at https://github.com/Sense-X/UniNet.
翻訳日:2022-07-13 23:07:03 公開日:2022-07-12
# (参考訳) 位置ベースモデルによる確率帯域と逆帯域の同時学習

Simultaneously Learning Stochastic and Adversarial Bandits under the Position-Based Model ( http://arxiv.org/abs/2207.05437v1 )

ライセンス: CC BY 4.0
Cheng Chen, Canzhe Zhao, Shuai Li(参考訳) オンラインラーニング・トゥ・ランク(oltr)は、ユーザーのクリック行動を記述する特定のクリックモデルに基づいて、大きなコレクションからアイテムのリストを選択することをインタラクティブに学習する。 この問題に対する最近の研究は、学習過程においてアイテムの魅力が不変であると仮定される確率的環境に焦点を当てている。 しかし、多くの現実世界のシナリオでは、環境は動的あるいは任意に変化する可能性がある。 本研究は,位置ベースモデル(PBM)の下での確率的・対角的環境におけるOLTR問題を研究する。 本稿では,Tsallisエントロピーを用いたフォロー・ザ・レギュラライズド・リーダー(FTRL)フレームワークに基づく手法を提案する。 提案アルゴリズムは,確率的環境では$o(\log{t})$ regretと,敵対的環境では$o(m\sqrt{nt})$ regretを同時に達成できることを証明し,$t$はラウンド数,$n$はアイテム数,$m$は位置数である。 また、逆数 PBM の次数 $\Omega(m\sqrt{nT})$ の下位境界も提供します。 実験の結果,本アルゴリズムは確率環境と逆環境の両方で同時に学習でき,単一環境向けに設計された既存手法と比較して競合性が高いことがわかった。

Online learning to rank (OLTR) interactively learns to choose lists of items from a large collection based on certain click models that describe users' click behaviors. Most recent works for this problem focus on the stochastic environment where the item attractiveness is assumed to be invariant during the learning process. In many real-world scenarios, however, the environment could be dynamic or even arbitrarily changing. This work studies the OLTR problem in both stochastic and adversarial environments under the position-based model (PBM). We propose a method based on the follow-the-regularized-leader (FTRL) framework with Tsallis entropy and develop a new self-bounding constraint especially designed for PBM. We prove the proposed algorithm simultaneously achieves $O(\log{T})$ regret in the stochastic environment and $O(m\sqrt{nT})$ regret in the adversarial environment, where $T$ is the number of rounds, $n$ is the number of items and $m$ is the number of positions. We also provide a lower bound of order $\Omega(m\sqrt{nT})$ for adversarial PBM, which matches our upper bound and improves over the state-of-the-art lower bound. The experiments show that our algorithm could simultaneously learn in both stochastic and adversarial environments and is competitive compared to existing methods that are designed for a single environment.
翻訳日:2022-07-13 22:48:03 公開日:2022-07-12
# (参考訳) 神経進化アプローチの逆ロバスト性評価

Adversarial Robustness Assessment of NeuroEvolution Approaches ( http://arxiv.org/abs/2207.05451v1 )

ライセンス: CC BY 4.0
In\^es Valentim, Nuno Louren\c{c}o, Nuno Antunes(参考訳) NeuroEvolutionは、進化計算のテクニックの適用を通じて、ニューラルネットワークの生成を自動化する。 これらのアプローチの主な目標は、予測性能を最大化するモデルを構築することである。 進化したモデルは性能面では競合する結果をもたらすが、敵の例に対する堅牢性は、セキュリティクリティカルなシナリオの懸念となっている。 本稿では,CIFAR-10画像分類タスクであるDENSERとNSGA-Netの2つの顕著なNeuroEvolutionアプローチによって得られたモデルの対角的ロバスト性を評価する。 モデルが公開されているので、L2またはLinfinity-normによって摂動が束縛される、ホワイトボックスの未標的攻撃を考える。 手動で設計したネットワークと同様に,進化したモデルが反復的な手法で攻撃される場合,その精度は通常,両方の距離測定値の下でゼロに低下する。 DENSERモデルは、この傾向の例外であり、L2脅威モデルの下では、その精度は反復攻撃でも93.70%から18.10%に低下している。 さらに,ネットワークの第1層前におけるデータに対する前処理の影響を解析した。 これらの手法のいくつかは、元の入力に付加された摂動を悪化させ、堅牢性を損なう可能性があることを示唆している。 したがって、敵攻撃が発生しやすいアプリケーションのネットワークを自動設計する場合、この選択は無視すべきではない。

NeuroEvolution automates the generation of Artificial Neural Networks through the application of techniques from Evolutionary Computation. The main goal of these approaches is to build models that maximize predictive performance, sometimes with an additional objective of minimizing computational complexity. Although the evolved models achieve competitive results performance-wise, their robustness to adversarial examples, which becomes a concern in security-critical scenarios, has received limited attention. In this paper, we evaluate the adversarial robustness of models found by two prominent NeuroEvolution approaches on the CIFAR-10 image classification task: DENSER and NSGA-Net. Since the models are publicly available, we consider white-box untargeted attacks, where the perturbations are bounded by either the L2 or the Linfinity-norm. Similarly to manually-designed networks, our results show that when the evolved models are attacked with iterative methods, their accuracy usually drops to, or close to, zero under both distance metrics. The DENSER model is an exception to this trend, showing some resistance under the L2 threat model, where its accuracy only drops from 93.70% to 18.10% even with iterative attacks. Additionally, we analyzed the impact of pre-processing applied to the data before the first layer of the network. Our observations suggest that some of these techniques can exacerbate the perturbations added to the original inputs, potentially harming robustness. Thus, this choice should not be neglected when automatically designing networks for applications where adversarial attacks are prone to occur.
翻訳日:2022-07-13 22:06:52 公開日:2022-07-12
# (参考訳) IMG-NILM:エネルギー熱マップを用いた深層学習NILMアプローチ

IMG-NILM: A Deep learning NILM approach using energy heatmaps ( http://arxiv.org/abs/2207.05463v1 )

ライセンス: CC BY 4.0
Jonah Edmonds, Zahraa S. Abdallah(参考訳) エネルギー格差は、家庭全体の電力需要を測定する1メートルから家電製品毎の電力消費量を見積もる。 侵入型ロード監視と比較して、nilm(non-intrusive load monitoring)は低コストで、デプロイが容易で、柔軟性がある。 本稿では、畳み込みニューラルネットワーク(CNN)を用いて、画像として表現される電気データを分解する新しい方法、IGG-NILMを提案する。 CNNは画像で効率的であることが証明されているため、従来の電気データを時系列として表現するのではなく、データは「熱い」色として表現された高い電気の読み出しを持つヒートマップに変換される。 画像表現はcnnで使われ、集約されたデータからアプライアンスのシグネチャを検出する。 IMG-NILMは柔軟であり、単一および複数状態を含む様々な種類のアプライアンスを分離する際の一貫した性能を示す。 1つの住宅内の英国デールデータセットでは、テスト精度が最大93%に達し、相当数の家電製品が存在する。 異なる家から電気データを収集するより困難な環境では、IMG-NILMは平均85%の精度も達成している。

Energy disaggregation estimates appliance-by-appliance electricity consumption from a single meter that measures the whole home's electricity demand. Compared with intrusive load monitoring, NILM (Non-intrusive load monitoring) is low cost, easy to deploy, and flexible. In this paper, we propose a new method, coined IMG-NILM, that utilises convolutional neural networks (CNN) to disaggregate electricity data represented as images. CNN is proven to be efficient with images, hence, instead of the traditional representation of electricity data as time series, data is transformed into heatmaps with higher electricity readings portrayed as 'hotter' colours. The image representation is then used in CNN to detect the signature of an appliance from aggregated data. IMG-NILM is flexible and shows consistent performance in disaggregating various types of appliances; including single and multiple states. It attains a test accuracy of up to 93% on the UK dale dataset within a single house, where a substantial number of appliances are present. In more challenging settings where electricity data is collected from different houses, IMG-NILM attains also a very good average accuracy of 85%.
翻訳日:2022-07-13 21:47:36 公開日:2022-07-12
# (参考訳) Sliced-Wasserstein正規化フロー:最大極大トレーニングを超えて

Sliced-Wasserstein normalizing flows: beyond maximum likelihood training ( http://arxiv.org/abs/2207.05468v1 )

ライセンス: CC BY 4.0
Florentin Coeurdoux and Nicolas Dobigeon and Pierre Chainais(参考訳) それらの利点にもかかわらず、正規化フローは一般に非現実的なデータ(例えば画像)を生成する傾向や、分布外データの検出に失敗する傾向など、いくつかの欠点に悩まされる。 これらの欠陥の1つの理由は、伝統的に最大度原理のみを利用するトレーニング戦略にある。 本稿では,mle(maximum likelihood principle)とslicd-wasserstein距離を組み合わせたハイブリッド目的関数に基づく新しい学習パラダイムを提案する。 合成玩具の例と実画像データセットから得られた結果は、生成したサンプルの確率と視覚的な側面の両方において、より良い生成能力を示す。 逆に,提案手法は分布外データの可能性が低くなり,結果の流れの忠実度が向上することを示す。

Despite their advantages, normalizing flows generally suffer from several shortcomings including their tendency to generate unrealistic data (e.g., images) and their failing to detect out-of-distribution data. One reason for these deficiencies lies in the training strategy which traditionally exploits a maximum likelihood principle only. This paper proposes a new training paradigm based on a hybrid objective function combining the maximum likelihood principle (MLE) and a sliced-Wasserstein distance. Results obtained on synthetic toy examples and real image data sets show better generative abilities in terms of both likelihood and visual aspects of the generated samples. Reciprocally, the proposed approach leads to a lower likelihood of out-of-distribution data, demonstrating a greater data fidelity of the resulting flows.
翻訳日:2022-07-13 21:37:43 公開日:2022-07-12
# (参考訳) 水中画像改善のための知覚品質指標の限界について

On the limits of perceptual quality measures for enhanced underwater images ( http://arxiv.org/abs/2207.05470v1 )

ライセンス: CC BY 4.0
Chau Yi Li, Andrea Cavallaro(参考訳) 水中画像における物体の出現は、光の選択的減衰によって劣化し、コントラストを減少させ、カラーキャストを引き起こす。 この劣化は水環境に依存し、深さやカメラからの距離によって増加する。 水中画像の強調と復元における作業量の増加にもかかわらず、一般的に受け入れられている評価尺度の欠如は、手法の比較が困難であるため、進歩を妨げている。 本稿では,色再現誤差やCIEDE2000,UIQM,UCIQE,CCFなど,まだ体系的に検証されていない非参照画像品質対策について概説する。 本研究は,水中画像の画質を十分に評価し,その主な欠点を考察するものではないことを示す。 画像と結果はhttps://puiqe.eecs.qmul.ac.uk.com/で確認できる。

The appearance of objects in underwater images is degraded by the selective attenuation of light, which reduces contrast and causes a colour cast. This degradation depends on the water environment, and increases with depth and with the distance of the object from the camera. Despite an increasing volume of works in underwater image enhancement and restoration, the lack of a commonly accepted evaluation measure is hindering the progress as it is difficult to compare methods. In this paper, we review commonly used colour accuracy measures, such as colour reproduction error and CIEDE2000, and no-reference image quality measures, such as UIQM, UCIQE and CCF, which have not yet been systematically validated. We show that none of the no-reference quality measures satisfactorily rates the quality of enhanced underwater images and discuss their main shortcomings. Images and results are available at https://puiqe.eecs.qmul.ac.uk.
翻訳日:2022-07-13 21:32:29 公開日:2022-07-12
# (参考訳) 画像暗号化のための新しい保守的カオス駆動動的DNA符号化

A novel conservative chaos driven dynamic DNA coding for image encryption ( http://arxiv.org/abs/2207.05475v1 )

ライセンス: CC BY 4.0
Vinod Patidar and Gurpreet Kaur(参考訳) 本稿では、画像暗号化のための新しい保守的なカオス標準地図駆動動的DNA符号化(エンコーディング、加算、減算、復号化)を提案する。 提案した画像暗号化アルゴリズムは、動的DNA符号化アルゴリズムであり、例えば、各画素の符号化、加算/減算、復号等の異なる規則を、保守的なカオス標準写像の助けを借りて生成された擬似ランダムシーケンスに基づいてランダムに選択する。 本稿では, 疑似ランダム性テストスイートであるNISTテストスイートを用いて, 画像暗号化アルゴリズムで使用する前に, 保守的なカオス標準写像を用いて擬似ランダム性を生成する新しい方法を提案する。 画像暗号化アルゴリズムは,一意なフィードフォワードとフィードバック機構を組み込んで,プレーン画像の各画素の暗号化にさらに使用される動的ワンタイム画素を生成し,修正することで,プレーンテキストや暗号文に対して所望の感度をもたらす。 アルゴリズムで使用される疑似乱数列はすべて、カオスマップのイテレート(生成過程)を通じて相互依存性を持つパラメータ(秘密鍵の一部)の異なる値に対して生成され、したがって極端に鍵感受性を持つ。 ヒストグラム解析,相関解析,情報エントロピー解析,DNAシークエンスに基づく解析,知覚的品質解析,キー感度分析,プレーンテキスト感度分析などを通じて,パフォーマンスとセキュリティ分析を幅広く実施し,様々な共通暗号解析攻撃に対するアルゴリズムの堅牢性を証明する。

In this paper, we propose a novel conservative chaotic standard map-driven dynamic DNA coding (encoding, addition, subtraction and decoding) for the image encryption. The proposed image encryption algorithm is a dynamic DNA coding algorithm i.e., for the encryption of each pixel different rules for encoding, addition/subtraction, decoding etc. are randomly selected based on the pseudorandom sequences generated with the help of the conservative chaotic standard map. We propose a novel way to generate pseudo-random sequences through the conservative chaotic standard map and also test them rigorously through the most stringent test suite of pseudo-randomness, the NIST test suite, before using them in the proposed image encryption algorithm. Our image encryption algorithm incorporates a unique feed-forward and feedback mechanisms to generate and modify the dynamic one-time pixels that are further used for the encryption of each pixel of the plain image, therefore, bringing in the desired sensitivity on plaintext as well as ciphertext. All the controlling pseudorandom sequences used in the algorithm are generated for a different value of the parameter (part of the secret key) with inter-dependency through the iterates of the chaotic map (in the generation process) and therefore possess extreme key sensitivity too. The performance and security analysis has been executed extensively through histogram analysis, correlation analysis, information entropy analysis, DNA sequence-based analysis, perceptual quality analysis, key sensitivity analysis, plaintext sensitivity analysis, etc., The results are promising and prove the robustness of the algorithm against various common cryptanalytic attacks.
翻訳日:2022-07-13 21:23:33 公開日:2022-07-12
# (参考訳) VertXNet:脊髄X線画像からの腰椎・頚椎の自動分離と同定

VertXNet: Automatic Segmentation and Identification of Lumbar and Cervical Vertebrae from Spinal X-ray Images ( http://arxiv.org/abs/2207.05476v1 )

ライセンス: CC BY 4.0
Yao Chen and Yuanhan Mo and Aimee Readie and Gregory Ligozio and Thibaud Coroller and Bartlomiej W. Papiez(参考訳) 脊椎X線画像における脊椎のマニュアルアノテーションは骨形状の複雑さと画像品質の変化により費用と時間を要する。 本研究では, 脊椎X線画像における椎骨の自動分割とラベル付けのためのVertXNetというアンサンブル手法を提案する。 VertXNetは2つの最先端セグメンテーションモデル、すなわちU-NetとMask R-CNNを組み合わせて脊椎セグメンテーションを改善する。 VertXNetの主な特徴は、与えられた脊椎X線画像上のMask R-CNN成分(「参照」椎骨を検出するために訓練された)により、脊椎のラベルを推測することである。 ankylosing spondylitis (as) 症例の頚椎外側および腰椎x線撮影におけるvertxnetの有用性について検討した。 以上の結果から,vertxnetは脊柱x線を正確に表示できることが判明した。 人間の専門家によるレビューを必要とせず、注釈付き椎骨の欠如を回避できる。 このステップは、ほとんどの計算画像プロジェクトにおいて共通のボトルネックであるセグメンテーションの欠如を解決することで臨床関連を調査するために重要である。

Manual annotation of vertebrae on spinal X-ray imaging is costly and time-consuming due to bone shape complexity and image quality variations. In this study, we address this challenge by proposing an ensemble method called VertXNet, to automatically segment and label vertebrae in X-ray spinal images. VertXNet combines two state-of-the-art segmentation models, namely U-Net and Mask R-CNN to improve vertebrae segmentation. A main feature of VertXNet is to also infer vertebrae labels thanks to its Mask R-CNN component (trained to detect 'reference' vertebrae) on a given spinal X-ray image. VertXNet was evaluated on an in-house dataset of lateral cervical and lumbar X-ray imaging for ankylosing spondylitis (AS) patients. Our results show that VertXNet can accurately label spinal X-rays (mean Dice of 0.9). It can be used to circumvent the lack of annotated vertebrae without requiring human expert review. This step is crucial to investigate clinical associations by solving the lack of segmentation, a common bottleneck for most computational imaging projects.
翻訳日:2022-07-13 20:59:13 公開日:2022-07-12
# (参考訳) 強化学習における一般化のための表現の時間的分散

Temporal Disentanglement of Representations for Improved Generalisation in Reinforcement Learning ( http://arxiv.org/abs/2207.05480v1 )

ライセンス: CC BY 4.0
Mhairi Dunion, Trevor McInroe, Kevin Luck, Josiah Hanna, Stefano V. Albrecht(参考訳) 実世界のロボット工学では、強化学習(rl)エージェントは訓練中に観察されなかった環境変化に一般化できないことが多い。 この問題は、背景色のような1つの変数の変化が画像内の多くのピクセルを変更でき、また、エージェントの内部表現のすべての値を変更できる画像ベースRLに対して強化される。 よりロバストな表現を学習するために,RL観測の逐次的性質を用いた自己教師付き補助タスクであるTEPORAL Disentanglement(TED)を導入する。 TEDを補助タスクとするRLアルゴリズムは、最先端の表現学習法と比較して、継続トレーニングによる環境変数の変化により迅速に適応する。 表象の歪んだ構造のため、TEDで訓練されたポリシーは、タスク(例えば背景色)に無関係な変数の値や、最適なポリシー(例えばゴール位置)に影響を与える変数の未表示値をより一般化する。

In real-world robotics applications, Reinforcement Learning (RL) agents are often unable to generalise to environment variations that were not observed during training. This issue is intensified for image-based RL where a change in one variable, such as the background colour, can change many pixels in the image, and in turn can change all values in the agent's internal representation of the image. To learn more robust representations, we introduce TEmporal Disentanglement (TED), a self-supervised auxiliary task that leads to disentangled representations using the sequential nature of RL observations. We find empirically that RL algorithms with TED as an auxiliary task adapt more quickly to changes in environment variables with continued training compared to state-of-the-art representation learning methods. Due to the disentangled structure of the representation, we also find that policies trained with TED generalise better to unseen values of variables irrelevant to the task (e.g. background colour) as well as unseen values of variables that affect the optimal policy (e.g. goal positions).
翻訳日:2022-07-13 20:56:08 公開日:2022-07-12
# (参考訳) CorrI2P: ディエンス対応によるディープイメージツーポイントクラウド登録

CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence ( http://arxiv.org/abs/2207.05483v1 )

ライセンス: CC BY 4.0
Siyu Ren, Yiming Zeng, Junhui Hou and Xiaodong Chen(参考訳) 対応する3d点クラウドに2d画像をローカライズするクリティカルステップが、それらの間の2d-3d対応を確立するという直感性に動機づけられ、corri2pと呼ばれる3つのモジュール、すなわち特徴埋め込み、対称重複領域検出、および確立された対応による推定からなる画像対ポイントクラウド登録問題に対処するための、最初の機能ベースの高密度対応フレームワークを提案する。 具体的には、一対の2次元画像と3次元点雲が与えられた場合、まずそれらを高次元の特徴空間に変換し、得られた特徴を対称重畳領域検出器に供給し、画像と点雲が重なり合う領域を決定する。 次に、重なり合う領域の特徴を用いて、RANSAC内でEPnPを実行する前に2D-3D対応を確立する。 KITTIとNuScenesのデータセットの実験結果から,我々のCorrI2Pは最先端のイメージ・ツー・ポイントのクラウド登録方法よりも優れていた。 私たちはそのコードを公開します。

Motivated by the intuition that the critical step of localizing a 2D image in the corresponding 3D point cloud is establishing 2D-3D correspondence between them, we propose the first feature-based dense correspondence framework for addressing the image-to-point cloud registration problem, dubbed CorrI2P, which consists of three modules, i.e., feature embedding, symmetric overlapping region detection, and pose estimation through the established correspondence. Specifically, given a pair of a 2D image and a 3D point cloud, we first transform them into high-dimensional feature space and feed the resulting features into a symmetric overlapping region detector to determine the region where the image and point cloud overlap each other. Then we use the features of the overlapping regions to establish the 2D-3D correspondence before running EPnP within RANSAC to estimate the camera's pose. Experimental results on KITTI and NuScenes datasets show that our CorrI2P outperforms state-of-the-art image-to-point cloud registration methods significantly. We will make the code publicly available.
翻訳日:2022-07-13 20:37:59 公開日:2022-07-12
# (参考訳) ハイブリッドアテンションに基づくグラフ畳み込みネットワークを用いた人体行動認識

Skeletal Human Action Recognition using Hybrid Attention based Graph Convolutional Network ( http://arxiv.org/abs/2207.05493v1 )

ライセンス: CC BY 4.0
Hao Xing, Darius Burschka(参考訳) スケルトンに基づく行動認識において、グラフ畳み込みネットワークは人間の骨格関節を頂点としてモデル化し、それらを隣接マトリックスを介して接続する。 しかし、既存のほとんどのグラフ畳み込みネットワークでは、局所的な注意マスクは人間の骨格関節の自然な接続に基づいて定義されており、頭、手、足関節などの動的関係を無視している。 また,注意機構は自然言語処理や画像記述において有効であることが証明されており,既存の手法ではめったに研究されていない。 本研究では,相対的距離と相対的角度情報に基づいて局所的注意マップをグローバルに拡張する適応型空間的注意層を提案する。 さらに,頭,手,足を結ぶ新しい初期グラフ隣接行列を設計し,行動認識精度の点で目に見える改善点を示す。 提案モデルは,ntu-rgb+dとkinetics skeletonの2つの大規模かつ挑戦的なデータセットを用いて評価した。 その結果,両データセットに強い性能が得られた。

In skeleton-based action recognition, Graph Convolutional Networks model human skeletal joints as vertices and connect them through an adjacency matrix, which can be seen as a local attention mask. However, in most existing Graph Convolutional Networks, the local attention mask is defined based on natural connections of human skeleton joints and ignores the dynamic relations for example between head, hands and feet joints. In addition, the attention mechanism has been proven effective in Natural Language Processing and image description, which is rarely investigated in existing methods. In this work, we proposed a new adaptive spatial attention layer that extends local attention map to global based on relative distance and relative angle information. Moreover, we design a new initial graph adjacency matrix that connects head, hands and feet, which shows visible improvement in terms of action recognition accuracy. The proposed model is evaluated on two large-scale and challenging datasets in the field of human activities in daily life: NTU-RGB+D and Kinetics skeleton. The results demonstrate that our model has strong performance on both dataset.
翻訳日:2022-07-13 20:10:41 公開日:2022-07-12
# (参考訳) Next-ViT: 産業シナリオにおける効率的な展開のための次世代ビジョントランス

Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios ( http://arxiv.org/abs/2207.05501v1 )

ライセンス: CC BY 4.0
Jiashi Li, Xin Xia, Wei Li, Huixia Li, Xing Wang, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan(参考訳) 複雑な注意機構とモデル設計のため、既存のビジョントランスフォーマー(vits)のほとんどは、tensorrtやcoremlなど、現実的な産業展開シナリオにおいて畳み込みニューラルネットワーク(cnns)ほど効率的に動作できない。 ビジュアルニューラルネットワークは、CNNと同じくらい高速に推論し、ViTと同じくらい強力に動作するように設計できますか? 最近の研究は、この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャを設計しようと試みているが、これらの作業全体の性能は満足には程遠い。 そこで本研究では,遅延/精度トレードオフの観点からCNNとViTの両方を支配するNext-ViTという,現実的な産業シナリオにおける効率的なデプロイメントを実現する次世代ビジョントランスフォーマを提案する。 この作業では、Next Convolution Block (NCB) とNext Transformer Block (NTB) がそれぞれ開発され、ローカル情報とグローバル情報をデプロイに適したメカニズムでキャプチャする。 次に、Next Hybrid Strategy (NHS) は、様々な下流タスクのパフォーマンスを向上させる効率的なハイブリッドパラダイムとして、CBとNTBをスタックするように設計されている。 大規模な実験によると、Next-ViTは、様々なビジョンタスク間のレイテンシ/精度のトレードオフに関して、既存のCNN、ViT、CNN-Transformerハイブリッドアーキテクチャよりも大幅に優れている。 TensorRTでは、Next-ViTがResNetを5.4mAP(COCO検出では40.4から45.8)、ADE20Kセグメントでは8.2%mIoU(38.8%から47.0%)で上回っている。 一方、CSWinと同等の性能を達成し、推論速度は3.6倍に加速する。 CoreMLでは、Next-ViTがEfficientFormerを4.6mAP(42.6から47.2)でCOCO検出、ADE20Kセグメンテーションで3.5%mIoU(45.2%から48.7%)で上回っている。 コードは、最近リリースされる。

Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.4 mAP (from 40.4 to 45.8) on COCO detection and 8.2% mIoU (from 38.8% to 47.0%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.2% to 48.7%) on ADE20K segmentation under similar latency. Code will be released recently.
翻訳日:2022-07-13 19:54:34 公開日:2022-07-12
# (参考訳) EfficientLEAF: より高速な質問可能なオーディオフロントエンド

EfficientLEAF: A Faster LEarnable Audio Frontend of Questionable Use ( http://arxiv.org/abs/2207.05508v1 )

ライセンス: CC BY-SA 4.0
Jan Schl\"uter, Gerald Gutenbrunner(参考訳) 音声分類において、パラメータがほとんどない識別可能な聴覚フィルタバンクは、ハードコードされたスペクトログラムと生オーディオの間の中間領域をカバーする。 LEAF (arXiv:2101.08596), Per-Channel Energy Normalization (PCEN) と組み合わせたGaborベースのフィルタバンクは,有望な結果を示しているが,計算コストが高い。 非均一な畳み込みカーネルサイズとストライドにより、PCENをより良い並列化操作に置き換えることで、より効率的に同様の結果が得られる。 6つの音声分類タスクの実験では、フロントエンドはLEAFの精度を3%のコストで一致させるが、どちらも固定されたメルフィルタバンクを一貫して上回りません。 学習可能なオーディオフロントエンドの探求は解決されていない。

In audio classification, differentiable auditory filterbanks with few parameters cover the middle ground between hard-coded spectrograms and raw audio. LEAF (arXiv:2101.08596), a Gabor-based filterbank combined with Per-Channel Energy Normalization (PCEN), has shown promising results, but is computationally expensive. With inhomogeneous convolution kernel sizes and strides, and by replacing PCEN with better parallelizable operations, we can reach similar results more efficiently. In experiments on six audio classification tasks, our frontend matches the accuracy of LEAF at 3% of the cost, but both fail to consistently outperform a fixed mel filterbank. The quest for learnable audio frontends is not solved.
翻訳日:2022-07-13 19:33:21 公開日:2022-07-12
# (参考訳) 高速n体シミュレーションのためのハイブリッド物理ニューラルode

Hybrid Physical-Neural ODEs for Fast N-body Simulations ( http://arxiv.org/abs/2207.05509v1 )

ライセンス: CC BY 4.0
Denise Lanzieri, Fran\c{c}ois Lanusse and Jean-Luc Starck(参考訳) 宇宙論的なN体シミュレーションのためのパーティクル・メシュ法(PM)による小規模近似を補正する新しい手法を提案する。 この種のシミュレーションは、大規模構造の高速で低い計算コストを実現しているが、小さなスケールでは分解能に欠ける。 その精度を向上させるために,PM推定重力ポテンシャルに作用するフーリエ空間ニューラルネットワークによりパラメータ化されるシミュレーションの微分方程式に,さらなる有効力を導入する。 PGD法(Potential gradient descent scheme)により得られた物質パワースペクトルの結果と比較した。 パワースペクトルの観点でも同様な改善が見られたが、我々のアプローチは相互相関係数のpgdよりも優れており、シミュレーション設定の変化(異なる解像度、異なる宇宙論)に対してより堅牢であることがわかった。

We present a new scheme to compensate for the small-scales approximations resulting from Particle-Mesh (PM) schemes for cosmological N-body simulations. This kind of simulations are fast and low computational cost realizations of the large scale structures, but lack resolution on small scales. To improve their accuracy, we introduce an additional effective force within the differential equations of the simulation, parameterized by a Fourier-space Neural Network acting on the PM-estimated gravitational potential. We compare the results for the matter power spectrum obtained to the ones obtained by the PGD scheme (Potential gradient descent scheme). We notice a similar improvement in term of power spectrum, but we find that our approach outperforms PGD for the cross-correlation coefficients, and is more robust to changes in simulation settings (different resolutions, different cosmologies).
翻訳日:2022-07-13 19:24:29 公開日:2022-07-12
# (参考訳) 画素分布としての物体追跡

Tracking Objects as Pixel-wise Distributions ( http://arxiv.org/abs/2207.05518v1 )

ライセンス: CC BY 4.0
Zelin Zhao, Ze Wu, Yueqing Zhuang, Boxun Li, Jiaya Jia(参考訳) マルチオブジェクトトラッキング(MOT)では、フレームを通じてオブジェクトを検出し、関連付ける必要がある。 検出されたバウンディングボックスやオブジェクトをポイントとして追跡するのとは異なり、トラッキング対象をピクセル単位の分布として提案する。 我々は、このアイデアを変換器ベースのアーキテクチャであるP3AFormerでインスタンス化し、ピクセルワイドな伝搬、予測、関連付けを行う。 p3aformerは、フレーム間でメッセージを渡すためにフロー情報によって誘導されるピクセルごとに特徴を伝搬する。 さらに、p3aformerはメタアーキテクチャを採用し、マルチスケールオブジェクト特徴マップを作成する。 推定中、画素単位の予測に基づいてフレームを通してオブジェクト接続を回復するためにピクセル単位の関連手順が提案されている。 p3aformer は mot17 ベンチマークで mota の値として 81.2\% を得る。 P3AFormer は MOT20 と KITTI ベンチマークでも最先端のベンチマークを上回っている。

Multi-object tracking (MOT) requires detecting and associating objects through frames. Unlike tracking via detected bounding boxes or tracking objects as points, we propose tracking objects as pixel-wise distributions. We instantiate this idea on a transformer-based architecture, P3AFormer, with pixel-wise propagation, prediction, and association. P3AFormer propagates pixel-wise features guided by flow information to pass messages between frames. Furthermore, P3AFormer adopts a meta-architecture to produce multi-scale object feature maps. During inference, a pixel-wise association procedure is proposed to recover object connections through frames based on the pixel-wise prediction. P3AFormer yields 81.2\% in terms of MOTA on the MOT17 benchmark -- the first among all transformer networks to reach 80\% MOTA in literature. P3AFormer also outperforms state-of-the-arts on the MOT20 and KITTI benchmarks.
翻訳日:2022-07-13 19:13:51 公開日:2022-07-12
# (参考訳) Federated Unlearning: FLでクライアントを効率的に根絶する方法

Federated Unlearning: How to Efficiently Erase a Client in FL? ( http://arxiv.org/abs/2207.05521v1 )

ライセンス: CC BY 4.0
Anisa Halimi, Swanand Kadhe, Ambrish Rawat and Nathalie Baracaldo(参考訳) ユーザーに対して忘れられる権利を付与するプライバシー法により、モデルのトレーニングデータの一部を忘れることが不可欠になっている。 我々は,フェデレーション学習(fl)におけるクライアントの貢献の排除について検討する。 FLラウンドでは、各クライアントがローカルトレーニングを行い、プライベートデータの経験的損失を最小限に抑えるモデルを学ぶ。 本研究では,学習過程の逆転,すなわち局所的な経験的損失を最大化するためにモデルを訓練することにより,クライアントでアンラーニングを行うことを提案する。 特に,制約付き最大化問題として,選択した参照モデルを中心に$\ell_2$-normボールに制限を課し,他のクライアントのデータから学習した知識の保持を支援する。 これにより、クライアントは未学習の実行に投影された勾配降下を使用することができる。 このメソッドは、トレーニングに使用されるデータへのグローバルアクセスや、アグリゲータ(サーバ)またはクライアントによって格納されるパラメータ更新の履歴を必要としない。 MNISTデータセットの実験により,提案手法は効率的かつ効果的であることが示された。

With privacy legislation empowering users with the right to be forgotten, it has become essential to make a model forget about some of its training data. We explore the problem of removing any client's contribution in federated learning (FL). During FL rounds, each client performs local training to learn a model that minimizes the empirical loss on their private data. We propose to perform unlearning at the client (to be erased) by reversing the learning process, i.e., training a model to \emph{maximize} the local empirical loss. In particular, we formulate the unlearning problem as a constrained maximization problem by restricting to an $\ell_2$-norm ball around a suitably chosen reference model to help retain some knowledge learnt from the other clients' data. This allows the client to use projected gradient descent to perform unlearning. The method does neither require global access to the data used for training nor the history of the parameter updates to be stored by the aggregator (server) or any of the clients. Experiments on the MNIST dataset show that the proposed unlearning method is efficient and effective.
翻訳日:2022-07-13 18:58:18 公開日:2022-07-12
# (参考訳) ポーズ回帰を改善するカメラポーズ自動エンコーダ

Camera Pose Auto-Encoders for Improving Pose Regression ( http://arxiv.org/abs/2207.05530v1 )

ライセンス: CC0 1.0
Yoli Shavit and Yosi Keller(参考訳) absolute pose regressor (apr)ネットワークは、撮影された画像からカメラのポーズを推定するために訓練される。 カメラの位置と向きがレグレッションされる潜像表現を計算する。 APRは、最先端の精度を提供する構造ベースのローカライゼーションスキームと比較して、ローカライズ精度、ランタイム、メモリ間の異なるトレードオフを提供する。 本研究では,APRを教師として用いたカメラポーズをエンコードするための教師-学生アプローチを用いて,マルチ層パーセプトロンであるカメラポーズオートエンコーダ(PAE)を導入する。 得られた潜在ポーズ表現は、APRのパフォーマンスを忠実に再現し、関連するタスクの有効性を示す。 具体的には、最寄りの列車ポーズを符号化し、カメラ位置推定を洗練する軽量なテストタイム最適化を提案する。 この手順は、CambridgeLandmarksと7Scenesベンチマークの両方で、APRの新たな最先端位置精度を実現する。 また,学習したポーズエンコーディングから列車画像の再構成が可能であり,メモリコストが低く,列車セットからの視覚情報を統合する手段が整っていることを示す。 私たちのコードと事前トレーニングされたモデルは、https://github.com/yolish/camera-pose-auto-encodersで利用可能です。

Absolute pose regressor (APR) networks are trained to estimate the pose of the camera given a captured image. They compute latent image representations from which the camera position and orientation are regressed. APRs provide a different tradeoff between localization accuracy, runtime, and memory, compared to structure-based localization schemes that provide state-of-the-art accuracy. In this work, we introduce Camera Pose Auto-Encoders (PAEs), multilayer perceptrons that are trained via a Teacher-Student approach to encode camera poses using APRs as their teachers. We show that the resulting latent pose representations can closely reproduce APR performance and demonstrate their effectiveness for related tasks. Specifically, we propose a light-weight test-time optimization in which the closest train poses are encoded and used to refine camera position estimation. This procedure achieves a new state-of-the-art position accuracy for APRs, on both the CambridgeLandmarks and 7Scenes benchmarks. We also show that train images can be reconstructed from the learned pose encoding, paving the way for integrating visual information from the train set at a low memory cost. Our code and pre-trained models are available at https://github.com/yolish/camera-pose-auto-encoders.
翻訳日:2022-07-13 18:45:08 公開日:2022-07-12
# (参考訳) マルコフガウス過程変分オートエンコーダ

Markovian Gaussian Process Variational Autoencoders ( http://arxiv.org/abs/2207.05543v1 )

ライセンス: CC BY 4.0
Harrison Zhu, Carles Balsells Rodas, Yingzhen Li(参考訳) 深層生成モデルはビデオアニメーション、オーディオ、気候データなどの高次元時系列のモデル化に広く利用されている。 逐次変分オートエンコーダは多くのアプリケーションでうまく検討されており、多くの変分モデルは離散時間法とリカレントニューラルネットワーク(rnn)に依存している。 一方、連続時間法は、特に離散時間法よりもデータを扱うことができる不規則なサンプル時系列の文脈において、近年注目を集めている。 そのようなクラスの一つがガウス過程変分オートエンコーダ (GPVAE) であり、VAE はガウス過程 (GP) として設定され、帰納的バイアスはカーネル関数と潜在空間の解釈可能性を通じて明示的に符号化される。 しかし、GPVAEsの大きな制限はGPと同じ3乗計算コストを継承することである。 本研究では,マルコフgpsの等価離散状態空間表現を利用して,カルマンフィルタリングと平滑化による線形時間gpソルバを実現する。 提案手法は,特にRNNモデルよりも優れていることを示す。

Deep generative models are widely used for modelling high-dimensional time series, such as video animations, audio and climate data. Sequential variational autoencoders have been successfully considered for many applications, with many variant models relying on discrete-time methods and recurrent neural networks (RNNs). On the other hand, continuous-time methods have recently gained attraction, especially in the context of irregularly-sampled time series, where they can better handle the data than discrete-time methods. One such class are Gaussian process variational autoencoders (GPVAEs), where the VAE prior is set as a Gaussian process (GPs), allowing inductive biases to be explicitly encoded via the kernel function and interpretability of the latent space. However, a major limitation of GPVAEs is that it inherits the same cubic computational cost as GPs. In this work, we leverage the equivalent discrete state space representation of Markovian GPs to enable a linear-time GP solver via Kalman filtering and smoothing. We show via corrupt and missing frames tasks that our method performs favourably, especially on the latter where it outperforms RNN-based models.
翻訳日:2022-07-13 18:28:51 公開日:2022-07-12
# (参考訳) LightViT:軽量コンボリューションフリービジョントランスを目指して

LightViT: Towards Light-Weight Convolution-Free Vision Transformers ( http://arxiv.org/abs/2207.05557v1 )

ライセンス: CC BY 4.0
Tao Huang, Lang Huang, Shan You, Fei Wang, Chen Qian, Chang Xu(参考訳) 視覚変換器(ViT)は通常、誘導バイアスがないため、畳み込みニューラルネットワーク(CNN)よりも軽量であると考えられている。 近年の作業では、プラグイン・アンド・プレイモジュールとしての畳み込みを利用して、様々なViTモジュールに組み込んでいる。 本稿では、畳み込みカーネルが全てのトークンを接続するために情報集約を行うと論じるが、この明示的な集約がより均質な方法で機能すれば、実際には軽量なViTでは不要である。 そこで我々はLightViTを軽量ViTの新たなファミリとして紹介し,コンボリューションを伴わない純粋変圧器ブロックの精度・効率バランスを改善する。 具体的には,VTの自己注意型およびフィードフォワード型ネットワーク(FFN)にグローバルかつ効率的なアグリゲーションスキームを導入し,グローバルな依存を捉えるために新たな学習可能なトークンを導入し,トークン埋め込みよりも二次元チャネルと空間的注意を課す。 実験により,本モデルは画像分類,オブジェクト検出,セマンティックセグメンテーションタスクにおいて大幅な改善が得られた。 例えば、私たちのLightViT-Tは、わずか0.7GのFLOPでImageNet上で78.7%の精度を実現しています。 コードはhttps://github.com/hunto/lightvitで入手できる。

Vision transformers (ViTs) are usually considered to be less light-weight than convolutional neural networks (CNNs) due to the lack of inductive bias. Recent works thus resort to convolutions as a plug-and-play module and embed them in various ViT counterparts. In this paper, we argue that the convolutional kernels perform information aggregation to connect all tokens; however, they would be actually unnecessary for light-weight ViTs if this explicit aggregation could function in a more homogeneous way. Inspired by this, we present LightViT as a new family of light-weight ViTs to achieve better accuracy-efficiency balance upon the pure transformer blocks without convolution. Concretely, we introduce a global yet efficient aggregation scheme into both self-attention and feed-forward network (FFN) of ViTs, where additional learnable tokens are introduced to capture global dependencies; and bi-dimensional channel and spatial attentions are imposed over token embeddings. Experiments show that our model achieves significant improvements on image classification, object detection, and semantic segmentation tasks. For example, our LightViT-T achieves 78.7% accuracy on ImageNet with only 0.7G FLOPs, outperforming PVTv2-B0 by 8.2% while 11% faster on GPU. Code is available at https://github.com/hunto/LightViT.
翻訳日:2022-07-13 18:01:42 公開日:2022-07-12
# (参考訳) BASED-XAI: 説明可能な人工知能のためのアブレーション研究を断ち切る

BASED-XAI: Breaking Ablation Studies Down for Explainable Artificial Intelligence ( http://arxiv.org/abs/2207.05566v1 )

ライセンス: CC BY 4.0
Isha Hameed, Samuel Sharpe, Daniel Barcklow, Justin Au-Yeung, Sahil Verma, Jocelyn Huang, Brian Barr, C. Bayan Bruss(参考訳) 説明可能な人工知能(XAI)の手法には根本的真実が欠けている。 その代わりに、メソッド開発者は、説明の振る舞いに望ましい特性を決定するのに公理に依存しています。 説明可能性を必要とする高利率な機械学習の利用では、実装やその使用が理想に合致しない可能性があるため、公理に頼るだけでは不十分である。 その結果,XAI法の性能評価に関する研究が活発に行われている。 検証の必要性は特にXAIに依存した領域で拡大している。 それらの効用やある程度の忠実さを評価するために頻繁に用いられる手順は、アブレーション研究である。 入力変数を重要度のランク順に摂動させることで、モデルの性能の感度を評価することが目的である。 重要な変数の摂動は、重要でない特徴の摂動よりもモデル能力の測定値の減少と相関するべきである。 意図は明らかだが、実際の実装の詳細は表データに対して厳密に研究されていない。 5つのデータセット、3つのxaiメソッド、4つのベースライン、3つの摂動を使用して、 1) 摂動の変化と単純なガードレールの追加は、潜在的に欠陥のある結論を避けるのにどのように役立つか。 2)分類変数の扱いは,ポストホックな説明可能性とアブレーション研究の両方において重要である。 3)XAI法に有用なベースラインの同定法とアブレーション研究に有効な摂動

Explainable artificial intelligence (XAI) methods lack ground truth. In its place, method developers have relied on axioms to determine desirable properties for their explanations' behavior. For high stakes uses of machine learning that require explainability, it is not sufficient to rely on axioms as the implementation, or its usage, can fail to live up to the ideal. As a result, there exists active research on validating the performance of XAI methods. The need for validation is especially magnified in domains with a reliance on XAI. A procedure frequently used to assess their utility, and to some extent their fidelity, is an ablation study. By perturbing the input variables in rank order of importance, the goal is to assess the sensitivity of the model's performance. Perturbing important variables should correlate with larger decreases in measures of model capability than perturbing less important features. While the intent is clear, the actual implementation details have not been studied rigorously for tabular data. Using five datasets, three XAI methods, four baselines, and three perturbations, we aim to show 1) how varying perturbations and adding simple guardrails can help to avoid potentially flawed conclusions, 2) how treatment of categorical variables is an important consideration in both post-hoc explainability and ablation studies, and 3) how to identify useful baselines for XAI methods and viable perturbations for ablation studies.
翻訳日:2022-07-13 17:42:46 公開日:2022-07-12
# (参考訳) 学習分類システムにおける独立ルール適合度の影響の検討

Investigating the Impact of Independent Rule Fitnesses in a Learning Classifier System ( http://arxiv.org/abs/2207.05582v1 )

ライセンス: CC BY 4.0
Michael Heider, Helena Stegherr, Jonathan Wurth, Roman Sraj, J\"org H\"ahner(参考訳) 少なくともある程度の説明可能性を得るには、一般的なブラックボックスモデルなど、多くの機械学習システムに対して複雑な分析が必要である。 本稿では,ルール発見とルールセット構成に関するモデル選択タスクに対して,個別のオプティマイザを活用し,コンパクトで解釈可能な透明なモデルを構築するための新しいルールベース学習システムsuprbを提案する。 最適化の観点からは、より明確な目標を定義することができ、アートシステムの多くの状態とは対照的に、ルールの適合性を独立に維持することができる。 本稿では,一連の回帰問題に対して,本システムの性能を徹底的に検討し,卓越したルールベース学習システムであるXCSFと比較する。 suprbの評価結果はxcsfに匹敵する結果となり,モデル構造の制御が容易になり,ランダムな種子やデータ分割に対する感度が大幅に低下した。 このコントロールの増大は、モデルのトレーニングと最終的な構造の両方についての説明を提供するのに役立つ。

Achieving at least some level of explainability requires complex analyses for many machine learning systems, such as common black-box models. We recently proposed a new rule-based learning system, SupRB, to construct compact, interpretable and transparent models by utilizing separate optimizers for the model selection tasks concerning rule discovery and rule set composition.This allows users to specifically tailor their model structure to fulfil use-case specific explainability requirements. From an optimization perspective, this allows us to define clearer goals and we find that -- in contrast to many state of the art systems -- this allows us to keep rule fitnesses independent. In this paper we investigate this system's performance thoroughly on a set of regression problems and compare it against XCSF, a prominent rule-based learning system. We find the overall results of SupRB's evaluation comparable to XCSF's while allowing easier control of model structure and showing a substantially smaller sensitivity to random seeds and data splits. This increased control can aid in subsequently providing explanations for both training and final structure of the model.
翻訳日:2022-07-13 17:32:18 公開日:2022-07-12
# (参考訳) 微分可能シミュレータによる神経後部推定

Neural Posterior Estimation with Differentiable Simulators ( http://arxiv.org/abs/2207.05636v1 )

ライセンス: CC BY 4.0
Justine Zeghal, Fran\c{c}ois Lanusse, Alexandre Boucaud, Benjamin Remy, Eric Aubourg(参考訳) シミュレーションベース推論(SBI)は、後方分布を推定する分析可能性の必要性を緩和するベイズ推論フレームワークである。 SBIアルゴリズムにおけるニューラル密度推定器を用いた最近の進歩は、多数のシミュレーションを犠牲にして、高忠実度後部を達成できることを示しており、複雑な物理シミュレーションを使用する場合、その応用は非常に時間がかかる可能性がある。 本研究では,シミュレータの勾配を用いた後部密度推定の試料効率の向上に焦点をあてる。 微分可能シミュレータを用いてニューラル・ポストミラー推定(NPE)を行う新しい手法を提案する。 勾配情報が後部形状の制約にどのように役立ち、試料効率を向上させるかを示す。

Simulation-Based Inference (SBI) is a promising Bayesian inference framework that alleviates the need for analytic likelihoods to estimate posterior distributions. Recent advances using neural density estimators in SBI algorithms have demonstrated the ability to achieve high-fidelity posteriors, at the expense of a large number of simulations ; which makes their application potentially very time-consuming when using complex physical simulations. In this work we focus on boosting the sample-efficiency of posterior density estimation using the gradients of the simulator. We present a new method to perform Neural Posterior Estimation (NPE) with a differentiable simulator. We demonstrate how gradient information helps constrain the shape of the posterior and improves sample-efficiency.
翻訳日:2022-07-13 17:19:08 公開日:2022-07-12
# (参考訳) 後方対応型人物再識別のための動的グラディエント反応

Dynamic Gradient Reactivation for Backward Compatible Person Re-identification ( http://arxiv.org/abs/2207.05658v1 )

ライセンス: CC BY 4.0
Xiao Pan, Hao Luo, Weihua Chen, Fan Wang, Hao Li, Wei Jiang, Jianming Zhang, Jianyang Gu, Peike Li(参考訳) 本稿では, 個人再識別のための後方互換性問題(Re-ID)について検討し, ギャラリー内の旧モデルの特徴に匹敵する更新された新モデルの特徴を抑えることを目的とした。 既存の作品の多くは蒸留方式を採用しており、古いものを模した新しい特徴を推し進めることに重点を置いている。 しかし, 蒸留法は, 新しい特徴空間に劣った特徴空間を模倣させるため, 本質的に準最適である。 この問題に対処するため,我々は,新機能と旧機能のランク付け基準を直接最適化するランキングベースの後方互換性学習(RBCL)を提案する。 従来の方法とは異なり、RBCLは新機能をプッシュするだけで、厳密なアライメントではなく、古い特徴空間の最高の位置を見つけることができ、下位検索の最終的な目標と一致している。 しかし、ランキングメートル法を微分可能にするために用いられる鋭いシグモイド関数も勾配の消失を招き、トレーニングの後期におけるランキングの洗練に起因している。 この問題に対処するために, フォワードステップ中に動的計算定数を付加することにより, 抑制された勾配を活性化できる動的勾配再活性化(dgr)を提案する。 最高の位置を目標にするために、トレーニング中に古い特徴空間全体を近似するNighbor Context Agents (NCA) を含めます。 ドメイン内設定のみをテストする以前の作業とは異なり、より有意義で難しいクロスドメイン設定(教師なしと教師なしの両方を含む)を導入する最初の試みを行います。 提案したRBCLは,従来の最先端手法よりも,すべての設定において大きなマージンで優れていた。

We study the backward compatible problem for person re-identification (Re-ID), which aims to constrain the features of an updated new model to be comparable with the existing features from the old model in galleries. Most of the existing works adopt distillation-based methods, which focus on pushing new features to imitate the distribution of the old ones. However, the distillation-based methods are intrinsically sub-optimal since it forces the new feature space to imitate the inferior old feature space. To address this issue, we propose the Ranking-based Backward Compatible Learning (RBCL), which directly optimizes the ranking metric between new features and old features. Different from previous methods, RBCL only pushes the new features to find best-ranking positions in the old feature space instead of strictly alignment, and is in line with the ultimate goal of backward retrieval. However, the sharp sigmoid function used to make the ranking metric differentiable also incurs the gradient vanish issue, therefore stems the ranking refinement during the later period of training. To address this issue, we propose the Dynamic Gradient Reactivation (DGR), which can reactivate the suppressed gradients by adding dynamic computed constant during forward step. To further help targeting the best-ranking positions, we include the Neighbor Context Agents (NCAs) to approximate the entire old feature space during training. Unlike previous works which only test on the in-domain settings, we make the first attempt to introduce the cross-domain settings (including both supervised and unsupervised), which are more meaningful and difficult. The experimental results on all five settings show that the proposed RBCL outperforms previous state-of-the-art methods by large margins under all settings.
翻訳日:2022-07-13 17:09:57 公開日:2022-07-12
# (参考訳) 多クラス学習者のためのPAC-Bayesian領域適応境界

PAC-Bayesian Domain Adaptation Bounds for Multiclass Learners ( http://arxiv.org/abs/2207.05685v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Katherine Atwell, Malihe Alikhani, and Seong Jae Hwang(参考訳) マルチクラスニューラルネットワークは、現代の教師なしドメイン適応において一般的なツールであるが、その非一様でないサンプル複雑性に対する適切な理論記述は、適応文献に欠けている。 このギャップを埋めるために,マルチクラス学習者を対象とした最初のPAC-Bayesian適応境界を提案する。 我々は,多クラス分布の発散に対する最初の近似手法を提案することにより,境界の実用的利用を促進する。 ギブス予測器に依存する発散に対して、非効率なモンテカルロ推定の必要性を排除したPAC-ベイズ適応境界を提案する。 実験により,提案手法の有効性を実証し,提案手法の限界に含める新しい設計概念を検証した。 最後に,ニューラルネットワークを用いた共通適応アルゴリズムの解析に境界を適用した。

Multiclass neural networks are a common tool in modern unsupervised domain adaptation, yet an appropriate theoretical description for their non-uniform sample complexity is lacking in the adaptation literature. To fill this gap, we propose the first PAC-Bayesian adaptation bounds for multiclass learners. We facilitate practical use of our bounds by also proposing the first approximation techniques for the multiclass distribution divergences we consider. For divergences dependent on a Gibbs predictor, we propose additional PAC-Bayesian adaptation bounds which remove the need for inefficient Monte-Carlo estimation. Empirically, we test the efficacy of our proposed approximation techniques as well as some novel design-concepts which we include in our bounds. Finally, we apply our bounds to analyze a common adaptation algorithm that uses neural networks.
翻訳日:2022-07-13 16:51:21 公開日:2022-07-12
# (参考訳) トカマクにおける最終閉磁束表面再構成のための機械学習ツール

A machine-learning-based tool for last closed magnetic flux surface reconstruction on tokamak ( http://arxiv.org/abs/2207.05695v1 )

ライセンス: CC BY 4.0
Chenguang Wan, Zhi Yu, Alessandro Pau, Xiaojuan Liu, and Jiangang Li(参考訳) トカマク装置による核融合発電は、クリーンエネルギーの持続可能な供給源として最も有望な方法の1つである。 トカマクの主な課題研究分野は、アクチュエータコイルと内部トカマクプラズマの相互作用によって決定される最後の閉磁束表面(lcfs)を予測することである。 この作業は高次元、高周波、高忠実、リアルタイムのツールを必要とし、内部トカマクプラズマ状態と相互作用する幅広いアクチュエータコイルによってさらに複雑になる。 本研究では,東方実験データから自動的に学習する東方超伝導トカマク(tokamak,東方超伝導トカマク)からlcfを再構成する新しい機械学習モデルを提案する。 このアーキテクチャは、制御戦略設計を確認し、トカマク制御システムと統合してリアルタイムの磁気予測を行うことができる。 実時間モデリングテストでは, LCFSの放電過程全体の復元において, 99%以上の類似性が得られた。 オフラインの磁気再構成では, 平均的類似度は93%を超える。

Nuclear fusion power created by tokamak devices holds one of the most promising ways as a sustainable source of clean energy. One main challenge research field of tokamak is to predict the last closed magnetic flux surface (LCFS) determined by the interaction of the actuator coils and the internal tokamak plasma. This work requires high-dimensional, high-frequency, high-fidelity, real-time tools, further complicated by the wide range of actuator coils input interact with internal tokamak plasma states. In this work, we present a new machine learning model for reconstructing the LCFS from the Experimental Advanced Superconducting Tokamak (EAST) that learns automatically from the experimental data of EAST. This architecture can check the control strategy design and integrate it with the tokamak control system for real-time magnetic prediction. In the real-time modeling test, our approach achieves over 99% average similarity in LCFS reconstruction of the entire discharge process. In the offline magnetic reconstruction, our approach reaches over 93% average similarity.
翻訳日:2022-07-13 16:08:03 公開日:2022-07-12
# 計算ストレージプラットフォーム上での大規模グラフベース近傍探索の高速化

Accelerating Large-Scale Graph-based Nearest Neighbor Search on a Computational Storage Platform ( http://arxiv.org/abs/2207.05241v1 )

ライセンス: Link先を確認
Ji-Hoon Kim, Yeo-Reum Park, Jaeyoung Do, Soo-Young Ji, and Joo-Young Kim(参考訳) K-nearest neighbor searchは様々なアプリケーションにおける基本的なタスクの1つであり、階層的ナビゲート可能な小型世界(HNSW)は、高速検索を提供しながらデータベースを簡単にスケールアップできるため、最近、大規模クラウドサービスにおいて注目を集めている。 一方、プログラム可能なロジックと単一のボード上のストレージモジュールを組み合わせた計算ストレージデバイス(csd)は、現代のコンピューティングシステムのデータ帯域のボトルネックに対処するために普及している。 本稿では,SmartSSD CSDに基づく大規模グラフベースの近接探索アルゴリズムを高速化する計算ストレージプラットフォームを提案する。 この目的のために,ハードウェア上でより快適なアルゴリズムを改良し,HLS法とRTL法を併用した2種類のアクセラレータを実装した。 さらに,提案するプラットフォームを4つのSmartSSDにスケールアップし,グラフ並列性を適用してシステム性能をさらに向上する。 その結果、提案した計算ストレージプラットフォームは、SIFT1Bデータセットの毎秒75.59クエリを258.66Wで達成し、従来のCPUベースとGPUベースのサーバプラットフォームと比較して、それぞれ12.83xと17.91x高速、10.43xと24.33x高効率である。 マルチテラバイトストレージとカスタムアクセラレーション機能により、提案する計算ストレージプラットフォームは、コストに敏感なクラウドデータセンタにとって有望なソリューションであると考えています。

K-nearest neighbor search is one of the fundamental tasks in various applications and the hierarchical navigable small world (HNSW) has recently drawn attention in large-scale cloud services, as it easily scales up the database while offering fast search. On the other hand, a computational storage device (CSD) that combines programmable logic and storage modules on a single board becomes popular to address the data bandwidth bottleneck of modern computing systems. In this paper, we propose a computational storage platform that can accelerate a large-scale graph-based nearest neighbor search algorithm based on SmartSSD CSD. To this end, we modify the algorithm more amenable on the hardware and implement two types of accelerators using HLS- and RTL-based methodology with various optimization methods. In addition, we scale up the proposed platform to have 4 SmartSSDs and apply graph parallelism to boost the system performance further. As a result, the proposed computational storage platform achieves 75.59 query per second throughput for the SIFT1B dataset at 258.66W power dissipation, which is 12.83x and 17.91x faster and 10.43x and 24.33x more energy efficient than the conventional CPU-based and GPU-based server platform, respectively. With multi-terabyte storage and custom acceleration capability, we believe that the proposed computational storage platform is a promising solution for cost-sensitive cloud datacenters.
翻訳日:2022-07-13 15:52:27 公開日:2022-07-12
# フェデレート学習のための効率的・プライバシー保護グループ署名

Efficient and Privacy Preserving Group Signature for Federated Learning ( http://arxiv.org/abs/2207.05297v1 )

ライセンス: Link先を確認
Sneha Kanchan, Jae Won Jang, Jun Yong Yoon, Bong Jun Choi(参考訳) Federated Learning(FL)は、ユーザデータのプライバシに対する脅威を軽減することを目的とした機械学習(ML)テクニックである。 クライアントと呼ばれるユーザのデバイスの生データを使用してトレーニングが行われ、グラデーションと呼ばれるトレーニング結果のみがサーバに送られて集約され、更新されたモデルが生成される。 しかし、サーバが、所有者やデータソースに関連するメタデータなど、プライベートな情報で信頼できると仮定することはできない。 したがって、クライアント情報をサーバから隠すことは、プライバシー関連の攻撃を減らすのに役立つ。 したがって、クライアントのアイデンティティのプライバシとクライアントのデータのプライバシは、そのような攻撃をより困難にするために必要である。 本稿では,グループ署名に基づくFLの効率的かつプライバシ保護プロトコルを提案する。 GSFLと呼ばれる新しいグループシグネチャは、クライアントのデータとアイデンティティのプライバシを保護するだけでなく、フェデレーション学習の反復プロセスを考慮した計算と通信コストを大幅に削減するように設計されている。 GSFLは計算,通信,信号処理のコストにおいて既存の手法よりも優れていることを示す。 また,フェデレーション学習環境において,提案プロトコルが様々なセキュリティ攻撃を処理可能であることを示す。

Federated Learning (FL) is a Machine Learning (ML) technique that aims to reduce the threats to user data privacy. Training is done using the raw data on the users' device, called clients, and only the training results, called gradients, are sent to the server to be aggregated and generate an updated model. However, we cannot assume that the server can be trusted with private information, such as metadata related to the owner or source of the data. So, hiding the client information from the server helps reduce privacy-related attacks. Therefore, the privacy of the client's identity, along with the privacy of the client's data, is necessary to make such attacks more difficult. This paper proposes an efficient and privacy-preserving protocol for FL based on group signature. A new group signature for federated learning, called GSFL, is designed to not only protect the privacy of the client's data and identity but also significantly reduce the computation and communication costs considering the iterative process of federated learning. We show that GSFL outperforms existing approaches in terms of computation, communication, and signaling costs. Also, we show that the proposed protocol can handle various security attacks in the federated learning environment.
翻訳日:2022-07-13 15:51:59 公開日:2022-07-12
# スケーラブルビームフォーミング最適化のための二部グラフニューラルネットワークアプローチ

A Bipartite Graph Neural Network Approach for Scalable Beamforming Optimization ( http://arxiv.org/abs/2207.05364v1 )

ライセンス: Link先を確認
Junbeom Kim, Hoon Lee, Seung-Eun Hong, Seok-Hwan Park(参考訳) 深層学習(DL)技術は, マルチユーザマルチインプット・シングルアウトプット(MU-MISO)ダウンリンクシステムの最適化のために, 非凸定式化を扱う能力により, 集中的に研究されている。 しかし、既存のディープニューラルネットワーク(DNN)の固定された計算構造は、システムサイズ、すなわちアンテナ数やユーザ数に関して柔軟性に欠ける。 本稿では、マルチアンテナビームフォーミング最適化のために設計されたスケーラブルなDLソリューションであるBGNNフレームワークを開発する。 MU-MISO システムは,送信アンテナとユーザから構成される2つの非結合頂点集合をペアエッジで接続する二部グラフを特徴とする。 これらの頂点相互接続状態はチャネルフェージング係数によってモデル化される。 これにより、一般的なビームフォーミング最適化プロセスは、重み2部グラフ上の計算タスクとして解釈される。 このアプローチではビームフォーミング最適化手順を、個々のアンテナ頂点とユーザ頂点に特化した複数のサブオペレーションに分割する。 別個の頂点演算は、システムサイズに不変なスケーラブルなビームフォーミング計算をもたらす。 頂点演算は、BGNNアーキテクチャを構成するDNNモジュールのグループによって実現される。 同一のDNNは、すべてのアンテナとユーザで再利用され、学習構造がネットワークサイズに柔軟になる。 BGNNのコンポーネントDNNは、ランダムに異なるネットワークサイズを持つ多数のMU-MISO構成に対して共同で訓練される。 その結果、訓練されたBGNNは任意のMU-MISOシステムに普遍的に適用できる。 数値結果は従来の手法よりもbgnnフレームワークの利点を検証している。

Deep learning (DL) techniques have been intensively studied for the optimization of multi-user multiple-input single-output (MU-MISO) downlink systems owing to the capability of handling nonconvex formulations. However, the fixed computation structure of existing deep neural networks (DNNs) lacks flexibility with respect to the system size, i.e., the number of antennas or users. This paper develops a bipartite graph neural network (BGNN) framework, a scalable DL solution designed for multi-antenna beamforming optimization. The MU-MISO system is first characterized by a bipartite graph where two disjoint vertex sets, each of which consists of transmit antennas and users, are connected via pairwise edges. These vertex interconnection states are modeled by channel fading coefficients. Thus, a generic beamforming optimization process is interpreted as a computation task over a weight bipartite graph. This approach partitions the beamforming optimization procedure into multiple suboperations dedicated to individual antenna vertices and user vertices. Separated vertex operations lead to scalable beamforming calculations that are invariant to the system size. The vertex operations are realized by a group of DNN modules that collectively form the BGNN architecture. Identical DNNs are reused at all antennas and users so that the resultant learning structure becomes flexible to the network size. Component DNNs of the BGNN are trained jointly over numerous MU-MISO configurations with randomly varying network sizes. As a result, the trained BGNN can be universally applied to arbitrary MU-MISO systems. Numerical results validate the advantages of the BGNN framework over conventional methods.
翻訳日:2022-07-13 15:51:38 公開日:2022-07-12
# 伝達学習のための情報理論解析:誤差境界とその応用

An Information-Theoretic Analysis for Transfer Learning: Error Bounds and Applications ( http://arxiv.org/abs/2207.05377v1 )

ライセンス: Link先を確認
Xuetong Wu, Jonathan H. Manton, Uwe Aickelin, Jingge Zhu(参考訳) トランスファーラーニング(英: Transfer learning)またはドメイン適応(ドメイン適応)は、トレーニングとテストデータがおそらく異なる確率分布から来る機械学習の問題である。 本研究では,russo と xu が始めた一連の作業に従って,一般化誤差と転送学習アルゴリズムの過剰リスクに関する情報理論的分析を行う。 我々の結果は、おそらく予想通り、Kulback-Leibler (KL) divergence $D(\mu||\mu')$が、それぞれトレーニングデータとテストテストの分布を示す場合、キャラクタリゼーションにおいて重要な役割を果たすことを示唆している。 具体的には,経験的リスク最小化 (ERM) アルゴリズムに対して,両分布からのデータをトレーニングフェーズで利用できる一般化誤差上限を提供する。 さらに,gibbs法や確率勾配降下法などの近似erm法にも解析を適用した。 次に、$\phi$-divergence と Wasserstein 距離で有界な相互情報を一般化する。 これらの一般化はより厳密な境界につながり、$\mu'$ に関して$\mu$ が絶対連続でない場合を扱うことができる。 さらに,いくつかの学習問題に対して高速(かつ最適な)学習率を与える代替上界を得るために,新たな手法を適用した。 最後に、導出境界に触発されて、情報量に応じてソースデータとターゲットデータの重み付けを適応的に調整するinfoboostアルゴリズムを提案する。 実験の結果,提案アルゴリズムの有効性が示された。

Transfer learning, or domain adaptation, is concerned with machine learning problems in which training and testing data come from possibly different probability distributions. In this work, we give an information-theoretic analysis on the generalization error and excess risk of transfer learning algorithms, following a line of work initiated by Russo and Xu. Our results suggest, perhaps as expected, that the Kullback-Leibler (KL) divergence $D(\mu||\mu')$ plays an important role in the characterizations where $\mu$ and $\mu'$ denote the distribution of the training data and the testing test, respectively. Specifically, we provide generalization error upper bounds for the empirical risk minimization (ERM) algorithm where data from both distributions are available in the training phase. We further apply the analysis to approximated ERM methods such as the Gibbs algorithm and the stochastic gradient descent method. We then generalize the mutual information bound with $\phi$-divergence and Wasserstein distance. These generalizations lead to tighter bounds and can handle the case when $\mu$ is not absolutely continuous with respect to $\mu'$. Furthermore, we apply a new set of techniques to obtain an alternative upper bound which gives a fast (and optimal) learning rate for some learning problems. Finally, inspired by the derived bounds, we propose the InfoBoost algorithm in which the importance weights for source and target data are adjusted adaptively in accordance to information measures. The empirical results show the effectiveness of the proposed algorithm.
翻訳日:2022-07-13 15:51:17 公開日:2022-07-12
# 非同定データを用いたエンドツーエンド音声認識モデル

End-to-end speech recognition modeling from de-identified data ( http://arxiv.org/abs/2207.05469v1 )

ライセンス: Link先を確認
Martin Flechl and Shou-Chun Yin and Junho Park and Peter Skala(参考訳) 自動音声認識モデリングに使用されるデータの非識別は、特に医療領域においてプライバシーを保護する上で重要な要素である。 しかし、エンドツーエンドモデルのトレーニングデータから個人識別可能な情報(pii)をすべて削除するだけで、特に類似のカテゴリから名前、日付、場所、単語を認識する場合、パフォーマンスが著しく低下する。 我々は,この損失を部分的に回復する2段階法を提案し,評価する。 まず、PIIを識別し、各発生を同一カテゴリのランダムな単語列に置き換える。 そして、コーパスから抽出した一致した音声断片をスプライシングすることで、対応する音声を生成する。 これらの人工オーディオ/ラベルペアと、PIIのない元のデータからのスピーカーターンは、モデルをトレーニングするために使用される。 本手法は, 内科的会話データにおける性能評価を行い, 高いダイアリゼーション性能を維持しつつ, 一般的な単語誤り率におけるほぼ全性能劣化の回復を観察する。 主な焦点は,PII関連単語の認識におけるリコールと精度の向上である。 PII のカテゴリによって,提案手法を用いて性能劣化の 50 % - 90 % を回収できる。

De-identification of data used for automatic speech recognition modeling is a critical component in protecting privacy, especially in the medical domain. However, simply removing all personally identifiable information (PII) from end-to-end model training data leads to a significant performance degradation in particular for the recognition of names, dates, locations, and words from similar categories. We propose and evaluate a two-step method for partially recovering this loss. First, PII is identified, and each occurrence is replaced with a random word sequence of the same category. Then, corresponding audio is produced via text-to-speech or by splicing together matching audio fragments extracted from the corpus. These artificial audio/label pairs, together with speaker turns from the original data without PII, are used to train models. We evaluate the performance of this method on in-house data of medical conversations and observe a recovery of almost the entire performance degradation in the general word error rate while still maintaining a strong diarization performance. Our main focus is the improvement of recall and precision in the recognition of PII-related words. Depending on the PII category, between $50\% - 90\%$ of the performance degradation can be recovered using our proposed method.
翻訳日:2022-07-13 15:50:52 公開日:2022-07-12
# HelixFold: PaddlePaddleを使用したAlphaFold2の効率的な実装

HelixFold: An Efficient Implementation of AlphaFold2 using PaddlePaddle ( http://arxiv.org/abs/2207.05477v1 )

ライセンス: Link先を確認
Guoxia Wang, Xiaomin Fang, Zhihua Wu, Yiqun Liu, Yang Xue, Yingfei Xiang, Dianhai Yu, Fan Wang, Yanjun Ma(参考訳) 正確なタンパク質構造予測は生命科学の発展を著しく加速させる。 端から端までの構造予測システムであるalphafold2の精度は、すでに実験的な決定技術に近い。 複雑なモデルアーキテクチャと大量のメモリ消費のため、alphafold2のトレーニングと推論をスクラッチから実装するには、多くの計算リソースと時間が必要です。 オリジナルのAlphaFold2を走らせるコストは、ほとんどの個人や機関にとって高い。 そのため、このコスト削減は生命科学の発展を加速させる可能性がある。 我々はPaddlePaddle、すなわちHelixFoldを使ってAlphaFold2を実装し、トレーニングと推論速度を改善し、メモリ消費を減らす。 演算子融合、テンソル融合、ハイブリッド並列計算により性能が向上し、メモリはRecompute、BFloat16、メモリ読み取り/書き込みで最適化される。 オリジナルのAlphaFold2(Jaxが実装)とOpenFold(PyTorchが実装)と比較して、HelixFoldは完全なエンドツーエンドのトレーニングを完了するのに7.5日、ハイブリッド並列性を使用するのに5.3日しか要しない。 HelixFoldは1倍のトレーニング時間を節約する。 我々は、HelixFoldの精度がCASP14およびCAMEOデータセット上のAlphaFold2と同等であることを確認した。 HelixFoldのコードはGitHubで無料でダウンロードできる。 https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/oprotein_folding/helixfold。

Accurate protein structure prediction can significantly accelerate the development of life science. The accuracy of AlphaFold2, a frontier end-to-end structure prediction system, is already close to that of the experimental determination techniques. Due to the complex model architecture and large memory consumption, it requires lots of computational resources and time to implement the training and inference of AlphaFold2 from scratch. The cost of running the original AlphaFold2 is expensive for most individuals and institutions. Therefore, reducing this cost could accelerate the development of life science. We implement AlphaFold2 using PaddlePaddle, namely HelixFold, to improve training and inference speed and reduce memory consumption. The performance is improved by operator fusion, tensor fusion, and hybrid parallelism computation, while the memory is optimized through Recompute, BFloat16, and memory read/write in-place. Compared with the original AlphaFold2 (implemented by Jax) and OpenFold (implemented by PyTorch), HelixFold needs only 7.5 days to complete the full end-to-end training and only 5.3 days when using hybrid parallelism, while both AlphaFold2 and OpenFold take about 11 days. HelixFold saves 1x training time. We verified that HelixFold's accuracy could be on par with AlphaFold2 on the CASP14 and CAMEO datasets. HelixFold's code is available on GitHub for free download: https://github.com/PaddlePaddle/PaddleHelix/tree/dev/apps/protein_folding/helixfold, and we also provide stable web services on https://paddlehelix.baidu.com/app/drug/protein/forecast.
翻訳日:2022-07-13 15:50:32 公開日:2022-07-12
# 情報最大化とコントラスト学習によるラベル有効自己監督話者検証

Label-Efficient Self-Supervised Speaker Verification With Information Maximization and Contrastive Learning ( http://arxiv.org/abs/2207.05506v1 )

ライセンス: Link先を確認
Th\'eo Lepage and R\'eda Dehak(参考訳) 最先端の話者検証システムは、大量のラベル付きデータに基づいてトレーニングされるため、本質的に何らかの人間の監督に依存しています。 しかし、手動でアノテートする発話は遅く、高価であり、現在利用可能なデータ量にはスケーラビリティがない。 本研究では,生音声から直接表現を学習する話者検証のための自己教師型学習について検討する。 目的は、小さな話者内分散と大きな話者間分散を持つロバストな話者埋め込みを作ることである。 我々のアプローチは、最近の情報最大化学習フレームワークと集中的なデータ拡張前処理ステップに基づいている。 比較サンプルを使わずにこれらの手法が動作できることを評価し, 比較損失と組み合わせることで, 性能が向上することを示す。 さらに,提案手法が既存の手法に比べて競争力のある結果が得られることを示す実験を行い,ラベル付きデータのごく一部で微調整した場合の教師付きベースラインよりも優れた性能を得ることができた。

State-of-the-art speaker verification systems are inherently dependent on some kind of human supervision as they are trained on massive amounts of labeled data. However, manually annotating utterances is slow, expensive and not scalable to the amount of data available today. In this study, we explore self-supervised learning for speaker verification by learning representations directly from raw audio. The objective is to produce robust speaker embeddings that have small intra-speaker and large inter-speaker variance. Our approach is based on recent information maximization learning frameworks and an intensive data augmentation pre-processing step. We evaluate the ability of these methods to work without contrastive samples before showing that they achieve better performance when combined with a contrastive loss. Furthermore, we conduct experiments to show that our method reaches competitive results compared to existing techniques and can get better performances compared to a supervised baseline when fine-tuned with a small portion of labeled data.
翻訳日:2022-07-13 15:49:58 公開日:2022-07-12
# CFD数値シミュレーションにおける気液界面再構成のための機械学習モデル

Machine Learning model for gas-liquid interface reconstruction in CFD numerical simulations ( http://arxiv.org/abs/2207.05684v1 )

ライセンス: Link先を確認
Tamon Nakano, Alessandro Michele Bucci, Jean-Marc Gratien, Thibault Faney, Guillaume Charpiat(参考訳) 流体の体積(VoF)法は多相流シミュレーションにおいて2つの不混和性流体間の界面を追跡・見つけるために広く用いられている。 VoF法の主なボトルネックは、計算コストが高く、非構造化グリッド上での精度が低いため、インタフェース再構成ステップである。 一般的な非構造化メッシュ上でのインタフェース再構築を高速化するために,グラフニューラルネットワーク(GNN)に基づく機械学習拡張VoF手法を提案する。 まず,非構造メッシュ上に分離されたパラボロイド表面に基づく合成データセットを生成する手法を開発した。 次に、GNNベースのモデルをトレーニングし、一般化テストを実行します。 産業環境における多相流シミュレーションにおけるインタフェース再構成のためのGNNに基づく手法の有効性を実証した。

The volume of fluid (VoF) method is widely used in multi-phase flow simulations to track and locate the interface between two immiscible fluids. A major bottleneck of the VoF method is the interface reconstruction step due to its high computational cost and low accuracy on unstructured grids. We propose a machine learning enhanced VoF method based on Graph Neural Networks (GNN) to accelerate the interface reconstruction on general unstructured meshes. We first develop a methodology to generate a synthetic dataset based on paraboloid surfaces discretized on unstructured meshes. We then train a GNN based model and perform generalization tests. Our results demonstrate the efficiency of a GNN based approach for interface reconstruction in multi-phase flow simulations in the industrial context.
翻訳日:2022-07-13 15:49:43 公開日:2022-07-12
# (参考訳) ソフトウェア障害予測における学習アプローチの影響

The Untold Impact of Learning Approaches on Software Fault-Proneness Predictions ( http://arxiv.org/abs/2207.05710v1 )

ライセンス: CC BY 4.0
Mohammad Jamil Ahmad, Katerina Goseva-Popstojanova and Robyn R. Lutz(参考訳) ソフトウェア故障確率予測は活発な研究領域であり、予測性能に影響を及ぼす要因が広く研究されている。 しかし、予測性能に対する学習アプローチ(すなわち、トレーニングに使用されるデータと予測対象変数の仕様)の影響は、1つの初期研究を除いて研究されていない。 本稿では,2つの学習手法である useAllPredictAll と usePredictPost が,リリース内およびリリース間におけるソフトウェア故障予測の性能に与える影響について検討する。 実験結果は、12のオープンソースプロジェクトの64リリースから抽出されたデータに基づいている。 結果から,学習手法が分類性能に大きく影響していることが示唆された。 具体的には、useAllPredictAllを使用することで、リリース内とリリース間の両方で、usePredictPost学習アプローチを使用するよりもパフォーマンスが大幅に向上する。 さらに,この分類性能の違いは,2つの学習アプローチにおけるクラス不均衡のレベルの違いによるものであることを明らかにした。 クラス不均衡に対処すると、学習アプローチ間の性能差が排除される。 我々の知見は、学習アプローチが常に明示的に識別され、ソフトウェア欠陥発生予測に対する影響が考慮されるべきであることを示唆している。 本論文は,研究と実践の両面での結果の潜在的な影響について考察した。

Software fault-proneness prediction is an active research area, with many factors affecting prediction performance extensively studied. However, the impact of the learning approach (i.e., the specifics of the data used for training and the target variable being predicted) on the prediction performance has not been studied, except for one initial work. This paper explores the effects of two learning approaches, useAllPredictAll and usePrePredictPost, on the performance of software fault-proneness prediction, both within-release and across-releases. The empirical results are based on data extracted from 64 releases of twelve open-source projects. Results show that the learning approach has a substantial, and typically unacknowledged, impact on the classification performance. Specifically, using useAllPredictAll leads to significantly better performance than using usePrePredictPost learning approach, both within-release and across-releases. Furthermore, this paper uncovers that, for within-release predictions, this difference in classification performance is due to different levels of class imbalance in the two learning approaches. When class imbalance is addressed, the performance difference between the learning approaches is eliminated. Our findings imply that the learning approach should always be explicitly identified and its impact on software fault-proneness prediction considered. The paper concludes with a discussion of potential consequences of our results for both research and practice.
翻訳日:2022-07-13 15:48:48 公開日:2022-07-12
# (参考訳) カテゴリー確率におけるd分離基準

The d-separation criterion in Categorical Probability ( http://arxiv.org/abs/2207.05740v1 )

ライセンス: CC BY 4.0
Tobias Fritz, Andreas Klingler(参考訳) d-分離基準は、特定の条件独立性を通して有向非巡回グラフとの結合確率分布の整合性を検出する。 本研究では, 因果モデルの分類的定義, d-分離の分類的概念を導入し, d-分離基準の抽象版を証明することで, 分類的確率論の文脈でこの問題を研究する。 このアプローチには2つの大きなメリットがあります。 まず、圏 d-分離は位相連結性に基づく非常に直感的な基準である。 第二に、この結果は測度論的確率(標準ボレル空間)に適用され、従って連続変数と混合変数の因果整合を伴う局所的および大域的マルコフ性質の同値性を明確に証明する。

The d-separation criterion detects the compatibility of a joint probability distribution with a directed acyclic graph through certain conditional independences. In this work, we study this problem in the context of categorical probability theory by introducing a categorical definition of causal models, a categorical notion of d-separation, and proving an abstract version of the d-separation criterion. This approach has two main benefits. First, categorical d-separation is a very intuitive criterion based on topological connectedness. Second, our results apply in measure-theoretic probability (with standard Borel spaces), and therefore provide a clean proof of the equivalence of local and global Markov properties with causal compatibility for continuous and mixed variables.
翻訳日:2022-07-13 15:11:54 公開日:2022-07-12
# (参考訳) 予測状態表現のためのPAC強化学習

PAC Reinforcement Learning for Predictive State Representations ( http://arxiv.org/abs/2207.05738v1 )

ライセンス: CC0 1.0
Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee(参考訳) 本稿では,部分可観測力学系におけるオンライン強化学習(rl)について検討する。 本稿では,PSR(Predictive State Representations)モデルに焦点をあてる。このモデルは,部分観測可能なマルコフ決定プロセス(POMDP)など,他のよく知られたモデルをキャプチャする表現モデルである。 PSRは将来の観測の一連の予測を用いて状態を表し、観測可能な量で完全に定義される。 そこで本研究では,PSRのための新しいモデルベースアルゴリズムを開発した。このアルゴリズムは,システムの関連するパラメータのすべてに対して,多項式のスケーリングにおいて,ほぼ最適なポリシを学習することができる。 我々のアルゴリズムは自然に関数近似を用いて、潜在的に大きな状態と観測空間を持つシステムに拡張する。 実数可能なモデルクラスが与えられたとき、最善のポリシーを学習するサンプル複雑性は、状態と観測空間の大きさに明確な多項式依存性を持たず、モデルクラスの統計的複雑性に対して多項式的にしかスケールしない。 特に,我々の研究はpsrのグローバル最適ポリシーと競合する多項式サンプルの複雑さを示す最初の研究である。 最後に,我々の一般定理が,線形放出と潜在遷移を伴う pomdp と,m$-step weakly revealing と $m$-step decodable tabular pomdps,低ランク潜在遷移の pomdps を含む特殊モデルのサンプル複雑性境界を直接導出するためにどのように用いられるかを示す。

In this paper we study online Reinforcement Learning (RL) in partially observable dynamical systems. We focus on the Predictive State Representations (PSRs) model, which is an expressive model that captures other well-known models such as Partially Observable Markov Decision Processes (POMDP). PSR represents the states using a set of predictions of future observations and is defined entirely using observable quantities. We develop a novel model-based algorithm for PSRs that can learn a near optimal policy in sample complexity scaling polynomially with respect to all the relevant parameters of the systems. Our algorithm naturally works with function approximation to extend to systems with potentially large state and observation spaces. We show that given a realizable model class, the sample complexity of learning the near optimal policy only scales polynomially with respect to the statistical complexity of the model class, without any explicit polynomial dependence on the size of the state and observation spaces. Notably, our work is the first work that shows polynomial sample complexities to compete with the globally optimal policy in PSRs. Finally, we demonstrate how our general theorem can be directly used to derive sample complexity bounds for special models including $m$-step weakly revealing and $m$-step decodable tabular POMDPs, POMDPs with low-rank latent transition, and POMDPs with linear emission and latent transition.
翻訳日:2022-07-13 15:10:21 公開日:2022-07-12
# 不規則時間列ODEのバッチ戦略の改善

Improved Batching Strategy For Irregular Time-Series ODE ( http://arxiv.org/abs/2207.05708v1 )

ライセンス: Link先を確認
Ting Fung Lam, Yony Bresler, Ahmed Khorshid and Nathan Perlmutter(参考訳) 不規則な時系列データは実世界で普及しており、単純なリカレントニューラルネットワーク(RNN)でモデル化することは困難である。 したがって、通常の微分方程式(ODE)とRNN(ODE-RNN)を組み合わせたモデルが提案され、不規則時系列を高精度にモデル化するが、計算コストが高い。 本稿では,異なる効率的なバッチ戦略を用いてode-rnn上でのランタイムの改善を提案する。 実験の結果, ODE-RNNのランタイムはデータの不規則性に応じて2倍から49倍まで大幅に削減され, 精度は同等であった。 したがって、我々のモデルはより大きな不規則データセットをモデル化するのに好適にスケールできる。

Irregular time series data are prevalent in the real world and are challenging to model with a simple recurrent neural network (RNN). Hence, a model that combines the use of ordinary differential equations (ODE) and RNN was proposed (ODE-RNN) to model irregular time series with higher accuracy, but it suffers from high computational costs. In this paper, we propose an improvement in the runtime on ODE-RNNs by using a different efficient batching strategy. Our experiments show that the new models reduce the runtime of ODE-RNN significantly ranging from 2 times up to 49 times depending on the irregularity of the data while maintaining comparable accuracy. Hence, our model can scale favorably for modeling larger irregular data sets.
翻訳日:2022-07-13 15:08:35 公開日:2022-07-12
# データに基づくトランスファー学習の展望

A Data-Based Perspective on Transfer Learning ( http://arxiv.org/abs/2207.05739v1 )

ライセンス: Link先を確認
Saachi Jain, Hadi Salman, Alaa Khaddaj, Eric Wong, Sung Min Park, Aleksander Madry(参考訳) 事前学習データを含むトランスファー学習は、より良いパフォーマンスをもたらすと一般的に信じられている。 しかし、最近の証拠は、ソースデータセットからデータを削除することも実際に役立つことを示唆している。 本稿では、トランスファー学習におけるソースデータセットの構成の役割を詳細に検討し、そのダウンストリームパフォーマンスへの影響を調べるためのフレームワークを提案する。 我々のフレームワークは、転送学習の脆さのピンポインティングや、データ推論などの病理検出、ソースデータセットにおける誤解を招く事例の存在など、新たな機能を生み出します。 特に,我々のフレームワークが特定した有害なデータポイントの削除は,さまざまな対象タスクにおいてimagenetから転送学習性能を向上させることを実証する。 コードはhttps://github.com/MadryLab/data-transferで入手できる。

It is commonly believed that in transfer learning including more pre-training data translates into better performance. However, recent evidence suggests that removing data from the source dataset can actually help too. In this work, we take a closer look at the role of the source dataset's composition in transfer learning and present a framework for probing its impact on downstream performance. Our framework gives rise to new capabilities such as pinpointing transfer learning brittleness as well as detecting pathologies such as data-leakage and the presence of misleading examples in the source dataset. In particular, we demonstrate that removing detrimental datapoints identified by our framework improves transfer learning performance from ImageNet on a variety of target tasks. Code is available at https://github.com/MadryLab/data-transfer
翻訳日:2022-07-13 15:08:24 公開日:2022-07-12
# 多様性に敏感な社会ロボットは人間と出会う―コンテキスト認識型AI以外にも

Diversity-aware social robots meet people: beyond context-aware embodied AI ( http://arxiv.org/abs/2207.05372v1 )

ライセンス: Link先を確認
Carmine Recchiuto, Antonio Sgorbissa(参考訳) ロボットは、年齢、人種、性別、認知能力、身体能力などに関係なく、相互作用する人の独特さを認識し、尊重し、評価するために、自身の振る舞いを適応し、再構成することができる。 最後に,ontologies と bayesian network に基づく技術ソリューションの可能性について論じる。

The article introduces the concept of "diversity-aware" robotics and discusses the need to develop computational models to embed robots with diversity-awareness: that is, robots capable of adapting and re-configuring their behavior to recognize, respect, and value the uniqueness of the person they interact with to promote inclusion regardless of their age, race, gender, cognitive or physical capabilities, etc. Finally, the article discusses possible technical solutions based on Ontologies and Bayesian Networks, starting from previous experience with culturally competent robots.
翻訳日:2022-07-13 15:08:10 公開日:2022-07-12
# 逐次レコメンデーションのためのマルチビヘイビアハイパーグラフ変換器

Multi-Behavior Hypergraph-Enhanced Transformer for Sequential Recommendation ( http://arxiv.org/abs/2207.05584v1 )

ライセンス: Link先を確認
Yuhao Yang, Chao Huang, Lianghao Xia, Yuxuan Liang, Yanwei Yu, Chenliang Li(参考訳) 動的ユーザ選好の学習は多くのオンラインプラットフォーム(ビデオ共有サイト、eコマースシステムなど)において、逐次レコメンデーションを行うためにますます重要になっている。 これまでの研究では、リカレントニューラルネットワークやセルフアテンション機構など、さまざまなアーキテクチャに基づいた、ユーザインタラクションシーケンス上の項目遷移のモデル化に多くの努力をしてきた。 最近登場したグラフニューラルネットワークは、逐次レコメンデーションシナリオでアイテム依存性をキャプチャする有用なバックボーンモデルとしても機能する。 それらの効果にもかかわらず、既存の手法は特定のタイプのインタラクションを持つアイテムシーケンス表現に重点を置いているため、ユーザとアイテム間の動的不均一な関係構造(ページビュー、アドボライトの追加、購入など)を捉えることに制限されている。 この課題に対処するために,複数ビヘイビアハイパーグラフ拡張トランスフォーマフレームワーク(MBHT)を設計し,短期および長期のクロスタイプ動作の依存関係を捉える。 具体的には、マルチスケール変圧器は、細粒度および粗粒度から挙動認識シーケンシャルパターンを共同で符号化する低ランクセルフアテンションを備える。 さらに、グローバルな多行動依存性をハイパーグラフニューラルネットワークに組み込んで、階層的な長距離アイテム相関をカスタマイズした方法でキャプチャする。 実験結果から, MBHT が様々な設定における様々な最先端レコメンデーションソリューションよりも優れていることが示された。 さらに,新たなMBHTフレームワークの有効性と,モデル設計の有効性について検討した。 実装コードはhttps://github.com/yuh-yang/mbht-kdd22。

Learning dynamic user preference has become an increasingly important component for many online platforms (e.g., video-sharing sites, e-commerce systems) to make sequential recommendations. Previous works have made many efforts to model item-item transitions over user interaction sequences, based on various architectures, e.g., recurrent neural networks and self-attention mechanism. Recently emerged graph neural networks also serve as useful backbone models to capture item dependencies in sequential recommendation scenarios. Despite their effectiveness, existing methods have far focused on item sequence representation with singular type of interactions, and thus are limited to capture dynamic heterogeneous relational structures between users and items (e.g., page view, add-to-favorite, purchase). To tackle this challenge, we design a Multi-Behavior Hypergraph-enhanced Transformer framework (MBHT) to capture both short-term and long-term cross-type behavior dependencies. Specifically, a multi-scale Transformer is equipped with low-rank self-attention to jointly encode behavior-aware sequential patterns from fine-grained and coarse-grained levels. Additionally, we incorporate the global multi-behavior dependency into the hypergraph neural architecture to capture the hierarchical long-range item correlations in a customized manner. Experimental results demonstrate the superiority of our MBHT over various state-of-the-art recommendation solutions across different settings. Further ablation studies validate the effectiveness of our model design and benefits of the new MBHT framework. Our implementation code is released at: https://github.com/yuh-yang/MBHT-KDD22.
翻訳日:2022-07-13 15:08:00 公開日:2022-07-12
# 非線形性を有するフルダブルプレクサにおける高速かつ適応的なディジタルSICのための並列APSM

Parallel APSM for Fast and Adaptive Digital SIC in Full-Duplex Transceivers with Nonlinearity ( http://arxiv.org/abs/2207.05461v1 )

ライセンス: Link先を確認
M. Hossein Attar, Omid Taghizadeh, Kaxin Chang, Ramez Askar, Matthias Mehlhose, Slawomir Stanczak(参考訳) 本稿では、FDモードで動作するトランシーバにおいて、デジタルドメイン自己干渉キャンセル(SIC)に適用可能なカーネルベースの適応フィルタを提案する。 FDでは、信号の同時送信と受信の利点は、強い自己干渉(SI)の価格で得られる。 本研究では,関数の再生核ヒルベルト空間(rkhs)における適応型フィルタであるapsm(adaptive projected subgradient method)を用いてsiを抑制することに関心を寄せる。 プロジェクションの概念を強力なツールとして使用することにより、APSMはSIをモデル化し、従って除去する。 並列プロジェクションとRKHSのカーネルトリックを利用する低複雑さかつ高速な追跡アルゴリズムが提供される。 提案手法の性能を実測データを用いて評価した。 本手法は,よく知られたベンチマークと比較し,提案する適応フィルタの性能を示す。 彼らは、カーネルベースのアルゴリズムが、適応フィルタリング法により、リッチで非線形な関数空間内で並列計算ベースの実装を実現しつつ、良好なレベルのデジタルSICを実現することを実証した。

This paper presents a kernel-based adaptive filter that is applied for the digital domain self-interference cancellation (SIC) in a transceiver operating in full-duplex (FD) mode. In FD, the benefit of simultaneous transmission and receiving of signals comes at the price of strong self-interference (SI). In this work, we are primarily interested in suppressing the SI using an adaptive filter namely adaptive projected subgradient method (APSM) in a reproducing kernel Hilbert space (RKHS) of functions. Using the projection concept as a powerful tool, APSM is used to model and consequently remove the SI. A low-complexity and fast-tracking algorithm is provided taking advantage of parallel projections as well as the kernel trick in RKHS. The performance of the proposed method is evaluated on real measurement data. The method illustrates the good performance of the proposed adaptive filter, compared to the known popular benchmarks. They demonstrate that the kernel-based algorithm achieves a favorable level of digital SIC while enabling parallel computation-based implementation within a rich and nonlinear function space, thanks to the employed adaptive filtering method.
翻訳日:2022-07-13 15:07:07 公開日:2022-07-12
# 回帰指標損失:医用画像における意味表現空間の学習

Regression Metric Loss: Learning a Semantic Representation Space for Medical Images ( http://arxiv.org/abs/2207.05231v1 )

ライセンス: Link先を確認
Hanqing Chao, Jiajin Zhang, Pingkun Yan(参考訳) 回帰は、様々な臨床リスクや測定スコアを推定するための多くの医療画像アプリケーションにおいて重要な役割を果たす。 医用画像分類タスクにおける深層ニューラルネットワークのトレーニング戦略と損失関数は研究されてきたが、回帰タスクの選択肢は非常に限られている。 重要な課題の1つは、平均二乗誤差やl1損失のような既存の一般的な損失関数から学んだ高次元特徴表現は、解釈が難しいことである。 本稿では,ラベル空間に等角な表現多様体を見つけることにより,表現空間にラベル空間の意味的意味を付与する新しい回帰距離損失(RM-Loss)を提案する。 冠状動脈カルシウムスコア評価と骨年齢評価という2つの回帰課題の実験は、RM-ロスが、パフォーマンスと解釈可能性の両方において、既存の一般的な回帰損失よりも優れていることを示している。 コードはhttps://github.com/DIAL-RPI/Regression-Metric-Lossで入手できる。

Regression plays an essential role in many medical imaging applications for estimating various clinical risk or measurement scores. While training strategies and loss functions have been studied for the deep neural networks in medical image classification tasks, options for regression tasks are very limited. One of the key challenges is that the high-dimensional feature representation learned by existing popular loss functions like Mean Squared Error or L1 loss is hard to interpret. In this paper, we propose a novel Regression Metric Loss (RM-Loss), which endows the representation space with the semantic meaning of the label space by finding a representation manifold that is isometric to the label space. Experiments on two regression tasks, i.e. coronary artery calcium score estimation and bone age assessment, show that RM-Loss is superior to the existing popular regression losses on both performance and interpretability. Code is available at https://github.com/DIAL-RPI/Regression-Metric-Loss.
翻訳日:2022-07-13 15:06:49 公開日:2022-07-12
# 水中マルチヒューマン・ロボット協調のための人間理解型ジェストラル言語のロボット検出

Robotic Detection of a Human-Comprehensible Gestural Language for Underwater Multi-Human-Robot Collaboration ( http://arxiv.org/abs/2207.05331v1 )

ライセンス: Link先を確認
Sadman Sakib Enan, Michael Fulton and Junaed Sattar(参考訳) 本稿では,自律型水中車両(AUV)とヒトダイバーの非言語コミュニケーションを可能にする移動型ロボット通信フレームワークを提案する。 AUV-to-AUV通信のためのジェスチャー言語を設計し、通常の無線周波数や光、オーディオベースのAUV通信とは異なり、会話を観察するダイバーが容易に理解できるようにする。 AUVが他のAUVからのジェスチャーを視覚的に理解できるようにするために,最大判別時空間特徴を抽出して各メッセージを認識するための自己認識機構を利用したディープネットワーク(RRCommNet)を提案する。 シミュレーションと実世界のさまざまなデータに基づいて,このネットワークをトレーニングする。 シミュレーションとクローズドウォーターロボット実験の両方において,提案するrrcommnetアーキテクチャは,シミュレーションデータで平均88~94%,実データで73~83%の精度でジェスチャベースのメッセージを解読できることを実証した。 さらに,人間とメッセージの書き起こし研究を行うことで,提案言語が人間によって理解され,全体の書き起こし精度は88%であることを示す。 最後に,組み込みGPUハードウェア上でのRRCommNetの推論ランタイムについて論じ,現場のAUV上でのリアルタイム利用について述べる。

In this paper, we present a motion-based robotic communication framework that enables non-verbal communication among autonomous underwater vehicles (AUVs) and human divers. We design a gestural language for AUV-to-AUV communication which can be easily understood by divers observing the conversation unlike typical radio frequency, light, or audio based AUV communication. To allow AUVs to visually understand a gesture from another AUV, we propose a deep network (RRCommNet) which exploits a self-attention mechanism to learn to recognize each message by extracting maximally discriminative spatio-temporal features. We train this network on diverse simulated and real-world data. Our experimental evaluations, both in simulation and in closed-water robot trials, demonstrate that the proposed RRCommNet architecture is able to decipher gesture-based messages with an average accuracy of 88-94% on simulated data, 73-83% on real data (depending on the version of the model used). Further, by performing a message transcription study with human participants, we also show that the proposed language can be understood by humans, with an overall transcription accuracy of 88%. Finally, we discuss the inference runtime of RRCommNet on embedded GPU hardware, for real-time use on board AUVs in the field.
翻訳日:2022-07-13 15:05:41 公開日:2022-07-12
# ビジョントランスのための秘密鍵を用いた画像とモデル変換

Image and Model Transformation with Secret Key for Vision Transformer ( http://arxiv.org/abs/2207.05366v1 )

ライセンス: Link先を確認
Hitoshi Kiya, Ryota Iijima and MaungMaung Aprilpyone, and Yuma Kinoshita(参考訳) 本稿では,秘密鍵に変換された画像と視覚変換器(ViT)モデルの組み合わせを提案する。 ViTアーキテクチャに基づいて,平易な画像でトレーニングされたモデルを直接暗号化された画像でトレーニングしたモデルに変換することができ,キーで暗号化されたテスト画像を使用する場合,その変換されたモデルの性能は,平易な画像でトレーニングされたモデルと同じであることを示す。 また,提案手法ではトレーニングモデルやネットワーク修正のための特別なデータを必要としないため,秘密鍵の更新も容易である。 実験では、CIFAR-10データセット上の画像分類タスクにおける性能劣化とモデル保護性能の観点から、提案手法の有効性を評価する。

In this paper, we propose a combined use of transformed images and vision transformer (ViT) models transformed with a secret key. We show for the first time that models trained with plain images can be directly transformed to models trained with encrypted images on the basis of the ViT architecture, and the performance of the transformed models is the same as models trained with plain images when using test images encrypted with the key. In addition, the proposed scheme does not require any specially prepared data for training models or network modification, so it also allows us to easily update the secret key. In an experiment, the effectiveness of the proposed scheme is evaluated in terms of performance degradation and model protection performance in an image classification task on the CIFAR-10 dataset.
翻訳日:2022-07-13 15:05:17 公開日:2022-07-12
# ピクセル高さマップを用いた制御可能な影生成

Controllable Shadow Generation Using Pixel Height Maps ( http://arxiv.org/abs/2207.05385v1 )

ライセンス: Link先を確認
Yichen Sheng, Yifan Liu, Jianming Zhang, Wei Yin, A. Cengiz Oztireli, He Zhang, Zhe Lin, Eli Shechtman, Bedrich Benes(参考訳) 影はリアルな画像合成に不可欠である。 物理ベースのシャドウレンダリング法は3次元のジオメトリーを必要とするが、必ずしも利用できない。 深層学習に基づく影合成法は、影の幾何学を明示的にモデル化することなく、光情報から物体の影へのマッピングを学ぶ。 それでも、コントロールがなく、ビジュアルなアーティファクトになりがちです。 オブジェクト,グラウンド,カメラのポーズ間の相関を符号化する新しい幾何学的表現であるピクセルハイを導入する。 画素の高さは3D測位から算出でき、手動で2D画像に注釈を付けることができ、また教師付きアプローチで一視点のRGB画像から予測することもできる。 投影幾何学に基づく2次元画像の硬い影の計算に使用することができ、影の方向と形状を正確に制御することができる。 さらに,ソフトネス入力パラメータに基づいたソフトネスをハードシャドウに適用するデータ駆動型ソフトシャドウ生成器を提案する。 定性的・定量的評価により,提案する画素高さはシャドウ生成の精度を大幅に向上し,制御性も向上した。

Shadows are essential for realistic image compositing. Physics-based shadow rendering methods require 3D geometries, which are not always available. Deep learning-based shadow synthesis methods learn a mapping from the light information to an object's shadow without explicitly modeling the shadow geometry. Still, they lack control and are prone to visual artifacts. We introduce pixel heigh, a novel geometry representation that encodes the correlations between objects, ground, and camera pose. The pixel height can be calculated from 3D geometries, manually annotated on 2D images, and can also be predicted from a single-view RGB image by a supervised approach. It can be used to calculate hard shadows in a 2D image based on the projective geometry, providing precise control of the shadows' direction and shape. Furthermore, we propose a data-driven soft shadow generator to apply softness to a hard shadow based on a softness input parameter. Qualitative and quantitative evaluations demonstrate that the proposed pixel height significantly improves the quality of the shadow generation while allowing for controllability.
翻訳日:2022-07-13 15:05:06 公開日:2022-07-12
# 小型・リッジ型自動指紋認識における画質劣化の影響について

On the Effects of Image Quality Degradation on Minutiae- and Ridge-Based Automatic Fingerprint Recognition ( http://arxiv.org/abs/2207.05447v1 )

ライセンス: Link先を確認
Julian Fierrez-Aguilar, Luis-Miguel Mu\~noz-Serrano, Fernando Alonso-Fernandez, Javier Ortega-Garcia(参考訳) 画像品質劣化が自動指紋認証の検証性能に及ぼす影響について検討した。 そこで本研究では, 指紋画像品質の異なる2種類の指紋整形器の性能について検討した。 リッジベースシステムは、多くの異なる画像品質基準のために、ミヌチアベースシステムよりも画像品質劣化に対してより堅牢であることが判明した。

The effect of image quality degradation on the verification performance of automatic fingerprint recognition is investigated. We study the performance of two fingerprint matchers based on minutiae and ridge information under varying fingerprint image quality. The ridge-based system is found to be more robust to image quality degradation than the minutiae-based system for a number of different image quality criteria.
翻訳日:2022-07-13 15:04:49 公開日:2022-07-12
# 指紋画像品質計算手法の検討

A review of schemes for fingerprint image quality computation ( http://arxiv.org/abs/2207.05449v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez-Aguilar, Javier Ortega-Garcia(参考訳) 指紋画像品質は指紋認証システムの性能に大きく影響する。 本稿では,指紋画像品質計算の既存手法について概説する。 また、9000個の指紋画像を含むMCYTデータベースを用いて、それらの選択を実装し、テストし、比較する。 実験の結果、ほとんどのアルゴリズムも同様に振る舞うことがわかった。

Fingerprint image quality affects heavily the performance of fingerprint recognition systems. This paper reviews existing approaches for fingerprint image quality computation. We also implement, test and compare a selection of them using the MCYT database including 9000 fingerprint images. Experimental results show that most of the algorithms behave similarly.
翻訳日:2022-07-13 15:04:44 公開日:2022-07-12
# 弱教師付き視聴覚暴力検出のための自己蒸留によるモダリティ認識型コントラストインスタンス学習

Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection ( http://arxiv.org/abs/2207.05500v1 )

ライセンス: Link先を確認
Jiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang(参考訳) 弱教師付き音声視覚暴力検出は、マルチモーダル暴力イベントを含むスニペットとビデオレベルのラベルを区別することを目的としている。 多くの先行作品は、初期または中間の方法でオーディオと視覚の統合と相互作用を行い、しかしながら、弱い教師付き設定のモダリティの不均一性を見下ろしている。 本稿では,マルチインスタンス学習 (mil) 手順のモダリティの非同期性と非微分インスタンス現象を分析し,その弱教師付き視聴覚学習への影響について検討する。 これらの課題に対処するために,自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。 具体的には、軽量な2ストリームネットワークを利用して音声と視覚のバッグを生成し、その背景、暴力的、正常なインスタンスを教師なしの方法でセミバッグにクラスタ化する。 次に、音声および視覚的暴力的半バッグ表現を正の対として組み立て、暴力的半バッグと反対のモードの背景および正常なインスタンスを対照的な負の対として組み合わせる。 さらに,単調な視覚知識を音響-視覚モデルに伝達するために自己蒸留モジュールを適用し,単調な特徴とマルチモーダルな特徴との間の意味的ギャップを緩和し,閉鎖する。 実験の結果,大規模なXD-Violenceデータセットでは,従来の手法よりも複雑度が低い。 また,提案手法はプラグインモジュールとして他のネットワークを拡張できることを示す。 コードはhttps://github.com/JustinYuu/MACIL_SDで入手できる。

Weakly-supervised audio-visual violence detection aims to distinguish snippets containing multimodal violence events with video-level labels. Many prior works perform audio-visual integration and interaction in an early or intermediate manner, yet overlooking the modality heterogeneousness over the weakly-supervised setting. In this paper, we analyze the modality asynchrony and undifferentiated instances phenomena of the multiple instance learning (MIL) procedure, and further investigate its negative impact on weakly-supervised audio-visual learning. To address these issues, we propose a modality-aware contrastive instance learning with self-distillation (MACIL-SD) strategy. Specifically, we leverage a lightweight two-stream network to generate audio and visual bags, in which unimodal background, violent, and normal instances are clustered into semi-bags in an unsupervised way. Then audio and visual violent semi-bag representations are assembled as positive pairs, and violent semi-bags are combined with background and normal instances in the opposite modality as contrastive negative pairs. Furthermore, a self-distillation module is applied to transfer unimodal visual knowledge to the audio-visual model, which alleviates noises and closes the semantic gap between unimodal and multimodal features. Experiments show that our framework outperforms previous methods with lower complexity on the large-scale XD-Violence dataset. Results also demonstrate that our proposed approach can be used as plug-in modules to enhance other networks. Codes are available at https://github.com/JustinYuu/MACIL_SD.
翻訳日:2022-07-13 15:02:53 公開日:2022-07-12
# ビデオ分類における長期的跳躍注意と短期的周期シフト

Long-term Leap Attention, Short-term Periodic Shift for Video Classification ( http://arxiv.org/abs/2207.05526v1 )

ライセンス: Link先を確認
Hao Zhang, Lechao Cheng, Yanbin Hao, Chong-Wah Ngo(参考訳) ビデオ変換器は、現在の2次複雑性の注意の下で、前者が後者よりもT$倍長いシーケンスを処理したため、静的視覚変換器よりも計算負荷がかかる。 既存の作品では、時間軸を空間軸の単純な拡張として扱い、時間的冗長性を利用することなく、汎用的なプールまたは局所ウィンドウによる時空間シーケンスの短縮に焦点を当てている。 しかし,映像には自然に隣接するフレーム間の冗長な情報が含まれるため,視覚的に類似したフレームに対する注意を希薄に抑えることができる。 この仮説に基づいて,ビデオトランスフォーマーの長期 '`\textbf{\textit{Leap Attention}}'' (LA), 短期 ``\textbf{\textit{Periodic Shift}}'' (\textit{P}-Shift) モジュールを$(2TN^2)$の複雑さで提案する。 具体的には、 `LA'' 群は長期フレームをペアに分割し、各離散ペアを注意してリファクタリングする。 ``\textit{p}-shift''' は、短期的ダイナミクスの喪失に直面する時間的近傍間の特徴を交換する。 バニラ2dの注意をラップに置き換えることで、静止トランスフォーマーをビデオに適応させ、余分なパラメータと無視可能な計算オーバーヘッド($\sim$2.6\%)をなくすことができた。 標準kinetics-400ベンチマークによる実験では、lapsトランスフォーマーがcnnとtransformer sotaの精度、フラップ、パラムで競合性能を発揮できることが示されている。 私たちはこのプロジェクトを、 \sloppy \href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}}} でオープンソース化しました。

Video transformer naturally incurs a heavier computation burden than a static vision transformer, as the former processes $T$ times longer sequence than the latter under the current attention of quadratic complexity $(T^2N^2)$. The existing works treat the temporal axis as a simple extension of spatial axes, focusing on shortening the spatio-temporal sequence by either generic pooling or local windowing without utilizing temporal redundancy. However, videos naturally contain redundant information between neighboring frames; thereby, we could potentially suppress attention on visually similar frames in a dilated manner. Based on this hypothesis, we propose the LAPS, a long-term ``\textbf{\textit{Leap Attention}}'' (LA), short-term ``\textbf{\textit{Periodic Shift}}'' (\textit{P}-Shift) module for video transformers, with $(2TN^2)$ complexity. Specifically, the ``LA'' groups long-term frames into pairs, then refactors each discrete pair via attention. The ``\textit{P}-Shift'' exchanges features between temporal neighbors to confront the loss of short-term dynamics. By replacing a vanilla 2D attention with the LAPS, we could adapt a static transformer into a video one, with zero extra parameters and neglectable computation overhead ($\sim$2.6\%). Experiments on the standard Kinetics-400 benchmark demonstrate that our LAPS transformer could achieve competitive performances in terms of accuracy, FLOPs, and Params among CNN and transformer SOTAs. We open-source our project in \sloppy \href{https://github.com/VideoNetworks/LAPS-transformer}{\textit{\color{magenta}{https://github.com/VideoNetworks/LAPS-transformer}}} .
翻訳日:2022-07-13 15:02:24 公開日:2022-07-12
# 画像と事象の融合に基づくエゴモーション推定

Ego-motion Estimation Based on Fusion of Images and Events ( http://arxiv.org/abs/2207.05588v1 )

ライセンス: Link先を確認
Liren Yang(参考訳) イベントカメラは、イベントストリームを出力するバイオインスパイアされた新しい視覚センサーである。 本稿では,従来の強度画像とイベントストリームを融合させるEASと呼ばれる新しいデータ融合アルゴリズムを提案する。 融合結果はいくつかのエゴモーション推定フレームワークに適用され、dimシーンで取得した公開データセット上で評価される。 当社の3DoF回転推定フレームワークでは,イベントスライス,TS,SITSなどのイベントの強度画像と表現の最も高い推定精度を実現している。 オリジナルの画像と比較すると、EASはトラッキングにより多くの機能を含めることで、平均的なAPEを69%削減する。 その結果,このアルゴリズムは高ダイナミックレンジのイベントカメラを効果的に活用し,難照度条件下での光フロートラッキングに基づくエゴモーション推定フレームワークの性能向上を図っている。

Event camera is a novel bio-inspired vision sensor that outputs event stream. In this paper, we propose a novel data fusion algorithm called EAS to fuse conventional intensity images with the event stream. The fusion result is applied to some ego-motion estimation frameworks, and is evaluated on a public dataset acquired in dim scenes. In our 3-DoF rotation estimation framework, EAS achieves the highest estimation accuracy among intensity images and representations of events including event slice, TS and SITS. Compared with original images, EAS reduces the average APE by 69%, benefiting from the inclusion of more features for tracking. The result shows that our algorithm effectively leverages the high dynamic range of event cameras to improve the performance of the ego-motion estimation framework based on optical flow tracking in difficult illumination conditions.
翻訳日:2022-07-13 15:01:49 公開日:2022-07-12
# 単一入力画像からのNeRF画像合成のための視覚変換器

Vision Transformer for NeRF-Based View Synthesis from a Single Input Image ( http://arxiv.org/abs/2207.05736v1 )

ライセンス: Link先を確認
Kai-En Lin, Lin Yen-Chen, Wei-Sheng Lai, Tsung-Yi Lin, Yi-Chang Shih, Ravi Ramamoorthi(参考訳) ニューラルレイディアンス場(NeRF)は、新しいビュー合成の顕著な進歩を示しているが、ほとんどの方法は、通常、正確なカメラポーズを持つ同じシーンの複数の入力画像を必要とする。 本研究では,1つの未提示画像への入力を大幅に削減する。 既存の3Dオブジェクトを再構成するローカル画像の特徴に対する条件は、しばしばソースビューから遠く離れた視点でぼやけた予測をレンダリングする。 この問題に対処するために,グローバルな特徴とローカルな特徴の両方を活用して表現力のある3D表現を提案する。 グローバルな特徴は視覚変換器から学習され、局所的な特徴は2次元畳み込みネットワークから抽出される。 新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。 この新しい3D表現により、ネットワークは対称性や標準座標系のような制約を課さずに、見えない領域を再構築することができる。 本手法は,単一の入力画像から新たなビューを描画し,単一のモデルを用いて複数のオブジェクトカテゴリにまたがって一般化する。 定量的かつ定性的な評価は,提案手法が最先端の性能を達成し,既存手法よりも詳細な処理を行うことを示す。

Although neural radiance fields (NeRF) have shown impressive advances for novel view synthesis, most methods typically require multiple input images of the same scene with accurate camera poses. In this work, we seek to substantially reduce the inputs to a single unposed image. Existing approaches condition on local image features to reconstruct a 3D object, but often render blurry predictions at viewpoints that are far away from the source view. To address this issue, we propose to leverage both the global and local features to form an expressive 3D representation. The global features are learned from a vision transformer, while the local features are extracted from a 2D convolutional network. To synthesize a novel view, we train a multilayer perceptron (MLP) network conditioned on the learned 3D representation to perform volume rendering. This novel 3D representation allows the network to reconstruct unseen regions without enforcing constraints like symmetry or canonical coordinate systems. Our method can render novel views from only a single input image and generalize across multiple object categories using a single model. Quantitative and qualitative evaluations demonstrate that the proposed method achieves state-of-the-art performance and renders richer details than existing approaches.
翻訳日:2022-07-13 15:01:38 公開日:2022-07-12
# 西地中海湿原の鳥類種分類:新しい注釈付きデータセットによる小型深層学習手法の評価

Western Mediterranean wetlands bird species classification: evaluating small-footprint deep learning approaches on a new annotated dataset ( http://arxiv.org/abs/2207.05393v1 )

ライセンス: Link先を確認
Juan G\'omez-G\'omez, Ester Vida\~na-Vila, Xavier Sevillano(参考訳) 鳥種を音から認識する生体音響監視装置からなる無線音響センサネットワーク上でのエキスパートシステムの展開は、鳥の個体群組成の分析や環境問題領域における絶滅危惧種の検出など、多くの生態的価値のタスクの自動化を可能にする。 ディープラーニング技術が優れている人工知能の最新の進歩のおかげで、これらのデバイスに正確な音声分類機能を持たせることができる。 しかし、バイオ音響デバイスを安価にするための重要な問題は、リソースとバッテリに制約のあるハードウェアプラットフォームに組み込むことができる小さなフットプリントのディープニューラルネットワークを使用することである。 このことから、本研究では、重大と大規模のディープニューラルネットワーク(vgg16とresnet50)と、軽量な代替手段であるmobilenetv2との批判的な比較分析を行う。 実験の結果,MobileNetV2 は ResNet50 (0.789 vs. 0.834) よりも平均 F1 スコア以下で,フットプリントサイズが 40 倍近い VGG16 よりも優れていた。 さらに,本モデルと比較するため,Aiguamolls de l'Empord\`a Natural Parkの20種の固有鳥類の201.6分と5,795種のオーディオ抜粋からなる西地中海湿地鳥類データセットを作成した。

The deployment of an expert system running over a wireless acoustic sensors network made up of bioacoustic monitoring devices that recognise bird species from their sounds would enable the automation of many tasks of ecological value, including the analysis of bird population composition or the detection of endangered species in areas of environmental interest. Endowing these devices with accurate audio classification capabilities is possible thanks to the latest advances in artificial intelligence, among which deep learning techniques excel. However, a key issue to make bioacoustic devices affordable is the use of small footprint deep neural networks that can be embedded in resource and battery constrained hardware platforms. For this reason, this work presents a critical comparative analysis between two heavy and large footprint deep neural networks (VGG16 and ResNet50) and a lightweight alternative, MobileNetV2. Our experimental results reveal that MobileNetV2 achieves an average F1-score less than a 5\% lower than ResNet50 (0.789 vs. 0.834), performing better than VGG16 with a footprint size nearly 40 times smaller. Moreover, to compare the models, we have created and made public the Western Mediterranean Wetland Birds dataset, consisting of 201.6 minutes and 5,795 audio excerpts of 20 endemic bird species of the Aiguamolls de l'Empord\`a Natural Park.
翻訳日:2022-07-13 15:00:36 公開日:2022-07-12
# スケーラブルベイズ推定による天文学画像の検出と復号化

Scalable Bayesian Inference for Detection and Deblending in Astronomical Images ( http://arxiv.org/abs/2207.05642v1 )

ライセンス: Link先を確認
Derek Hansen, Ismael Mendoza, Runjing Liu, Ziteng Pang, Zhe Zhao, Camille Avestruz, Jeffrey Regier(参考訳) 本稿では,bayesian light source separator (bliss) と呼ばれる天文学的源の検出,分解,カタログ作成のための新しい確率論的手法を提案する。 BLISSは、ベイズモデルにニューラルネットワークを組み込む深層生成モデルに基づいている。 後部推論では、BLISSはForward Amortized Variational Inferenceとして知られる新しい形態の変分推論を使用している。 BLISS推論ルーチンは高速で、エンコーダネットワークのトレーニングが完了すると、GPU上のエンコーダネットワークの1つのフォワードパスが必要になる。 BLISSはメガピクセル画像のベイズ推定を数秒で行うことができ、高精度なカタログを生成する。 BLISSは非常に拡張性が高く、確率論的カタログの作成に加えて下流の科学的疑問に直接答える可能性がある。

We present a new probabilistic method for detecting, deblending, and cataloging astronomical sources called the Bayesian Light Source Separator (BLISS). BLISS is based on deep generative models, which embed neural networks within a Bayesian model. For posterior inference, BLISS uses a new form of variational inference known as Forward Amortized Variational Inference. The BLISS inference routine is fast, requiring a single forward pass of the encoder networks on a GPU once the encoder networks are trained. BLISS can perform fully Bayesian inference on megapixel images in seconds, and produces highly accurate catalogs. BLISS is highly extensible, and has the potential to directly answer downstream scientific questions in addition to producing probabilistic catalogs.
翻訳日:2022-07-13 15:00:06 公開日:2022-07-12
# fedpseudo:federated survival analysisのための疑似値に基づくディープラーニングモデル

FedPseudo: Pseudo value-based Deep Learning Models for Federated Survival Analysis ( http://arxiv.org/abs/2207.05247v1 )

ライセンス: Link先を確認
Md Mahmudur Rahman, Sanjay Purushotham(参考訳) 生存分析(Survival analysis, time-to-event analysis)は、患者や緩和ケアに広範囲に影響を及ぼす医療において重要な問題である。 多くのサバイバル分析手法は、サバイバルデータが1つの医療センターから、あるいはマルチセンターからのデータ共有によって、中心的に利用可能であると仮定している。 しかし、患者の属性の感度と厳格なプライバシー法は、医療データの共有を禁止している。 この課題に対処するため、研究コミュニティは、フェデレーション・ラーニング(fl)パラダイムを用いた分散トレーニングとモデルパラメータの共有のソリューションを検討してきた。 本稿では,分散医療データセットの生存分析におけるFLの利用について検討する。 近年、一般的なCox比例ハザード(CPH)モデルがFL設定に適用されているが、その線形性と比例ハザードの仮定により、CPHモデルは、特に非線形、非ID、および高度に検閲された生存データセットにおいて、最適以下の性能をもたらす。 既存のフェデレート生存率解析手法の課題を克服するために,深層学習モデルの予測精度と擬似値のパワーを活用し,フェデレート生存率解析(federated survival analysis, fsa)のための初歩的な擬似価値に基づく深層学習モデルであるfederated survival analysis(federated survival analysis, fsa)を提案する。 さらに,仮想値の計算を高速化するfl設定において,生存確率の擬似値を導出する新しい手法を提案する。 人工および実世界のデータセットに関する広範囲な実験により、我々の擬似価値ベースのflフレームワークは、最高の中央訓練された深層生存分析モデルと同等の性能を達成していることが示された。 さらに,提案手法は,様々な検閲設定において最適な結果を得る。

Survival analysis, time-to-event analysis, is an important problem in healthcare since it has a wide-ranging impact on patients and palliative care. Many survival analysis methods have assumed that the survival data is centrally available either from one medical center or by data sharing from multi-centers. However, the sensitivity of the patient attributes and the strict privacy laws have increasingly forbidden sharing of healthcare data. To address this challenge, the research community has looked at the solution of decentralized training and sharing of model parameters using the Federated Learning (FL) paradigm. In this paper, we study the utilization of FL for performing survival analysis on distributed healthcare datasets. Recently, the popular Cox proportional hazard (CPH) models have been adapted for FL settings; however, due to its linearity and proportional hazards assumptions, CPH models result in suboptimal performance, especially for non-linear, non-iid, and heavily censored survival datasets. To overcome the challenges of existing federated survival analysis methods, we leverage the predictive accuracy of the deep learning models and the power of pseudo values to propose a first-of-its-kind, pseudo value-based deep learning model for federated survival analysis (FSA) called FedPseudo. Furthermore, we introduce a novel approach of deriving pseudo values for survival probability in the FL settings that speeds up the computation of pseudo values. Extensive experiments on synthetic and real-world datasets show that our pseudo valued-based FL framework achieves similar performance as the best centrally trained deep survival analysis model. Moreover, our proposed FL approach obtains the best results for various censoring settings.
翻訳日:2022-07-13 14:59:53 公開日:2022-07-12
# 擬似値に基づく多状態生存解析のためのディープニューラルネットワーク

Pseudo value-based Deep Neural Networks for Multi-state Survival Analysis ( http://arxiv.org/abs/2207.05291v1 )

ライセンス: Link先を確認
Md Mahmudur Rahman, Sanjay Purushotham(参考訳) マルチステートサバイバル分析(MSA)は、時系列データの解析にマルチステートモデルを使用する。 医学的応用においては、MSAは患者の複雑な疾患進行に関する洞察を与えることができる。 MSAにおける重要な課題は、検閲の存在下での遷移確率や状態占有確率などの多状態モデル量の正確な主観的予測である。 Aalen-Johansen (AJ) 推定法やCox-based法のような従来の多状態法はマルコフと比例的ハザード仮定によってそれぞれ制限されており、主観的な予測を行うには有効ではない。 MSAのニューラル常微分方程式はこれらの仮定を緩和するが、計算コストが高く、遷移確率を直接モデル化しない。 これらの制約に対処するため、我々は、多状態生存分析のための擬似値に基づく深層学習モデルのクラスを提案し、そこでは、一貫した推定器から導出される多状態モデル量を推定するための疑似値(検閲処理用に設計された)が自然に置き換えられることを示す。 特に,被験者の共変量から複数状態生存量を直接予測するために,一貫した推定値から疑似値を導出するアルゴリズムを提案する。 合成および実世界のデータセットにおける実験結果から,提案したモデルが様々な検閲条件下で最先端の結果を得ることを示す。

Multi-state survival analysis (MSA) uses multi-state models for the analysis of time-to-event data. In medical applications, MSA can provide insights about the complex disease progression in patients. A key challenge in MSA is the accurate subject-specific prediction of multi-state model quantities such as transition probability and state occupation probability in the presence of censoring. Traditional multi-state methods such as Aalen-Johansen (AJ) estimators and Cox-based methods are respectively limited by Markov and proportional hazards assumptions and are infeasible for making subject-specific predictions. Neural ordinary differential equations for MSA relax these assumptions but are computationally expensive and do not directly model the transition probabilities. To address these limitations, we propose a new class of pseudo-value-based deep learning models for multi-state survival analysis, where we show that pseudo values - designed to handle censoring - can be a natural replacement for estimating the multi-state model quantities when derived from a consistent estimator. In particular, we provide an algorithm to derive pseudo values from consistent estimators to directly predict the multi-state survival quantities from the subject's covariates. Empirical results on synthetic and real-world datasets show that our proposed models achieve state-of-the-art results under various censoring settings.
翻訳日:2022-07-13 14:58:59 公開日:2022-07-12
# 解釈可能な機械学習による母と子の結果の予測

Using Interpretable Machine Learning to Predict Maternal and Fetal Outcomes ( http://arxiv.org/abs/2207.05322v1 )

ライセンス: Link先を確認
Tomas M. Bosschieter, Zifei Xu, Hui Lan, Benjamin J. Lengerich, Harsha Nori, Kristin Sitcov, Vivienne Souter, Rich Caruana(参考訳) ほとんどの妊娠と出生は良い結果をもたらすが、合併症はまれではなく、発生しても母親や赤ちゃんに深刻な影響をもたらす可能性がある。 予測モデリングは、リスク要因の理解を深め、監視を強化し、よりタイムリーで適切な介入を行うことによって、結果を改善する可能性を秘めている。 3種類の合併症に対して,ガラス箱モデルであるEBM(Explainable Boosting Machine)を用いて,最も重要なリスク要因を特定し,検討する。 (i)重度の母性死亡(smm) (二)肩ジストシア、及び (iii)早産(preterm preeclampsia)。 EBMの解釈可能性を用いて、リスクに寄与する特徴に関する驚くべき洞察を明らかにする一方で、実験により、EBMはディープニューラルネットやランダムフォレストといった他のブラックボックスML手法の精度と一致することが示された。

Most pregnancies and births result in a good outcome, but complications are not uncommon and when they do occur, they can be associated with serious implications for mothers and babies. Predictive modeling has the potential to improve outcomes through better understanding of risk factors, heightened surveillance, and more timely and appropriate interventions, thereby helping obstetricians deliver better care. For three types of complications we identify and study the most important risk factors using Explainable Boosting Machine (EBM), a glass box model, in order to gain intelligibility: (i) Severe Maternal Morbidity (SMM), (ii) shoulder dystocia, and (iii) preterm preeclampsia. While using the interpretability of EBM's to reveal surprising insights into the features contributing to risk, our experiments show EBMs match the accuracy of other black-box ML methods such as deep neural nets and random forests.
翻訳日:2022-07-13 14:58:39 公開日:2022-07-12
# 機械学習の実践的攻撃 : 逆窓マルウェアを事例として

Practical Attacks on Machine Learning: A Case Study on Adversarial Windows Malware ( http://arxiv.org/abs/2207.05548v1 )

ライセンス: Link先を確認
Luca Demetrio and Battista Biggio and Fabio Roli(参考訳) 機械学習は敵の例に弱いが、異なるアプリケーションコンテキストにおけるセキュリティを評価するための体系的な手順やツールがまだ欠けている。 本稿では,実践的な攻撃による機械学習の自動かつスケーラブルなセキュリティ評価の開発方法について論じ,Windows マルウェア検出のユースケースを報告する。

While machine learning is vulnerable to adversarial examples, it still lacks systematic procedures and tools for evaluating its security in different application contexts. In this article, we discuss how to develop automated and scalable security evaluations of machine learning using practical attacks, reporting a use case on Windows malware detection.
翻訳日:2022-07-13 14:58:22 公開日:2022-07-12
# 人的影響におけるラベル関係から学ぶ

Learning from Label Relationships in Human Affect ( http://arxiv.org/abs/2207.05577v1 )

ライセンス: Link先を確認
Niki Maria Foteinopoulou, Ioannis Patras(参考訳) 人間の感情と精神状態の自動推定は、粗悪な、あるいは時間的解決のないラベルから学ぶこと、ほとんどデータを持たない少数のデータセットから学ぶこと(しばしば機密性の制約によって)、そして(非常に)細長いビデオなど、多くの困難に直面します。 これらの理由から、ディープラーニングの方法論は、最終回帰タスクの一般化性能が低い潜在表現に過剰に適合する傾向がある。 これを解決するために、本稿では2つの補完的な貢献を紹介する。 まず,多段回帰と順序問題に対する新しい関係損失を導入し,学習を規則化し,よりよい一般化に導く。 提案した損失はラベルベクトル相互関係情報を用いて、バッチラベル距離を潜在特徴空間内の距離に合わせることにより、より優れた潜在表現を学習する。 第2に,隣接するクリップの特徴を時間的文脈として使用することにより,各クリップのターゲットを推定する2段階のアテンションアーキテクチャを利用する。 提案手法は連続的影響と統合失調症の重症度推定問題の両方について評価し,両者の間には方法論的・文脈的平行性があることを示した。 実験の結果,提案手法がすべてのベースラインを上回った。 統合失調症の領域では、提案手法は従来の最先端技術よりも大きなマージンで優れており、PCCは人間の専門家(85%)よりも最大78%、以前の研究(40%)よりもはるかに高いパフォーマンスを達成している。 影響認識の場合,OMGデータセットとAMIGOSデータセットの両方において,従来のビジョンベース手法よりもCCCの方が優れていた。 特にamigosでは、arousalとvalenceの両方で以前のsoma cccを9%と13%で上回り、omgデータセットでは、arousalとvalenceの両方で、以前のビジョンワークを最大5%上回っています。

Human affect and mental state estimation in an automated manner, face a number of difficulties, including learning from labels with poor or no temporal resolution, learning from few datasets with little data (often due to confidentiality constraints) and, (very) long, in-the-wild videos. For these reasons, deep learning methodologies tend to overfit, that is, arrive at latent representations with poor generalisation performance on the final regression task. To overcome this, in this work, we introduce two complementary contributions. First, we introduce a novel relational loss for multilabel regression and ordinal problems that regularises learning and leads to better generalisation. The proposed loss uses label vector inter-relational information to learn better latent representations by aligning batch label distances to the distances in the latent feature space. Second, we utilise a two-stage attention architecture that estimates a target for each clip by using features from the neighbouring clips as temporal context. We evaluate the proposed methodology on both continuous affect and schizophrenia severity estimation problems, as there are methodological and contextual parallels between the two. Experimental results demonstrate that the proposed methodology outperforms all baselines. In the domain of schizophrenia, the proposed methodology outperforms previous state-of-the-art by a large margin, achieving a PCC of up to 78% performance close to that of human experts (85%) and much higher than previous works (uplift of up to 40%). In the case of affect recognition, we outperform previous vision-based methods in terms of CCC on both the OMG and the AMIGOS datasets. Specifically for AMIGOS, we outperform previous SoTA CCC for both arousal and valence by 9% and 13% respectively, and in the OMG dataset we outperform previous vision works by up to 5% for both arousal and valence.
翻訳日:2022-07-13 14:58:16 公開日:2022-07-12
# (参考訳) ゼロショットクロスリンガルトランスファーは過小条件の最適化である

Zero-shot Cross-lingual Transfer is Under-specified Optimization ( http://arxiv.org/abs/2207.05666v1 )

ライセンス: CC BY 4.0
Shijie Wu, Benjamin Van Durme, Mark Dredze(参考訳) 事前訓練された多言語エンコーダはゼロショットの言語間転送を可能にするが、しばしばターゲット言語で高い性能のばらつきを示す信頼性の低いモデルを生成する。 この高分散は、未特定最適化問題を解くゼロショット言語間移動によるものであると仮定する。 ソース言語単言語モデルとソース+ターゲットバイリンガルモデルの間の線形補間モデルは、等しく低いソース言語一般化誤差を持つが、ターゲット言語一般化誤差は、モノリンガルモデルからバイリンガルモデルへの移行に伴って、滑らかかつ線形的に減少し、ソース言語のみを用いてソース言語とターゲット言語の両方にとって良い解を見つけるのに苦慮していることを示す。 さらに、ゼロショット解はターゲット言語誤り一般化曲面の非平坦領域にあり、高い分散を引き起こすことを示す。

Pretrained multilingual encoders enable zero-shot cross-lingual transfer, but often produce unreliable models that exhibit high performance variance on the target language. We postulate that this high variance results from zero-shot cross-lingual transfer solving an under-specified optimization problem. We show that any linear-interpolated model between the source language monolingual model and source + target bilingual model has equally low source language generalization error, yet the target language generalization error reduces smoothly and linearly as we move from the monolingual to bilingual model, suggesting that the model struggles to identify good solutions for both source and target languages using the source language alone. Additionally, we show that zero-shot solution lies in non-flat region of target language error generalization surface, causing the high variance.
翻訳日:2022-07-13 14:56:24 公開日:2022-07-12
# 自己監督型時空間運動を先行した人体捕集

Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion Prior ( http://arxiv.org/abs/2207.05375v1 )

ライセンス: Link先を確認
Buzhen Huang, Yuan Shu, Jingyi Ju, Yangang Wang(参考訳) 近年, モノクロメーカレスモーションキャプチャでは大きな進歩がみられてきたが, 閉塞シナリオにおける満足な結果を得るためには, 最先端の手法がいまだに困難である。 一つは、様々な3dポーズが同じ2次元の観測にマップできるため、オクルードされたモーションキャプチャは本質的に曖昧であり、常に信頼できない推定となる。 もう1つは、ロバストなモデルのトレーニングに十分な人間のデータが使えないことである。 障害に対処するために,本研究のキー・イデアは,非閉塞型人間データを用いて,自己教師付き戦略による閉塞型人間に先立って,関節レベルの空間-時空間運動を学習することである。 合成データと実際のオクルージョンデータのギャップをさらに小さくするため、トレーニングとテストの両方に使用できる最初の3d occluded motion dataset~(ocmotion)を構築した。 本研究では,2次元地図の動作を符号化し,非閉塞データからオクルージョンを合成する。 次に、空間時間層が結合レベル相関を学習するように設計される。 学習前は咬合の曖昧さを減少させ, 多様な咬合型に対して頑健であり, 閉塞した人間のモーションキャプチャを補助する。 実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることを示す。 データセットとコードは \url{https://github.com/boycehbz/CHOMP} で公開されている。

Although significant progress has been achieved on monocular maker-less human motion capture in recent years, it is still hard for state-of-the-art methods to obtain satisfactory results in occlusion scenarios. There are two main reasons: the one is that the occluded motion capture is inherently ambiguous as various 3D poses can map to the same 2D observations, which always results in an unreliable estimation. The other is that no sufficient occluded human data can be used for training a robust model. To address the obstacles, our key-idea is to employ non-occluded human data to learn a joint-level spatial-temporal motion prior for occluded human with a self-supervised strategy. To further reduce the gap between synthetic and real occlusion data, we build the first 3D occluded motion dataset~(OcMotion), which can be used for both training and testing. We encode the motions in 2D maps and synthesize occlusions on non-occluded data for the self-supervised training. A spatial-temporal layer is then designed to learn joint-level correlations. The learned prior reduces the ambiguities of occlusions and is robust to diverse occlusion types, which is then adopted to assist the occluded human motion capture. Experimental results show that our method can generate accurate and coherent human motions from occluded videos with good generalization ability and runtime efficiency. The dataset and code are publicly available at \url{https://github.com/boycehbz/CHOMP}.
翻訳日:2022-07-13 14:36:18 公開日:2022-07-12
# アニメ文字シートを用いた協調ニューラルレンダリング

Collaborative Neural Rendering using Anime Character Sheets ( http://arxiv.org/abs/2207.05378v1 )

ライセンス: Link先を確認
Zuzeng Lin, Ailin Huang, Zhewei Huang, Chen Hu, Shuchang Zhou(参考訳) アニメ制作において、所望のポーズでキャラクターの絵を描くことは必須だが手間がかかる作業である。 本稿では、文字シートで利用可能な任意に提示された参照画像から新しい画像を生成するコラボレーティブ・ニューラルレンダリング(CoNR)手法を提案する。 概して、アニメキャラクターの身体形状の多様性は、smplのような現実世界の人間に対する普遍的なボディモデルの雇用を損なう。 この難しさを克服するため、CoNRはコンパクトで分かりやすいランドマークエンコーディングを使用して、パイプライン内で統一されたUVマッピングを作成することを避ける。 さらに、特別に設計されたニューラルネットワーク構造において、特徴空間のクロスビュー密度対応とワープを用いて複数の参照画像を持つ場合、CoNRの性能を著しく向上させることができる。 また,70万以上の手書き合成画像を含む文字シートデータセットを収集し,この領域の研究を容易にする。

Drawing images of characters at desired poses is an essential but laborious task in anime production. In this paper, we present the Collaborative Neural Rendering~(CoNR) method to create new images from a few arbitrarily posed reference images available in character sheets. In general, the high diversity of body shapes of anime characters defies the employment of universal body models for real-world humans, like SMPL. To overcome this difficulty, CoNR uses a compact and easy-to-obtain landmark encoding to avoid creating a unified UV mapping in the pipeline. In addition, CoNR's performance can be significantly increased when having multiple reference images by using feature space cross-view dense correspondence and warping in a specially designed neural network construct. Moreover, we collect a character sheet dataset containing over 700,000 hand-drawn and synthesized images of diverse poses to facilitate research in this area.
翻訳日:2022-07-13 14:35:51 公開日:2022-07-12
# 敵攻撃に対する周波数領域モデル拡張

Frequency Domain Model Augmentation for Adversarial Attack ( http://arxiv.org/abs/2207.05382v1 )

ライセンス: Link先を確認
Yuyang Long, Qilong Zhang, Boheng Zeng, Lianli Gao, Xianglong Liu, Jian Zhang, Jingkuan Song(参考訳) ブラックボックス攻撃の場合、代替モデルと被害者モデルのギャップは通常大きいため、攻撃性能が弱いことが分かる。 多様なモデルを同時に攻撃することにより,逆行例の伝達性が向上できるという観測結果から,変換画像を用いて異なるモデルをシミュレートするモデル拡張手法を提案する。 しかし、既存の空間領域の変換は、著しく多様な拡張モデルに変換されない。 この問題に対処するため,我々は,通常訓練されたモデルと防御モデルの両方に対して,より転送可能な攻撃例を作成するための新しいスペクトルシミュレーション攻撃を提案する。 具体的には、入力にスペクトル変換を適用し、周波数領域におけるモデル拡張を行う。 周波数領域から導出される変換が,代用モデルの多様性を反映する指標として,スペクトル塩分率マップの多様性につながることを理論的に証明する。 特に,本手法は既存の攻撃と組み合わせることができる。 imagenetデータセットに関する広範な実験は、平均成功率95.4\%で9つの最先端の防御モデルを攻撃する方法である \textit{e.g.} の有効性を示している。 私たちのコードは \url{https://github.com/yuyang-long/SSA} で利用可能です。

For black-box attacks, the gap between the substitute model and the victim model is usually large, which manifests as a weak attack performance. Motivated by the observation that the transferability of adversarial examples can be improved by attacking diverse models simultaneously, model augmentation methods which simulate different models by using transformed images are proposed. However, existing transformations for spatial domain do not translate to significantly diverse augmented models. To tackle this issue, we propose a novel spectrum simulation attack to craft more transferable adversarial examples against both normally trained and defense models. Specifically, we apply a spectrum transformation to the input and thus perform the model augmentation in the frequency domain. We theoretically prove that the transformation derived from frequency domain leads to a diverse spectrum saliency map, an indicator we proposed to reflect the diversity of substitute models. Notably, our method can be generally combined with existing attacks. Extensive experiments on the ImageNet dataset demonstrate the effectiveness of our method, \textit{e.g.}, attacking nine state-of-the-art defense models with an average success rate of \textbf{95.4\%}. Our code is available in \url{https://github.com/yuyang-long/SSA}.
翻訳日:2022-07-13 14:35:37 公開日:2022-07-12
# 忘れずに学習することでドメインの一般化を改善する:小売チェックアウトへの応用

Improving Domain Generalization by Learning without Forgetting: Application in Retail Checkout ( http://arxiv.org/abs/2207.05422v1 )

ライセンス: Link先を確認
Thuy C. Nguyen, Nam LH. Phan, Son T. Nguyen(参考訳) 店舗の自動チェックアウトシステムを人間レベルの精度で設計することは、類似の外観製品やさまざまなポーズのために困難である。 本稿では,2段階のパイプラインで提案する手法を提案する。 第1段階はクラスに依存しない項目を検出し、第2段階は製品カテゴリの分類専用である。 また、重複カウントを避けるために、ビデオフレーム全体でオブジェクトを追跡する。 モデルが合成データでトレーニングされるが、実際のイメージでテストされるため、大きな課題はドメインギャップである。 誤差ギャップを低減するため,第1段検出器の領域一般化手法を採用した。 さらに、モデルアンサンブルは第2段分類器の堅牢性を高めるために用いられる。 この方法は2022年のAIシティチャレンジで評価されます -- トラック4で、テストAセットでF1のスコアが40\%です。 コードはリンクhttps://github.com/cybercore-co-ltd/aicity22-track4でリリースされる。

Designing an automatic checkout system for retail stores at the human level accuracy is challenging due to similar appearance products and their various poses. This paper addresses the problem by proposing a method with a two-stage pipeline. The first stage detects class-agnostic items, and the second one is dedicated to classify product categories. We also track the objects across video frames to avoid duplicated counting. One major challenge is the domain gap because the models are trained on synthetic data but tested on the real images. To reduce the error gap, we adopt domain generalization methods for the first-stage detector. In addition, model ensemble is used to enhance the robustness of the 2nd-stage classifier. The method is evaluated on the AI City challenge 2022 -- Track 4 and gets the F1 score $40\%$ on the test A set. Code is released at the link https://github.com/cybercore-co-ltd/aicity22-track4.
翻訳日:2022-07-13 14:35:17 公開日:2022-07-12
# 画像修正のための多彩なトーンスタイル学習

Learning Diverse Tone Styles for Image Retouching ( http://arxiv.org/abs/2207.05430v1 )

ライセンス: Link先を確認
Haolin Wang, Jiawei Zhang, Ming Liu, Xiaohe Wu and Wangmeng Zuo(参考訳) 画像のリタッチは、視覚的に快く再現することを目的としており、ユーザが異なる審美感を持つ主観的なタスクである。 既存のほとんどのメソッドは、特定の専門家からリタッチスタイルを学ぶために決定論的モデルをデプロイし、多様な主観的嗜好を満たす柔軟性を損なう。 また、異なる画像に対する対象処理による専門家の本質的な多様性についても記述する。 このような問題を回避するため,フローベースアーキテクチャを正規化して多様な画像修正を学習することを提案する。 出力画像を直接生成する現在のフローベース手法とは異なり、スタイル領域での学習は可能だと論じる。 (i)画像内容からリタッチスタイルを外す。 (ii)安定したスタイルのプレゼンテーション形式につながり、 (iii)空間的不調和は避ける。 有意義なイメージトーンスタイルの表現を得るために、スタイルエンコーダ、条件付きリタッチネット、画像トーンスタイルの正規化フロー(tsflow)モジュールからなるジョイントトレーニングパイプラインを繊細に設計する。 特に、スタイルエンコーダは、tsフローがスタイル表現ベクトルをフォワードパスのガウス分布にマップしながら、リタッチ用リタッチネットの条件情報として機能する入力画像のターゲットスタイル表現を予測する。 トレーニング後、tsflowはガウス分布からサンプリングすることで、多様な画像トーンスタイルベクトルを生成することができる。 MIT-Adobe FiveK と PPR10K データセットの大規模な実験により,提案手法は最先端の手法に対して好適に機能し,ヒトの審美的嗜好を満たす多様な結果を生成するのに有効であることが示された。 ソースコードと事前訓練されたモデルはhttps://github.com/SSRHeart/TSFlowで公開されている。

Image retouching, aiming to regenerate the visually pleasing renditions of given images, is a subjective task where the users are with different aesthetic sensations. Most existing methods deploy a deterministic model to learn the retouching style from a specific expert, making it less flexible to meet diverse subjective preferences. Besides, the intrinsic diversity of an expert due to the targeted processing on different images is also deficiently described. To circumvent such issues, we propose to learn diverse image retouching with normalizing flow-based architectures. Unlike current flow-based methods which directly generate the output image, we argue that learning in a style domain could (i) disentangle the retouching styles from the image content, (ii) lead to a stable style presentation form, and (iii) avoid the spatial disharmony effects. For obtaining meaningful image tone style representations, a joint-training pipeline is delicately designed, which is composed of a style encoder, a conditional RetouchNet, and the image tone style normalizing flow (TSFlow) module. In particular, the style encoder predicts the target style representation of an input image, which serves as the conditional information in the RetouchNet for retouching, while the TSFlow maps the style representation vector into a Gaussian distribution in the forward pass. After training, the TSFlow can generate diverse image tone style vectors by sampling from the Gaussian distribution. Extensive experiments on MIT-Adobe FiveK and PPR10K datasets show that our proposed method performs favorably against state-of-the-art methods and is effective in generating diverse results to satisfy different human aesthetic preferences. Source code and pre-trained models are publicly available at https://github.com/SSRHeart/TSFlow.
翻訳日:2022-07-13 14:35:04 公開日:2022-07-12
# 自己監督型深部事前変形ネットワークを用いたカテゴリーレベル6次元オブジェクトポースとサイズ推定

Category-Level 6D Object Pose and Size Estimation using Self-Supervised Deep Prior Deformation Networks ( http://arxiv.org/abs/2207.05444v1 )

ライセンス: Link先を確認
Jiehong Lin, Zewei Wei, Changxing Ding, Kui Jia(参考訳) オブジェクトのインスタンスとそのセマンティクスを3D空間で正確にアノテートすることは困難であり、例えばカテゴリレベルの6Dオブジェクトのポーズやサイズ推定など、これらのタスクに合成データが広く使われている。 しかし、合成ドメインでの簡単なアノテーションは、合成から現実への(Sim2Real)ドメインギャップのマイナス効果をもたらす。 本研究では,Sim2Realのタスク設定において,カテゴリレベルの6Dオブジェクトのポーズとサイズ推定のための教師なしドメイン適応を実現することを目的としている。 DPDNとして短縮された新しいDeep Prior deformation Network上に構築する手法を提案する。 DPDNは、対象の観察と一致するようにカテゴリ形状の特徴を事前に変形させることを学び、それによって、対象のポーズと大きさの直接回帰のための特徴空間に深い対応を確立することができる。 To reduce the Sim2Real domain gap, we formulate a novel self-supervised objective upon DPDN via consistency learning; more specifically, we apply two rigid transformations to each object observation in parallel, and feed them into DPDN respectively to yield dual sets of predictions; on top of the parallel learning, an inter-consistency term is employed to keep cross consistency between dual predictions for improving the sensitivity of DPDN to pose changes, while individual intra-consistency ones are used to enforce self-adaptation within each learning itself. 我々は、合成CAMERA25と実世界のREAL275データセットの両方のトレーニングセットでPDNをトレーニングし、教師なしと教師なしの両方の設定下でのREAL275テストセットの既存の手法よりも優れた結果を得た。 アブレーション研究は我々の設計の有効性も検証する。 私たちのコードはhttps://github.com/JiehongLin/Self-DPDN.comで公開されています。

It is difficult to precisely annotate object instances and their semantics in 3D space, and as such, synthetic data are extensively used for these tasks, e.g., category-level 6D object pose and size estimation. However, the easy annotations in synthetic domains bring the downside effect of synthetic-to-real (Sim2Real) domain gap. In this work, we aim to address this issue in the task setting of Sim2Real, unsupervised domain adaptation for category-level 6D object pose and size estimation. We propose a method that is built upon a novel Deep Prior Deformation Network, shortened as DPDN. DPDN learns to deform features of categorical shape priors to match those of object observations, and is thus able to establish deep correspondence in the feature space for direct regression of object poses and sizes. To reduce the Sim2Real domain gap, we formulate a novel self-supervised objective upon DPDN via consistency learning; more specifically, we apply two rigid transformations to each object observation in parallel, and feed them into DPDN respectively to yield dual sets of predictions; on top of the parallel learning, an inter-consistency term is employed to keep cross consistency between dual predictions for improving the sensitivity of DPDN to pose changes, while individual intra-consistency ones are used to enforce self-adaptation within each learning itself. We train DPDN on both training sets of the synthetic CAMERA25 and real-world REAL275 datasets; our results outperform the existing methods on REAL275 test set under both the unsupervised and supervised settings. Ablation studies also verify the efficacy of our designs. Our code is released publicly at https://github.com/JiehongLin/Self-DPDN.
翻訳日:2022-07-13 14:34:35 公開日:2022-07-12
# TransFA: 顔属性評価のためのトランスフォーマーベース表現

TransFA: Transformer-based Representation for Face Attribute Evaluation ( http://arxiv.org/abs/2207.05456v1 )

ライセンス: Link先を確認
Decheng Liu, Weijie He, Chunlei Peng, Nannan Wang, Jie Li, Xinbo Gao(参考訳) 顔属性評価は、ビデオ監視と顔分析において重要な役割を果たす。 畳み込みニューラルネットワークに基づく手法は大きな進歩を遂げているが、必然的に一度に畳み込みのあるローカルな近所のみを扱う。 さらに,既存手法では,顔属性評価を個々の多ラベル分類タスクとみなし,意味属性と顔識別情報の固有性を無視している。 本稿では, 注意機構の文脈における属性識別表現学習を効果的に強化できる, 新規な \textbf{trans}former-based representation for \textbf{f}ace \textbf{a}ttribute evaluation method (\textbf{TransFA}) を提案する。 属性特徴学習のための類似意味領域における異なる属性間の相関を探索するために多重分岐トランスフォーマが用いられる。 特に、階層的アイデンティティ制約属性損失はエンドツーエンドアーキテクチャをトレーニングするために設計されており、パフォーマンスを高めるために顔識別情報をさらに統合することができる。 複数の顔属性ベンチマークの実験結果から,提案したTransFAは最先端手法と比較して優れた性能を示した。

Face attribute evaluation plays an important role in video surveillance and face analysis. Although methods based on convolution neural networks have made great progress, they inevitably only deal with one local neighborhood with convolutions at a time. Besides, existing methods mostly regard face attribute evaluation as the individual multi-label classification task, ignoring the inherent relationship between semantic attributes and face identity information. In this paper, we propose a novel \textbf{trans}former-based representation for \textbf{f}ace \textbf{a}ttribute evaluation method (\textbf{TransFA}), which could effectively enhance the attribute discriminative representation learning in the context of attention mechanism. The multiple branches transformer is employed to explore the inter-correlation between different attributes in similar semantic regions for attribute feature learning. Specially, the hierarchical identity-constraint attribute loss is designed to train the end-to-end architecture, which could further integrate face identity discriminative information to boost performance. Experimental results on multiple face attribute benchmarks demonstrate that the proposed TransFA achieves superior performances compared with state-of-the-art methods.
翻訳日:2022-07-13 14:34:09 公開日:2022-07-12
# paint and distill:セマンティックパッシングネットワークによる3dオブジェクト検出の促進

Paint and Distill: Boosting 3D Object Detection with Semantic Passing Network ( http://arxiv.org/abs/2207.05497v1 )

ライセンス: Link先を確認
Bo Ju, Zhikang Zou, Xiaoqing Ye, Minyue Jiang, Xiao Tan, Errui Ding, Jingdong Wang(参考訳) lidarやカメラセンサーからの3dオブジェクト検出タスクは、自動運転に不可欠である。 マルチモダリティ融合の先駆的な試みは、ネットワーク設計とオーバーヘッドを余分に犠牲にして、画像からの豊富なセマンティックテクスチャ情報を持つスパースなlidarポイントクラウドを補完する。 本研究では,既存のlidarベースの3d検出モデルの性能を,リッチ・コンテキスト・ペインティングの指導により向上させ,推論時に余分な計算コストを要さずに向上させる,新しい意味的パッシングフレームワーク spnet を提案する。 我々のキーとなる設計は、まずセマンティックペイントの教師モデルを訓練し、次に純ライダーネットワークを誘導し、異なる粒度のモジュールを渡す知識(クラスワイドパス、ピクセルワイドパス、インスタンスワイドパス)を通してセマンティックペイントの表現を学ぶことである。 実験結果から,提案するSPNetは既存の3D検出フレームワークに1~5%のAPゲインでシームレスに連携し,KITTIテストベンチマークで新たな最先端3D検出性能を達成できることがわかった。 コードはhttps://github.com/jb892/spnet。

3D object detection task from lidar or camera sensors is essential for autonomous driving. Pioneer attempts at multi-modality fusion complement the sparse lidar point clouds with rich semantic texture information from images at the cost of extra network designs and overhead. In this work, we propose a novel semantic passing framework, named SPNet, to boost the performance of existing lidar-based 3D detection models with the guidance of rich context painting, with no extra computation cost during inference. Our key design is to first exploit the potential instructive semantic knowledge within the ground-truth labels by training a semantic-painted teacher model and then guide the pure-lidar network to learn the semantic-painted representation via knowledge passing modules at different granularities: class-wise passing, pixel-wise passing and instance-wise passing. Experimental results show that the proposed SPNet can seamlessly cooperate with most existing 3D detection frameworks with 1~5% AP gain and even achieve new state-of-the-art 3D detection performance on the KITTI test benchmark. Code is available at: https://github.com/jb892/SPNet.
翻訳日:2022-07-13 14:32:37 公開日:2022-07-12
# ファウショット動作認識のための複合プロトタイプマッチング

Compound Prototype Matching for Few-shot Action Recognition ( http://arxiv.org/abs/2207.05515v1 )

ライセンス: Link先を確認
Yifei Huang, Lijin Yang, Yoichi Sato(参考訳) アクション認識は,少数のラベル付きトレーニングサンプルのみを用いて,新しいアクションクラスを認識することを目的としている。 そこで本研究では,まず各映像を,グローバルプロトタイプ群とフォーカスプロトタイプ群からなる複合プロトタイプ群に要約し,そのプロトタイプに基づく映像類似度を比較する新しい手法を提案する。 それぞれのグローバルプロトタイプは、ビデオ全体、例えばアクションの開始/進化から特定の側面を要約することが推奨されている。 グローバルプロトタイプには明確なアノテーションが提供されないため、ビデオ内の特定のタイムスタンプに集中するために、焦点を絞ったプロトタイプのグループを使用します。 サポートと問い合わせビデオの複合プロトタイプをマッチングすることで,ビデオの類似度を比較する。 例えば、グローバルプロトタイプは、同じ視点の動画を比較するために直接マッチングされ、2つのアクションが同じように開始されるかどうかを比較する。 焦点を絞ったプロトタイプでは、アクションはビデオに様々な時間的変化をもたらすため、時間的位置とシフトの異なるアクションを比較するために2部マッチングを適用する。 提案手法は,複数のベンチマークで最新の結果が得られることを示す実験である。

Few-shot action recognition aims to recognize novel action classes using only a small number of labeled training samples. In this work, we propose a novel approach that first summarizes each video into compound prototypes consisting of a group of global prototypes and a group of focused prototypes, and then compares video similarity based on the prototypes. Each global prototype is encouraged to summarize a specific aspect from the entire video, for example, the start/evolution of the action. Since no clear annotation is provided for the global prototypes, we use a group of focused prototypes to focus on certain timestamps in the video. We compare video similarity by matching the compound prototypes between the support and query videos. The global prototypes are directly matched to compare videos from the same perspective, for example, to compare whether two actions start similarly. For the focused prototypes, since actions have various temporal variations in the videos, we apply bipartite matching to allow the comparison of actions with different temporal positions and shifts. Experiments demonstrate that our proposed method achieves state-of-the-art results on multiple benchmarks.
翻訳日:2022-07-13 14:32:13 公開日:2022-07-12
# ロバスト文脈融合によるオンラインビデオインスタンス分割

Online Video Instance Segmentation via Robust Context Fusion ( http://arxiv.org/abs/2207.05580v1 )

ライセンス: Link先を確認
Xiang Li, Jinglu Wang, Xiaohao Xu, Bhiksha Raj, Yan Lu(参考訳) ビデオインスタンスセグメンテーション(vis)は、ビデオシーケンス内のオブジェクトインスタンスの分類、セグメンテーション、追跡を目的としている。 最近のトランスフォーマーベースニューラルネットワークは、VISタスクの時空間相関をモデル化する強力な能力を実証している。 ビデオやクリップレベルの入力に依存すると、レイテンシと計算コストが高くなる。 本稿では,複数フレームのインスタンスセグメンテーションをフレーム毎に予測するオンライン方式でvisに取り組むためのロバストなコンテキスト融合ネットワークを提案する。 各フレームの正確かつ時間的一貫性のある予測を効率的に得るためには、基準フレームから目標フレームに効果的かつコンパクトなコンテキストを融合することが重要となる。 対象予測における参照フレームと対象フレームの異なる効果を考慮して,まず重要度認識圧縮による文脈的特徴を要約する。 圧縮されたコンテキストを融合させるためにトランスエンコーダを採用する。 次に、注文保存型インスタンス埋め込みを利用して、id認識情報を伝達し、予測されたインスタンスマスクのidに対応する。 我々の堅牢な核融合ネットワークは、既存のオンラインVIS手法の中で最高の性能を達成し、Youtube-VIS 2019と2021ベンチマークで発表されたクリップレベルの手法よりも優れていることを実証する。 さらに、視覚オブジェクトは、音響的シグネチャを持ち、音声付きビデオ録画で自然に同期する。 マルチモーダルデータに対する文脈融合ネットワークの柔軟性を活用することにより,既存の研究では議論されていない映像密度予測タスクに対する音声の影響をさらに検討する。 音声と視覚的なインスタンスのセグメンテーションデータセットを構築し、野生のシナリオにおける音響信号がvisタスクに有用であることを実証する。

Video instance segmentation (VIS) aims at classifying, segmenting and tracking object instances in video sequences. Recent transformer-based neural networks have demonstrated their powerful capability of modeling spatio-temporal correlations for the VIS task. Relying on video- or clip-level input, they suffer from high latency and computational cost. We propose a robust context fusion network to tackle VIS in an online fashion, which predicts instance segmentation frame-by-frame with a few preceding frames. To acquire the precise and temporal-consistent prediction for each frame efficiently, the key idea is to fuse effective and compact context from reference frames into the target frame. Considering the different effects of reference and target frames on the target prediction, we first summarize contextual features through importance-aware compression. A transformer encoder is adopted to fuse the compressed context. Then, we leverage an order-preserving instance embedding to convey the identity-aware information and correspond the identities to predicted instance masks. We demonstrate that our robust fusion network achieves the best performance among existing online VIS methods and is even better than previously published clip-level methods on the Youtube-VIS 2019 and 2021 benchmarks. In addition, visual objects often have acoustic signatures that are naturally synchronized with them in audio-bearing video recordings. By leveraging the flexibility of our context fusion network on multi-modal data, we further investigate the influence of audios on the video-dense prediction task, which has never been discussed in existing works. We build up an Audio-Visual Instance Segmentation dataset, and demonstrate that acoustic signals in the wild scenarios could benefit the VIS task.
翻訳日:2022-07-13 14:31:55 公開日:2022-07-12
# リアルタイム高精細画像除雪に向けて:非対称エンコーダデコーダアーキテクチャを用いた効率的なピラミッドネットワーク

Towards Real-time High-Definition Image Snow Removal: Efficient Pyramid Network with Asymmetrical Encoder-decoder Architecture ( http://arxiv.org/abs/2207.05605v1 )

ライセンス: Link先を確認
Tian Ye, Sixiang Chen, Yun Liu, Yi Ye, Erkang Chen(参考訳) 冬季の場面では、積雪下で撮影された画像の劣化はかなり複雑であり、雪の劣化の空間分布は画像によって異なる。 近年の手法では,積雪画像から直接クリーンなシーンを復元するディープニューラルネットワークを採用している。 しかし, 複雑な積雪劣化の変動によるパラドックスのため, 実時間における高精細画像の信頼性を実現することは大きな課題である。 リアルタイムHD画像認識のための非対称エンコーダデコーダアーキテクチャを用いた高効率ピラミッドネットワークを開発した。 提案するネットワークの一般的な考え方は,機能からクリーンな手がかりを暗黙的に抽出するマルチスケール機能フローを活用することである。 従来の最先端デノベート手法と比較して,本手法はより複雑な処理性能のトレードオフを実現し,HDおよびUltra-HD画像の処理困難を効果的に処理する。 3つの大規模画像認識データセットに対する広範な実験により、我々の手法は、定量化と定性的化の両方で最先端のアプローチをすべて上回り、PSNRのメトリックは、CSDテストデータセットでは31.76dBから34.10dB、SRRSテストデータセットでは28.29dBから30.87dBに増加した。

In winter scenes, the degradation of images taken under snow can be pretty complex, where the spatial distribution of snowy degradation is varied from image to image. Recent methods adopt deep neural networks to directly recover clean scenes from snowy images. However, due to the paradox caused by the variation of complex snowy degradation, achieving reliable High-Definition image desnowing performance in real time is a considerable challenge. We develop a novel Efficient Pyramid Network with asymmetrical encoder-decoder architecture for real-time HD image desnowing. The general idea of our proposed network is to utilize the multi-scale feature flow fully and implicitly mine clean cues from features. Compared with previous state-of-the-art desnowing methods, our approach achieves a better complexity-performance trade-off and effectively handles the processing difficulties of HD and Ultra-HD images. The extensive experiments on three large-scale image desnowing datasets demonstrate that our method surpasses all state-of-the-art approaches by a large margin both quantitatively and qualitatively, boosting the PSNR metric from 31.76 dB to 34.10 dB on the CSD test dataset and from 28.29 dB to 30.87 dB on the SRRS test dataset.
翻訳日:2022-07-13 14:31:28 公開日:2022-07-12
# msp-former: 単一画像認識のためのマルチスケールプロジェクショントランス

MSP-Former: Multi-Scale Projection Transformer for Single Image Desnowing ( http://arxiv.org/abs/2207.05621v1 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Yun Liu, Taodong Liao, Yi Ye, Erkang Chen(参考訳) 厳しい天候下での雪景色の復元は難しい作業である。 雪のイメージは複雑な劣化があり、クリーンなイメージの上に散らばり、クリーンなイメージの分布を変化させる。 cnnに基づく以前の手法では、局所的な帰納的バイアスによる特定のグローバルモデリング能力の欠如により、雪景色の復元が困難であった。 本稿では,1枚の画像から雪を除去する作業に視覚変換器を適用した。 具体的には,並列ネットワークアーキテクチャをチャネルに沿って分割し,局所的な特徴の洗練とグローバル情報モデリングを別々に行うことを提案する。 チャネルシャッフル演算を用いてそれぞれの強みを組み合わせてネットワーク性能を向上させる。 第2に,マルチスケールアバプールを用いて異なるサイズの情報を集約し,マルチヘッド自己アテンションにマルチスケールプロジェクション自己アテンションを同時に実行し,異なるスケール劣化下でのモデルの表現能力を向上するMPPモジュールを提案する。 最後に,軽量でシンプルなローカルキャプチャモジュールを設計し,モデルのローカルキャプチャ機能を改良する。 実験では,本手法の優位性を示すため,広範な実験を行った。 過去の除雪手法を3つの積雪現場データセットで比較した。 実験の結果,本手法はパラメータや計算量が少なく,最先端の手法を上回っていることがわかった。 CSDテストデータセット上で1.99dBとSSIM 0.03の大幅な成長を実現した。 SRRSとSnow100Kのデータセットでは、Transweatherアプローチと比較してPSNRが2.47dBと1.62dBに増加し、SSIMでは0.03に改善した。 視覚的比較セクションでは,既存の手法よりも優れた視覚効果を実現し,提案手法の有用性を実証する。

Image restoration of snow scenes in severe weather is a difficult task. Snow images have complex degradations and are cluttered over clean images, changing the distribution of clean images. The previous methods based on CNNs are challenging to remove perfectly in restoring snow scenes due to their local inductive biases' lack of a specific global modeling ability. In this paper, we apply the vision transformer to the task of snow removal from a single image. Specifically, we propose a parallel network architecture split along the channel, performing local feature refinement and global information modeling separately. We utilize a channel shuffle operation to combine their respective strengths to enhance network performance. Second, we propose the MSP module, which utilizes multi-scale avgpool to aggregate information of different sizes and simultaneously performs multi-scale projection self-attention on multi-head self-attention to improve the representation ability of the model under different scale degradations. Finally, we design a lightweight and simple local capture module, which can refine the local capture capability of the model. In the experimental part, we conduct extensive experiments to demonstrate the superiority of our method. We compared the previous snow removal methods on three snow scene datasets. The experimental results show that our method surpasses the state-of-the-art methods with fewer parameters and computation. We achieve substantial growth by 1.99dB and SSIM 0.03 on the CSD test dataset. On the SRRS and Snow100K datasets, we also increased PSNR by 2.47dB and 1.62dB compared with the Transweather approach and improved by 0.03 in SSIM. In the visual comparison section, our MSP-Former also achieves better visual effects than existing methods, proving the usability of our method.
翻訳日:2022-07-13 14:31:04 公開日:2022-07-12
# GANzzle: 生成精神画像を用いた検索課題としてのジグソーパズルの解法

GANzzle: Reframing jigsaw puzzle solving as a retrieval task using a generative mental image ( http://arxiv.org/abs/2207.05634v1 )

ライセンス: Link先を確認
Davide Talon, Alessio Del Bue, Stuart James(参考訳) パズル解決は、隣り合うピースのマッチングが難しいため、組合せ問題である。 その代わり、すべてのピースからメンタルイメージを推測し、そのピースを組み合わせの爆発を避けるためにマッチさせることができる。 生成的逆境手法の進歩を生かして,無秩序な部品のセットを与えられた画像の再構成法を学習し,各部品のエンコードとジェネレータのクロッピング層とを一致させるジョイント埋め込み空間を学習する。 したがって、この問題をr@1検索タスクとしてフレーム化し、ハンガリーの注意を区別可能な方法で線形割り当てを解決し、処理をエンドツーエンドにします。 そうすることで、単一サイズの事前ディープラーニングメソッドとは対照的に、モデルはパズルサイズ非依存になります。 モデルがディープラーニング法に匹敵する2つの新しい大規模データセットを評価し,複数のパズルサイズに一般化した。

Puzzle solving is a combinatorial challenge due to the difficulty of matching adjacent pieces. Instead, we infer a mental image from all pieces, which a given piece can then be matched against avoiding the combinatorial explosion. Exploiting advancements in Generative Adversarial methods, we learn how to reconstruct the image given a set of unordered pieces, allowing the model to learn a joint embedding space to match an encoding of each piece to the cropped layer of the generator. Therefore we frame the problem as a R@1 retrieval task, and then solve the linear assignment using differentiable Hungarian attention, making the process end-to-end. In doing so our model is puzzle size agnostic, in contrast to prior deep learning methods which are single size. We evaluate on two new large-scale datasets, where our model is on par with deep learning methods, while generalizing to multiple puzzle sizes.
翻訳日:2022-07-13 14:30:34 公開日:2022-07-12
# M-FUSE: シーンフロー推定のための多フレーム融合

M-FUSE: Multi-frame Fusion for Scene Flow Estimation ( http://arxiv.org/abs/2207.05704v1 )

ライセンス: Link先を確認
Lukas Mehl, Azin Jahedi, Jenny Schmalfuss, Andr\'es Bruhn(参考訳) 近年,KITTIベンチマークなどの自動車データに対して,シーンフロー推定のためのニューラルネットワークが注目されている。 しかしながら、洗練された剛性仮定とパラメトリゼーションを用いているにもかかわらず、そのようなネットワークは通常、時間的情報を活用できない2つのフレームペアに限定される。 本稿では,先行するステレオペアを考慮した新しいマルチフレームアプローチを提案することで,この欠点を解消する。 第一に、最近のRAFT-3Dアプローチに基づいて、改良されたステレオ手法を取り入れた高度な2フレームベースラインを開発する。 次に、さらに重要なこととして、raft-3dの特定のモデリング概念を活用し、前方と後方のフロー推定を融合し、必要に応じて時間情報を統合できるu-netライクなアーキテクチャを提案する。 KITTIベンチマークの実験は、改良されたベースラインと時間融合アプローチの利点が互いに補完していることを示すだけでなく、計算されたシーンフローが極めて正確であることを示す。 より正確には,本手法は,従来のRAFT-3D法を16%以上上回り,さらに難易度の高い対象に対して第2位,第1位である。 コードはhttps://github.com/cv-stuttgart/M-FUSEで入手できる。

Recently, neural network for scene flow estimation show impressive results on automotive data such as the KITTI benchmark. However, despite of using sophisticated rigidity assumptions and parametrizations, such networks are typically limited to only two frame pairs which does not allow them to exploit temporal information. In our paper we address this shortcoming by proposing a novel multi-frame approach that considers an additional preceding stereo pair. To this end, we proceed in two steps: Firstly, building upon the recent RAFT-3D approach, we develop an advanced two-frame baseline by incorporating an improved stereo method. Secondly, and even more importantly, exploiting the specific modeling concepts of RAFT-3D, we propose a U-Net like architecture that performs a fusion of forward and backward flow estimates and hence allows to integrate temporal information on demand. Experiments on the KITTI benchmark do not only show that the advantages of the improved baseline and the temporal fusion approach complement each other, they also demonstrate that the computed scene flow is highly accurate. More precisely, our approach ranks second overall and first for the even more challenging foreground objects, in total outperforming the original RAFT-3D method by more than 16%. Code is available at https://github.com/cv-stuttgart/M-FUSE.
翻訳日:2022-07-13 14:30:19 公開日:2022-07-12
# TabSynDex: 合成語彙データのロバスト評価のためのユニバーサルメトリック

TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data ( http://arxiv.org/abs/2207.05295v1 )

ライセンス: Link先を確認
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mukund Lahoti, Pratik Narang(参考訳) 実際のデータが制限されたり、収集にコストがかかったり、プライバシの懸念のために単に使用できない場合に、合成表データ生成が重要になる。 しかし、高品質な合成データの生成は困難である。 合成表データ生成において, 確率的, 統計的, 生成的逆ネットワーク (gans) に基づく手法がいくつか提案されている。 一度生成すると、合成データの品質評価は非常に難しい。 伝統的なメトリクスのいくつかは文献で使われてきたが、共通の、堅牢で単一のメトリクスがない。 これにより、異なる合成表データ生成手法の有効性を適切に比較することは困難である。 本稿では,合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。 TabSynDexは「高品質」な合成データに望ましい特性を評価する異なる成分スコアを用いて、合成データと実データとの類似性を評価する。 シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。 これは、以前には不可能だった洞察を得るのに役立つだろう。 さらに,提案した評価指標を既存の生成モデルと比較するためのベースラインモデルについて述べる。

Synthetic tabular data generation becomes crucial when real data is limited, expensive to collect, or simply cannot be used due to privacy concerns. However, producing good quality synthetic data is challenging. Several probabilistic, statistical, and generative adversarial networks (GANs) based approaches have been presented for synthetic tabular data generation. Once generated, evaluating the quality of the synthetic data is quite challenging. Some of the traditional metrics have been used in the literature but there is lack of a common, robust, and single metric. This makes it difficult to properly compare the effectiveness of different synthetic tabular data generation methods. In this paper we propose a new universal metric, TabSynDex, for robust evaluation of synthetic data. TabSynDex assesses the similarity of synthetic data with real data through different component scores which evaluate the characteristics that are desirable for "high quality" synthetic data. Being a single score metric, TabSynDex can also be used to observe and evaluate the training of neural network based approaches. This would help in obtaining insights that was not possible earlier. Further, we present several baseline models for comparative analysis of the proposed evaluation metric with existing generative models.
翻訳日:2022-07-13 14:28:19 公開日:2022-07-12
# マルチアームバンディットによるノイズクエリによる最適クラスタリング

Optimal Clustering with Noisy Queries via Multi-Armed Bandit ( http://arxiv.org/abs/2207.05376v1 )

ライセンス: Link先を確認
Jinghui Xia, Zengfeng Huang(参考訳) 多くのアプリケーションによって動機付けられ、欠陥のあるオラクルでクラスタリングを研究する。 この問題では、$k$未知のクラスタに属する$n$アイテムが存在し、アルゴリズムは、2つのアイテムが同じクラスタに属するか否かをオラクルに問うことができる。 しかし、オラクルからの答えは、確率$\frac{1}{2}+\frac{\delta}{2}$でのみ正しい。 目標は、最小限のノイズクエリ数で隠れたクラスタをリカバリすることだ。 以前の研究では、この問題は$O(\frac{nk\log n}{\delta^2} + \text{poly}(k,\frac{1}{\delta}, \log n))$クエリで解決できることが示されており、$\Omega(\frac{nk}{\delta^2})$クエリは必須であることが知られている。 したがって、$k$ と $\delta$ の任意の値に対して、上界と下界の間には非自明なギャップがある。 本研究では, パラメータの幅が広い場合, 上界と下界の整合性について検討する。 特に、$O(\frac{n(k+\log n)}{\delta^2} + \text{poly}(k,\frac{1}{\delta}, \log n))$クエリを持つ新しい多項式時間アルゴリズムを提案する。 さらに、$\Omega(\frac{n\log n}{\delta^2})$という新しい下界を証明し、既存の$\Omega(\frac{nk}{\delta^2})$boundと組み合わせると、上界は加法$\text{poly}(k,\frac{1}{\delta},\log n)$ termに一致する。 新たな結果を得るためには,本問題とマルチアームバンディットとの間には興味深い関連性があり,他の類似した問題に対して有用な洞察を与える可能性がある。

Motivated by many applications, we study clustering with a faulty oracle. In this problem, there are $n$ items belonging to $k$ unknown clusters, and the algorithm is allowed to ask the oracle whether two items belong to the same cluster or not. However, the answer from the oracle is correct only with probability $\frac{1}{2}+\frac{\delta}{2}$. The goal is to recover the hidden clusters with minimum number of noisy queries. Previous works have shown that the problem can be solved with $O(\frac{nk\log n}{\delta^2} + \text{poly}(k,\frac{1}{\delta}, \log n))$ queries, while $\Omega(\frac{nk}{\delta^2})$ queries is known to be necessary. So, for any values of $k$ and $\delta$, there is still a non-trivial gap between upper and lower bounds. In this work, we obtain the first matching upper and lower bounds for a wide range of parameters. In particular, a new polynomial time algorithm with $O(\frac{n(k+\log n)}{\delta^2} + \text{poly}(k,\frac{1}{\delta}, \log n))$ queries is proposed. Moreover, we prove a new lower bound of $\Omega(\frac{n\log n}{\delta^2})$, which, combined with the existing $\Omega(\frac{nk}{\delta^2})$ bound, matches our upper bound up to an additive $\text{poly}(k,\frac{1}{\delta},\log n)$ term. To obtain the new results, our main ingredient is an interesting connection between our problem and multi-armed bandit, which might provide useful insights for other similar problems.
翻訳日:2022-07-13 14:28:04 公開日:2022-07-12
# マルチソースAIS追跡メッセージにおける半教師付き幾何駆動型漁業活動検出手法

A semi-supervised geometric-driven methodology for supervised fishing activity detection on multi-source AIS tracking messages ( http://arxiv.org/abs/2207.05514v1 )

ライセンス: Link先を確認
Martha Dais Ferreira, Gabriel Spadon, Amilcar Soares, Stan Matwin(参考訳) 自動識別システム(ais)メッセージは、無線リンクと衛星トランシーバを使用して世界中の海洋を横断する船舶活動の追跡に有用である。 このようなデータは、漁業に見られるような船舶活動の追跡や移動パターンのマッピングに重要な役割を果たしている。 そこで本研究では,AISデータから漁業活動を検出するための幾何学的半教師付きアプローチを提案する。 提案手法により, 船舶経路の形状を記述する特徴を抽出するために, メッセージに含まれる情報を探索する方法を示す。 この目的のために,クラスタ分析の教師なしの性質を活用し,漁獲活動を示す傾向にある船舶の移動パターンの変化を示す軌道形状をラベル付けする。 提案手法により得られたラベルは漁獲活動の検出に用いられ, 時系列分類タスクとしてアプローチする。 本研究では,AISデータストリーム上のリカレントニューラルネットワークを用いて,50種類の漁船の全航路におけるF$スコアの約87%を網羅する手法を提案する。 このような結果は、異なるリカレントニューラルネットワーク(RNN)アーキテクチャの性能を評価する広範なベンチマーク研究に伴う。 結論として、この研究は、データ準備、ラベル付け、データモデリング、モデルの検証を含む徹底したプロセスを提案することで貢献する。 そこで本研究では,時間内に軌道を拡大し,その固有形状を観察することに依存する,移動パターン検出のための新しい解を提案する。

Automatic Identification System (AIS) messages are useful for tracking vessel activity across oceans worldwide using radio links and satellite transceivers. Such data plays a significant role in tracking vessel activity and mapping mobility patterns such as those found in fishing. Accordingly, this paper proposes a geometric-driven semi-supervised approach for fishing activity detection from AIS data. Through the proposed methodology we show how to explore the information included in the messages to extract features describing the geometry of the vessel route. To this end, we leverage the unsupervised nature of cluster analysis to label the trajectory geometry highlighting the changes in the vessel's moving pattern which tends to indicate fishing activity. The labels obtained by the proposed unsupervised approach are used to detect fishing activities, which we approach as a time-series classification task. In this context, we propose a solution using recurrent neural networks on AIS data streams with roughly 87% of the overall $F$-score on the whole trajectories of 50 different unseen fishing vessels. Such results are accompanied by a broad benchmark study assessing the performance of different Recurrent Neural Network (RNN) architectures. In conclusion, this work contributes by proposing a thorough process that includes data preparation, labeling, data modeling, and model validation. Therefore, we present a novel solution for mobility pattern detection that relies upon unfolding the trajectory in time and observing their inherent geometry.
翻訳日:2022-07-13 14:27:23 公開日:2022-07-12
# データの論理解析のための計算モデル

A Computational Model for Logical Analysis of Data ( http://arxiv.org/abs/2207.05664v1 )

ライセンス: Link先を確認
Dani\`ele Gardy and Fr\'ed\'eric Lardeux and Fr\'ed\'eric Saubion(参考訳) 最初Peter Hammer氏が紹介したLogical Analysis of Dataは、データのグループを2つの観察グループに分割する論理的正当化を計算するための方法論である。 この分割を部分的に定義されたブール関数の記述として、正および負の群に分解し、そのデータは属性のサブセットを識別するために処理され、その値が負の群に対する正の群の観測を特徴付けることができる。 LADは古典的な統計学習技術に代わる興味深いルールベースの学習であり、多くの実践的応用がある。 それでも、データインスタンスの特性に応じて、グループキャラクタリゼーションの計算はコストがかかる可能性がある。 我々の研究の主な目的は、ある属性の集合が正と負のグループを特徴づける確率を計算することで、計算を高速化するための効果的なツールを提供することである。 そこで本研究では,観測データの集合を表現するためのモデルをいくつか提案する。 これらのモデルとそれらが計算できる確率は、手元にある実際のデータのいくつかの特性を迅速に評価するのにも役立ちます。 モデルが確立すれば、確率を計算するための数学的ツールがAnalytic Combinatoricsから生まれます。 これにより、所望の確率を生成関数係数の比として表現し、それらの数値を素早く計算することができる。 本論文の更なる長期的目標は,解析的コンビネータの手法がladおよび関連する分野における様々なアルゴリズムの性能解析に有効であることを示すことである。

Initially introduced by Peter Hammer, Logical Analysis of Data is a methodology that aims at computing a logical justification for dividing a group of data in two groups of observations, usually called the positive and negative groups. Consider this partition into positive and negative groups as the description of a partially defined Boolean function; the data is then processed to identify a subset of attributes, whose values may be used to characterize the observations of the positive groups against those of the negative group. LAD constitutes an interesting rule-based learning alternative to classic statistical learning techniques and has many practical applications. Nevertheless, the computation of group characterization may be costly, depending on the properties of the data instances. A major aim of our work is to provide effective tools for speeding up the computations, by computing some \emph{a priori} probability that a given set of attributes does characterize the positive and negative groups. To this effect, we propose several models for representing the data set of observations, according to the information we have on it. These models, and the probabilities they allow us to compute, are also helpful for quickly assessing some properties of the real data at hand; furthermore they may help us to better analyze and understand the computational difficulties encountered by solving methods. Once our models have been established, the mathematical tools for computing probabilities come from Analytic Combinatorics. They allow us to express the desired probabilities as ratios of generating functions coefficients, which then provide a quick computation of their numerical values. A further, long-range goal of this paper is to show that the methods of Analytic Combinatorics can help in analyzing the performance of various algorithms in LAD and related fields.
翻訳日:2022-07-13 14:27:03 公開日:2022-07-12
# スペクトルグラフ畳み込みから大規模グラフ畳み込みネットワークへ

From Spectral Graph Convolutions to Large Scale Graph Convolutional Networks ( http://arxiv.org/abs/2207.05669v1 )

ライセンス: Link先を確認
Matteo Bunino(参考訳) グラフ畳み込みネットワーク(GCN)は、過去数年間に多くのドメインで様々なタスクにうまく適用された強力な概念であることが示されている。 本研究では、古典グラフ理論の関連部分を含むGCNの定義への道を開いた理論について研究する。 また,全勾配の推定値に偏りを与えるグラフのエッジによって導入されたサンプルの統計的依存性など,gcnの重要な特性や制限についても検討し,実験的に検証した。 もうひとつ論じる制限は、ミニバッチサンプリングがモデル性能に与える影響である。 その結果、パラメータ更新の間、データセット全体の勾配が計算され、大きなグラフへのスケーラビリティが損なわれる。 そこで本研究では,1イテレーションあたりのデータのサブセットのみをサンプリングしながら,適切なパラメータを安全に学習できる代替手法について検討する。 kipfらの研究で報告された結果を再現し、サンプルフリーミニバッチ法であるsignにインスパイアされた実装を提案する。 最終的に、ベンチマークデータセット上の2つの実装を比較し、半教師付きノード分類のタスクの予測精度で比較できることを示した。

Graph Convolutional Networks (GCNs) have been shown to be a powerful concept that has been successfully applied to a large variety of tasks across many domains over the past years. In this work we study the theory that paved the way to the definition of GCN, including related parts of classical graph theory. We also discuss and experimentally demonstrate key properties and limitations of GCNs such as those caused by the statistical dependency of samples, introduced by the edges of the graph, which causes the estimates of the full gradient to be biased. Another limitation we discuss is the negative impact of minibatch sampling on the model performance. As a consequence, during parameter update, gradients are computed on the whole dataset, undermining scalability to large graphs. To account for this, we research alternative methods which allow to safely learn good parameters while sampling only a subset of data per iteration. We reproduce the results reported in the work of Kipf et al. and propose an implementation inspired to SIGN, which is a sampling-free minibatch method. Eventually we compare the two implementations on a benchmark dataset, proving that they are comparable in terms of prediction accuracy for the task of semi-supervised node classification.
翻訳日:2022-07-13 14:26:36 公開日:2022-07-12
# 火星に新しい衝撃を検知する機械学習による観測バイアス低減

Using Machine Learning to Reduce Observational Biases When Detecting New Impacts on Mars ( http://arxiv.org/abs/2207.05679v1 )

ライセンス: Link先を確認
Kiri L. Wagstaff (1), Ingrid J. Daubar (2), Gary Doran (1), Michael J. Munje (1), Valentin T. Bickel (3), Annabelle Gao (2), Joe Pate (2), Daniel Wexler (2) ((1) Jet Propulsion Laboratory, California Institute of Technology, (2) Brown University, (3) ETH Zurich)(参考訳) 最近の火星への(フレッシュ)影響の在庫は、低い熱慣性領域に対する強いバイアスを示している。 これらの領域は一般的に視覚的に明るく、衝突によって暗くなり、検出しやすくなります。 熱慣性が高い地域でも同様の速度で発生することが期待されるが、これらの影響は検出されていない。 本研究では、訓練された機械学習分類器を用いて、CTXデータを用いて火星への新鮮な影響を検出する。 このアプローチでは、69の新しい新しい影響がHiRISE画像で確認された。 熱慣性(TI)値で区切られた候補を調べることは、多数の機械学習候補によってのみ可能であり、観測バイアスの低減と既知の高TI影響の増大に有効であることがわかった。

The current inventory of recent (fresh) impacts on Mars shows a strong bias towards areas of low thermal inertia. These areas are generally visually bright, and impacts create dark scours and rays that make them easier to detect. It is expected that impacts occur at a similar rate in areas of higher thermal inertia, but those impacts are under-detected. This study investigates the use of a trained machine learning classifier to increase the detection of fresh impacts on Mars using CTX data. This approach discovered 69 new fresh impacts that have been confirmed with follow-up HiRISE images. We found that examining candidates partitioned by thermal inertia (TI) values, which is only possible due to the large number of machine learning candidates, helps reduce the observational bias and increase the number of known high-TI impacts.
翻訳日:2022-07-13 14:26:17 公開日:2022-07-12
# (参考訳) 不均一グラフ注意ネットワークによるDDI予測

DDI Prediction via Heterogeneous Graph Attention Networks ( http://arxiv.org/abs/2207.05672v1 )

ライセンス: CC BY 4.0
Farhan Tanvir, Khaled Mohammed Saifuddin, Esra Akbas(参考訳) 多発性薬物の併用として定義される多剤療法は、特に重篤な慢性疾患に対する標準的な治療法である。 しかし、複数の薬物を併用すると薬物間の相互作用が引き起こされることがある。 薬物と薬物の相互作用 (DDI) は、ある薬物の作用が他の薬物と結合した場合に起こる活動である。 DDIは、薬物の意図した効果を阻害、増加、または減少させ、最悪の場合、副作用を引き起こす。 時間とともにDDIを検出することは重要であるが、短い期間と多くの薬物ペアが試薬として考えられるため、臨床試験でDDIを特定するのに時間がかかり、費用がかかる。 その結果,DDIの予測には計算手法が必要である。 本稿では薬物と薬物の相互作用を予測するための新しい異種グラフアテンションモデルHAN-DDIを提案する。 異なる生物学的実体を持つ 薬物の異種ネットワークを作ります そこで我々は,薬物と他の物質との関係を利用してDDIを学習する異種グラフアテンションネットワークを開発した。 薬物ノード表現を得るための注意に基づく不均質なグラフノードエンコーダと、薬物-薬物相互作用を予測するデコーダとからなる。 さらに,本モデルの評価に包括的実験を活用し,最先端モデルと比較した。 実験の結果, 提案手法であるhan-ddiは, 新規薬剤においてもddisを有意に高精度に予測できることがわかった。

Polypharmacy, defined as the use of multiple drugs together, is a standard treatment method, especially for severe and chronic diseases. However, using multiple drugs together may cause interactions between drugs. Drug-drug interaction (DDI) is the activity that occurs when the impact of one drug changes when combined with another. DDIs may obstruct, increase, or decrease the intended effect of either drug or, in the worst-case scenario, create adverse side effects. While it is critical to detect DDIs on time, it is timeconsuming and expensive to identify them in clinical trials due to their short duration and many possible drug pairs to be considered for testing. As a result, computational methods are needed for predicting DDIs. In this paper, we present a novel heterogeneous graph attention model, HAN-DDI to predict drug-drug interactions. We create a heterogeneous network of drugs with different biological entities. Then, we develop a heterogeneous graph attention network to learn DDIs using relations of drugs with other entities. It consists of an attention-based heterogeneous graph node encoder for obtaining drug node representations and a decoder for predicting drug-drug interactions. Further, we utilize comprehensive experiments to evaluate of our model and to compare it with state-of-the-art models. Experimental results show that our proposed method, HAN-DDI, outperforms the baselines significantly and accurately predicts DDIs, even for new drugs.
翻訳日:2022-07-13 14:24:32 公開日:2022-07-12
# クエリーによるオーバーペイント

Outpainting by Queries ( http://arxiv.org/abs/2207.05312v1 )

ライセンス: Link先を確認
Kai Yao, Penglei Gao, Xi Yang, Kaizhu Huang, Jie Sun, and Rui Zhang(参考訳) 画像出力は、畳み込みニューラルネットワーク(CNN)ベースのフレームワークでよく研究されているが、最近コンピュータビジョンに注目が集まっている。 しかし、CNNは効果的なサンプル学習を実現するために固有の帰納バイアスに依存しており、性能天井を劣化させる可能性がある。 本稿では, トランスアーキテクチャにおいて最小の帰納バイアスを有するフレキシブル自己保持機構を動機として, 汎用画像出力問題をパッチワイドシーケンス・ツー・シーケンス自動回帰問題として再構成し, 問合せに基づく画像出力を実現する。 具体的には,視覚変換型エンコーダ-デコーダフレームワークである \textbf{query} \textbf{o}utpainting \textbf{tr}ansformer (\textbf{queryotr})を提案する。 パッチワイズモードのグローバルモデリング能力は、注意機構のクエリの観点からイメージを外挿することができる。 新しいクエリ拡張モジュール(qem)は、エンコーダの出力に基づいて予測されたクエリからの情報を統合するように設計されているため、比較的小さなデータセットでも純粋なトランスフォーマの収束が加速される。 各パッチ間の接続をさらに強化するため、提案するパッチ平滑化モジュール(psm)は、重複領域を再配置し平均化することにより、シームレスな予測画像を提供する。 我々は、QueryOTRが、最先端画像よりもスムーズかつ現実的に、視覚的に魅力的な結果を生成できることを実験的に示した。

Image outpainting, which is well studied with Convolution Neural Network (CNN) based framework, has recently drawn more attention in computer vision. However, CNNs rely on inherent inductive biases to achieve effective sample learning, which may degrade the performance ceiling. In this paper, motivated by the flexible self-attention mechanism with minimal inductive biases in transformer architecture, we reframe the generalised image outpainting problem as a patch-wise sequence-to-sequence autoregression problem, enabling query-based image outpainting. Specifically, we propose a novel hybrid vision-transformer-based encoder-decoder framework, named \textbf{Query} \textbf{O}utpainting \textbf{TR}ansformer (\textbf{QueryOTR}), for extrapolating visual context all-side around a given image. Patch-wise mode's global modeling capacity allows us to extrapolate images from the attention mechanism's query standpoint. A novel Query Expansion Module (QEM) is designed to integrate information from the predicted queries based on the encoder's output, hence accelerating the convergence of the pure transformer even with a relatively small dataset. To further enhance connectivity between each patch, the proposed Patch Smoothing Module (PSM) re-allocates and averages the overlapped regions, thus providing seamless predicted images. We experimentally show that QueryOTR could generate visually appealing results smoothly and realistically against the state-of-the-art image outpainting approaches.
翻訳日:2022-07-13 14:08:53 公開日:2022-07-12
# 視点変化による双生児識別:深層畳み込みニューラルネットワークが人間を超越

Twin identification over viewpoint change: A deep convolutional neural network surpasses humans ( http://arxiv.org/abs/2207.05316v1 )

ライセンス: Link先を確認
Connor J. Parde, Virginia E. Strehle, Vivekjyoti Banerjee, Ying Hu, Jacqueline G. Cavazos, Carlos D. Castillo, Alice J. O'Toole(参考訳) ディープ畳み込みニューラルネットワーク(DCNN)は、顔の識別において人間のレベルでの精度を達成した(Phillips et al., 2018)。 そこで人間とDCNNは、同一の双子を含む顔の同一性マッチングタスクを実行しました。 参加者 (n=87) は、同一同一性、一般不同性ペア(類似の集団と異なる同一性)、双子不同性ペア(同一性双生児の兄弟)の3種類の顔画像のペアを見た。 課題は、ペアが同じ人または異なる人を示すかどうかを判断することだった。 前頭から前頭、前頭から45度、前頭から90度という3つの視点差条件で同一性の比較を行った。 各視点差条件において,双生児と一般使徒の一致した同一性ペアの識別精度を評価した。 人間は双子の使者対よりも一般的な使者対の方が正確であり、画像間の視点差が増大して精度は低下した。 顔認証のために訓練されたDCNN(Ranjan et al., 2018)は、人間に提示された同じ画像対でテストされた。 機械の性能は人間の正確さのパターンを反映するが、全ての人間を1つの条件を除いて超えている。 人間と機械の類似度スコアは、すべてのイメージペアタイプで比較された。 この項目レベルの分析により,人間と機械の類似度は9つの画像ペアタイプ(r=0.38からr=0.63)のうち6つで有意な相関を示した。 これらの知見は,高精細度顔の識別におけるDCNN性能の理解にも寄与し,DCNNが人間以上のレベルで動作していることを示し,人間とDCNNが使用する特徴と同等性の程度を示唆する。

Deep convolutional neural networks (DCNNs) have achieved human-level accuracy in face identification (Phillips et al., 2018), though it is unclear how accurately they discriminate highly-similar faces. Here, humans and a DCNN performed a challenging face-identity matching task that included identical twins. Participants (N=87) viewed pairs of face images of three types: same-identity, general imposter pairs (different identities from similar demographic groups), and twin imposter pairs (identical twin siblings). The task was to determine whether the pairs showed the same person or different people. Identity comparisons were tested in three viewpoint-disparity conditions: frontal to frontal, frontal to 45-degree profile, and frontal to 90-degree profile. Accuracy for discriminating matched-identity pairs from twin-imposters and general imposters was assessed in each viewpoint-disparity condition. Humans were more accurate for general-imposter pairs than twin-imposter pairs, and accuracy declined with increased viewpoint disparity between the images in a pair. A DCNN trained for face identification (Ranjan et al., 2018) was tested on the same image pairs presented to humans. Machine performance mirrored the pattern of human accuracy, but with performance at or above all humans in all but one condition. Human and machine similarity scores were compared across all image-pair types. This item-level analysis showed that human and machine similarity ratings correlated significantly in six of nine image-pair types [range r=0.38 to r=0.63], suggesting general accord between the perception of face similarity by humans and the DCNN. These findings also contribute to our understanding of DCNN performance for discriminating high-resemblance faces, demonstrate that the DCNN performs at a level at or above humans, and suggest a degree of parity between the features used by humans and the DCNN.
翻訳日:2022-07-13 14:08:20 公開日:2022-07-12
# 異方性ランダム化平滑化による正反対ロバスト性証明

Certified Adversarial Robustness via Anisotropic Randomized Smoothing ( http://arxiv.org/abs/2207.05327v1 )

ライセンス: Link先を確認
Hanbin Hong, and Yuan Hong(参考訳) ランダムな平滑化は、敵の摂動に対する堅牢性を証明するために大きな成功を収めた。 任意の分類器が与えられた場合、ランダム化平滑化は、分類器にノイズを注入することで、摂動入力に対する分類器の予測を証明可能な堅牢性で保証することができる。 しかし、既存の手法の全ては固定された確率分布に依存し、入力とデータ次元の不均一性を無視したデータのすべての次元(例えば、画像のすべてのピクセル)のノイズを生成する。 したがって、既存のランダム化平滑化法は全ての入力に対して最適な保護を与えることができない。 この制限に対処するために,画素単位の雑音分布に基づくロバスト性を保証する最初の異方性ランダム化平滑化法を提案する。 また,CNNに基づく新しいノイズ発生器を設計し,各入力中の全画素の画素単位のノイズ分布を効率よく微調整する。 実験結果から,本手法は最先端のランダムな平滑化法よりも優れていた。

Randomized smoothing has achieved great success for certified robustness against adversarial perturbations. Given any arbitrary classifier, randomized smoothing can guarantee the classifier's prediction over the perturbed input with provable robustness bound by injecting noise into the classifier. However, all of the existing methods rely on fixed i.i.d. probability distribution to generate noise for all dimensions of the data (e.g., all the pixels in an image), which ignores the heterogeneity of inputs and data dimensions. Thus, existing randomized smoothing methods cannot provide optimal protection for all the inputs. To address this limitation, we propose the first anisotropic randomized smoothing method which ensures provable robustness guarantee based on pixel-wise noise distributions. Also, we design a novel CNN-based noise generator to efficiently fine-tune the pixel-wise noise distributions for all the pixels in each input. Experimental results demonstrate that our method significantly outperforms the state-of-the-art randomized smoothing methods.
翻訳日:2022-07-13 14:07:29 公開日:2022-07-12
# 分布整合性重み付けによる半監督対象検出のためのサイクル自己学習

Cycle Self-Training for Semi-Supervised Object Detection with Distribution Consistency Reweighting ( http://arxiv.org/abs/2207.05334v1 )

ライセンス: Link先を確認
Hao Liu, Bin Chen, Bo Wang, Chunpeng Wu, Feng Dai, Peng Wu(参考訳) 近年,多くの半教師付きオブジェクト検出(SSOD)手法が教師学習フレームワークを採用し,最先端の成果を上げている。 しかし,教師は生徒の指数的移動平均(ema)であり,パフォーマンスボトルネックの原因となっているため,教師ネットワークは学生ネットワークと密結合している。 この結合問題に対処するために,2人の教師,T1,S1,S2で構成されるSSODのためのCycle Self-Training(CST)フレームワークを提案する。 これらのネットワークに基づいて、サイクル自己学習機構(S1${\rightarrow}$T1${\rightarrow}$S2${\rightarrow}$T2${\rightarrow}$S1)が構築される。 S${\rightarrow}$Tの場合、生徒のEMA重みを利用して教師を更新する。 T${\rightarrow}$Sの場合、自身の学生S1(S2)を直接監督する代わりに、教師T1(T2)は学生S2(S1)に対して擬似ラベルを生成し、結合効果を緩める。 さらに、EMAの特性から、教師は生徒の偏見を蓄積し、誤りを不可逆的にする可能性が最も高い。 また,教師T1,T2間の分布整合性に基づいて擬似ラベルを再重み付けする分散整合性再重み付け戦略を提案する。 この戦略により、2人の学生S2とS1をノイズの多い擬似ラベルで頑健に訓練し、確証バイアスを回避することができる。 大規模な実験は、ベースラインよりもAPを一貫して改善し、ラベル付きデータが少ない状態で2.1%の絶対AP改善により最先端の手法より優れていることを証明している。

Recently, many semi-supervised object detection (SSOD) methods adopt teacher-student framework and have achieved state-of-the-art results. However, the teacher network is tightly coupled with the student network since the teacher is an exponential moving average (EMA) of the student, which causes a performance bottleneck. To address the coupling problem, we propose a Cycle Self-Training (CST) framework for SSOD, which consists of two teachers T1 and T2, two students S1 and S2. Based on these networks, a cycle self-training mechanism is built, i.e., S1${\rightarrow}$T1${\rightarrow}$S2${\rightarrow}$T2${\rightarrow}$S1. For S${\rightarrow}$T, we also utilize the EMA weights of the students to update the teachers. For T${\rightarrow}$S, instead of providing supervision for its own student S1(S2) directly, the teacher T1(T2) generates pseudo-labels for the student S2(S1), which looses the coupling effect. Moreover, owing to the property of EMA, the teacher is most likely to accumulate the biases from the student and make the mistakes irreversible. To mitigate the problem, we also propose a distribution consistency reweighting strategy, where pseudo-labels are reweighted based on distribution consistency across the teachers T1 and T2. With the strategy, the two students S2 and S1 can be trained robustly with noisy pseudo labels to avoid confirmation biases. Extensive experiments prove the superiority of CST by consistently improving the AP over the baseline and outperforming state-of-the-art methods by 2.1% absolute AP improvements with scarce labeled data.
翻訳日:2022-07-13 14:07:16 公開日:2022-07-12
# 時空間表現のためのデュアルコントラスト学習

Dual Contrastive Learning for Spatio-temporal Representation ( http://arxiv.org/abs/2207.05340v1 )

ライセンス: Link先を確認
Shuangrui Ding, Rui Qian, Hongkai Xiong(参考訳) コントラスト学習は、自己監督型時空間表現学習において有望な可能性を示している。 ほとんどの研究は、正対と負対を構成するために異なるクリップを鼻でサンプリングする。 しかし,この定式化は背景背景バイアスに対してモデルを傾斜させる。 根本的な理由は2つある。 第一に、シーンの差は通常、動きの差よりも目立ちやすく、判別が容易である。 第2に、同じビデオからサンプリングされたクリップは、よく似た背景を共有するが、異なる動きを持つ。 単に正のペアと見なせば、動きのパターンではなく、静的な背景にモデルを描画する。 そこで本稿では,この課題に取り組むために,新しい双対コントラスト公式を提案する。 具体的には、入力されたRGBビデオシーケンスを静的シーンと動的モーションの2つの相補モードに分離する。 そして、元のRGB機能は、それぞれ静的機能とアライメントされた動的機能に近づきます。 このようにして、静的シーンと動的動きを同時にコンパクトなrgb表現に符号化する。 さらに、アクティベーションマップを介して特徴空間デカップリングを行い、静的および動的特徴を蒸留する。 本手法は, 時空間的表象 (DCLR) に対して, 提案手法を textbf{D}ual \textbf{C}ontrastive \textbf{L}earning と呼ぶ。 大規模な実験により、DCLRは効果的な時空間表現を学び、UCF-101、HMDB-51、Diving-48データセットの最先端または同等のパフォーマンスを得る。

Contrastive learning has shown promising potential in self-supervised spatio-temporal representation learning. Most works naively sample different clips to construct positive and negative pairs. However, we observe that this formulation inclines the model towards the background scene bias. The underlying reasons are twofold. First, the scene difference is usually more noticeable and easier to discriminate than the motion difference. Second, the clips sampled from the same video often share similar backgrounds but have distinct motions. Simply regarding them as positive pairs will draw the model to the static background rather than the motion pattern. To tackle this challenge, this paper presents a novel dual contrastive formulation. Concretely, we decouple the input RGB video sequence into two complementary modes, static scene and dynamic motion. Then, the original RGB features are pulled closer to the static features and the aligned dynamic features, respectively. In this way, the static scene and the dynamic motion are simultaneously encoded into the compact RGB representation. We further conduct the feature space decoupling via activation maps to distill static- and dynamic-related features. We term our method as \textbf{D}ual \textbf{C}ontrastive \textbf{L}earning for spatio-temporal \textbf{R}epresentation (DCLR). Extensive experiments demonstrate that DCLR learns effective spatio-temporal representations and obtains state-of-the-art or comparable performance on UCF-101, HMDB-51, and Diving-48 datasets.
翻訳日:2022-07-13 14:06:45 公開日:2022-07-12
# ビデオ質問応答のためのビデオグラフ変換器

Video Graph Transformer for Video Question Answering ( http://arxiv.org/abs/2207.05342v1 )

ライセンス: Link先を確認
Junbin Xiao, Pan Zhou, Tat-Seng Chua, Shuicheng Yan(参考訳) 本稿では, Video Quetion Answering (VideoQA) のためのビデオグラフ変換器 (VGT) モデルを提案する。 VGTの特異性は2つある。 1)複雑な時空間推論のための視覚物体,それらの関係,力学を明示的に捉えて映像を符号化する動的グラフトランスフォーマモジュールを設計した。 2) アンタングル付きクロスモーダル変換器の代わりに, ビデオとテキストの関連性比較のために, アンタングル付きビデオとテキストの変換器を利用する。 視覚-テキスト通信は、追加のクロスモーダルインタラクションモジュールによって行われる。 より合理的なビデオエンコーディングとQAソリューションにより、VGTは事前学習のないシナリオにおいて、動的関係推論に挑戦するビデオQAタスクにおいて、事前学習のないシナリオよりもはるかに優れたパフォーマンスが得られることを示す。 そのパフォーマンスは、何百万もの外部データで事前訓練されたモデルを上回る。 さらに、VGTは自己教師型クロスモーダル事前学習の恩恵を受けることができるが、桁違いに小さなデータでも得られることを示す。 これらの結果は,VGTの有効性と優位性を明らかに示し,よりデータ効率の高い事前学習の可能性を明らかにした。 包括的分析とヒューリスティックな観察により、VGTは、粗い認識・記述以上のVQA研究を現実的なビデオにおける微粒な関係推論へと促進できることを期待している。 私たちのコードはhttps://github.com/sail-sg/vgtで利用可能です。

This paper proposes a Video Graph Transformer (VGT) model for Video Quetion Answering (VideoQA). VGT's uniqueness are two-fold: 1) it designs a dynamic graph transformer module which encodes video by explicitly capturing the visual objects, their relations, and dynamics for complex spatio-temporal reasoning; and 2) it exploits disentangled video and text Transformers for relevance comparison between the video and text to perform QA, instead of entangled cross-modal Transformer for answer classification. Vision-text communication is done by additional cross-modal interaction modules. With more reasonable video encoding and QA solution, we show that VGT can achieve much better performances on VideoQA tasks that challenge dynamic relation reasoning than prior arts in the pretraining-free scenario. Its performances even surpass those models that are pretrained with millions of external data. We further show that VGT can also benefit a lot from self-supervised cross-modal pretraining, yet with orders of magnitude smaller data. These results clearly demonstrate the effectiveness and superiority of VGT, and reveal its potential for more data-efficient pretraining. With comprehensive analyses and some heuristic observations, we hope that VGT can promote VQA research beyond coarse recognition/description towards fine-grained relation reasoning in realistic videos. Our code is available at https://github.com/sail-sg/VGT.
翻訳日:2022-07-13 14:06:27 公開日:2022-07-12
# HEAD:異種物体検出器のためのヘテロアッシスト蒸留法

HEAD: HEtero-Assists Distillation for Heterogeneous Object Detectors ( http://arxiv.org/abs/2207.05345v1 )

ライセンス: Link先を確認
Luting Wang, Xiaojie Li, Yue Liao, Zeren Jiang, Jianlong Wu, Fei Wang, Chen Qian, Si Liu(参考訳) 従来の知識蒸留法(kd)による物体検出は, 主に均質な教師・学生検出器に焦点をあてている。 しかし、配置のための軽量検出器の設計は、しばしば高容量検出器と大きく異なる。 そこで本研究では,教師と生徒の異種対間のkdを広く適用するために検討する。 異種kd (hetero-kd) の核となる難易度は, 異種検出器のバックボーン特性間の意味的ギャップが, 最適化方法の違いによるものである。 従来の均質なkd法(homo-kd法)はそのようなギャップに苦しめられ、ヘテロkdの満足な性能を得るのが困難である。 本稿では,異種検出ヘッドを助手として活用したヘテロアシスト蒸留(ヘッド)フレームワークを提案する。 HEADでは、アシスタントは、生徒のバックボーンに取り付けられた教師ヘッドに同質なアーキテクチャを持つ追加の検出ヘッドである。 これにより、ヘテロKDがホモKDに変換され、教師から生徒への効率的な知識伝達が可能になる。 さらに,教師検出装置が使えない場合に,HEADをTF-HEAD(Teacher-Free HEAD)フレームワークに拡張する。 本手法は電流検出kd法に比べて大幅に改善されている。 例えば、MS-COCOデータセットでは、TF-HEADはR18 RetinaNetが33.9 mAP (+2.2)を達成するのに役立つ。

Conventional knowledge distillation (KD) methods for object detection mainly concentrate on homogeneous teacher-student detectors. However, the design of a lightweight detector for deployment is often significantly different from a high-capacity detector. Thus, we investigate KD among heterogeneous teacher-student pairs for a wide application. We observe that the core difficulty for heterogeneous KD (hetero-KD) is the significant semantic gap between the backbone features of heterogeneous detectors due to the different optimization manners. Conventional homogeneous KD (homo-KD) methods suffer from such a gap and are hard to directly obtain satisfactory performance for hetero-KD. In this paper, we propose the HEtero-Assists Distillation (HEAD) framework, leveraging heterogeneous detection heads as assistants to guide the optimization of the student detector to reduce this gap. In HEAD, the assistant is an additional detection head with the architecture homogeneous to the teacher head attached to the student backbone. Thus, a hetero-KD is transformed into a homo-KD, allowing efficient knowledge transfer from the teacher to the student. Moreover, we extend HEAD into a Teacher-Free HEAD (TF-HEAD) framework when a well-trained teacher detector is unavailable. Our method has achieved significant improvement compared to current detection KD methods. For example, on the MS-COCO dataset, TF-HEAD helps R18 RetinaNet achieve 33.9 mAP (+2.2), while HEAD further pushes the limit to 36.2 mAP (+4.5).
翻訳日:2022-07-13 14:06:04 公開日:2022-07-12
# eX-ViT:弱教師付きセマンティックセグメンテーションのための新しいeXPlainable Vision Transformer

eX-ViT: A Novel eXplainable Vision Transformer for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2207.05358v1 )

ライセンス: Link先を確認
Lu Yu, Wei Xiang, Juan Fang, Yi-Ping Phoebe Chen, Lianhua Chi(参考訳) 近年、視覚トランスモデルは様々な視覚タスクの顕著なモデルとなっている。 しかし、これらのモデルは通常、弱い特徴解釈性を持つ不透明である。 さらに、本質的に解釈可能なトランスフォーマーのために構築された手法はなく、その推論プロセスを説明し、忠実な説明を提供することができる。 これらの重要なギャップを埋めるために,本論文では,説明可能な視覚トランスフォーマ (ex-vit) と呼ばれる新しい視覚トランスフォーマを提案する。 具体的には、eX-ViTはExplainable Multi-Head Attention (E-MHA)モジュール、Attribute-Guided Explainer (AttE)モジュール、および自己管理属性誘導損失からなる。 E-MHAは、ノイズ堅牢性のあるモデル決定の観点から、局所パッチから意味論的に解釈可能な表現を学習できる、説明可能な注意重みを調整します。 一方、AttEは、モデルの予測に対する忠実な証拠を構成する多様な属性発見を通じて、対象対象の識別的属性特徴を符号化する。 さらに,属性識別可能性機構と属性多様性機構を通じて拡張表現を学習し,多様な属性を局所化し,より頑健な説明を生成することを目的とした,自己教師付き属性誘導損失を開発した。 その結果、提案したeX-ViTにより、多様な属性を持つ忠実で堅牢な解釈を明らかにすることができる。

Recently vision transformer models have become prominent models for a range of vision tasks. These models, however, are usually opaque with weak feature interpretability. Moreover, there is no method currently built for an intrinsically interpretable transformer, which is able to explain its reasoning process and provide a faithful explanation. To close these crucial gaps, we propose a novel vision transformer dubbed the eXplainable Vision Transformer (eX-ViT), an intrinsically interpretable transformer model that is able to jointly discover robust interpretable features and perform the prediction. Specifically, eX-ViT is composed of the Explainable Multi-Head Attention (E-MHA) module, the Attribute-guided Explainer (AttE) module and the self-supervised attribute-guided loss. The E-MHA tailors explainable attention weights that are able to learn semantically interpretable representations from local patches in terms of model decisions with noise robustness. Meanwhile, AttE is proposed to encode discriminative attribute features for the target object through diverse attribute discovery, which constitutes faithful evidence for the model's predictions. In addition, a self-supervised attribute-guided loss is developed for our eX-ViT, which aims at learning enhanced representations through the attribute discriminability mechanism and attribute diversity mechanism, to localize diverse and discriminative attributes and generate more robust explanations. As a result, we can uncover faithful and robust interpretations with diverse attributes through the proposed eX-ViT.
翻訳日:2022-07-13 14:05:39 公開日:2022-07-12
# (参考訳) 多言語エンコーダはどのように言語間表現を学ぶか?

How Do Multilingual Encoders Learn Cross-lingual Representation? ( http://arxiv.org/abs/2207.05737v1 )

ライセンス: CC BY 4.0
Shijie Wu(参考訳) NLPシステムは通常、複数の言語をサポートする必要がある。 異なる言語に異なる量の監督があるため、言語間転送は、他言語からの転送によるトレーニングデータをほとんど、あるいは全く持たない言語に恩恵を与える。 エンジニアリングの観点からは、多言語NLPは、単一のシステムで複数の言語を提供することにより、開発とメンテナンスの恩恵を受ける。 クロスリンガルトランスファーと多言語nlpの両方が基礎となるクロスリンガル表現に依存している。 BERTは表現学習とNLPに革命をもたらしたため、言語間表現と言語間移動にも革命をもたらした。 Multilingual BERTは、104言語でウィキペディアのデータで訓練された単一言語BERTの代替としてリリースされた。 驚いたことに、明示的な言語間信号なしで、多言語BERTは個々の言語の表現に加えて、言語間表現を学ぶ。 この論文はまず、様々なタスクにおける先行技術と比較して、驚くべき言語間効果を示す。 特に、これらの多言語エンコーダは、どのように言語間表現を学ぶのか。 この論文は,高・低資源言語における多言語モデルの振る舞いを多言語モデルを用いて分析するものである。 また,多言語エンコーダに異なる言語間信号を注入する方法と,それらのモデルを用いた言語間伝達の最適化挙動について検討する。 同時に、多言語間移動における多言語エンコーダの理解を深める。 この結果から,多言語エンコーダの改良と言語間移動が提案される。

NLP systems typically require support for more than one language. As different languages have different amounts of supervision, cross-lingual transfer benefits languages with little to no training data by transferring from other languages. From an engineering perspective, multilingual NLP benefits development and maintenance by serving multiple languages with a single system. Both cross-lingual transfer and multilingual NLP rely on cross-lingual representations serving as the foundation. As BERT revolutionized representation learning and NLP, it also revolutionized cross-lingual representations and cross-lingual transfer. Multilingual BERT was released as a replacement for single-language BERT, trained with Wikipedia data in 104 languages. Surprisingly, without any explicit cross-lingual signal, multilingual BERT learns cross-lingual representations in addition to representations for individual languages. This thesis first shows such surprising cross-lingual effectiveness compared against prior art on various tasks. Naturally, it raises a set of questions, most notably how do these multilingual encoders learn cross-lingual representations. In exploring these questions, this thesis will analyze the behavior of multilingual models in a variety of settings on high and low resource languages. We also look at how to inject different cross-lingual signals into multilingual encoders, and the optimization behavior of cross-lingual transfer with these models. Together, they provide a better understanding of multilingual encoders on cross-lingual transfer. Our findings will lead us to suggested improvements to multilingual encoders and cross-lingual transfer.
翻訳日:2022-07-13 14:04:34 公開日:2022-07-12
# 事前条件付き固有解法による認証評価の高速化

Accelerating Certifiable Estimation with Preconditioned Eigensolvers ( http://arxiv.org/abs/2207.05257v1 )

ライセンス: Link先を確認
David M. Rosen(参考訳) 凸緩和(具体的には半定値)は、堅牢な機械認識システムを構築するための強力なアプローチを提供し、多くの実践的な設定において、挑戦的な推定問題の世界的な最適解の回復を可能にする。 しかし、このアプローチの基盤となる大規模な半定値緩和の解決は、依然として強力な計算課題である。 多くの最先端の証明可能な推定手法における支配的なコストは、ある対称証明行列の最小固有値を計算することを伴う解検証(与えられた候補解のグローバル最適性を検証する)である。 本稿では,この検証ステップを著しく高速化する方法を示し,検証手法の全体的な高速化について述べる。 まず,Burer-Monteiro 法で生じる証明行列は,標準反復固有値法を用いて検証問題を解くのにコストがかかるようなスペクトルを包含していることを示す。 そこで我々は, 局所最適ブロック条件付き共役勾配(LOBPCG)法と, 単純で高効率な代数的前処理器を併用した, 特殊解検証アルゴリズムを設計した。 シミュレーションおよび実世界の様々な実例に対する実験評価により,提案手法は,大規模SLAMベンチマークから導出した緩和法に適用した場合に,最大280倍までの解検証を高速化し,Burer-Monteiro法を最大16倍まで高速化することを示す。

Convex (specifically semidefinite) relaxation provides a powerful approach to constructing robust machine perception systems, enabling the recovery of certifiably globally optimal solutions of challenging estimation problems in many practical settings. However, solving the large-scale semidefinite relaxations underpinning this approach remains a formidable computational challenge. A dominant cost in many state-of-the-art (Burer-Monteiro factorization-based) certifiable estimation methods is solution verification (testing the global optimality of a given candidate solution), which entails computing a minimum eigenpair of a certain symmetric certificate matrix. In this paper, we show how to significantly accelerate this verification step, and thereby the overall speed of certifiable estimation methods. First, we show that the certificate matrices arising in the Burer-Monteiro approach generically possess spectra that make the verification problem expensive to solve using standard iterative eigenvalue methods. We then show how to address this challenge using preconditioned eigensolvers; specifically, we design a specialized solution verification algorithm based upon the locally optimal block preconditioned conjugate gradient (LOBPCG) method together with a simple yet highly effective algebraic preconditioner. Experimental evaluation on a variety of simulated and real-world examples shows that our proposed verification scheme is very effective in practice, accelerating solution verification by up to 280x, and the overall Burer-Monteiro method by up to 16x, versus the standard Lanczos method when applied to relaxations derived from large-scale SLAM benchmarks.
翻訳日:2022-07-13 14:02:17 公開日:2022-07-12
# モノトーンニューラルネットワークのサイズと深さ:補間と近似

Size and depth of monotone neural networks: interpolation and approximation ( http://arxiv.org/abs/2207.05275v1 )

ライセンス: Link先を確認
Dan Mikulincer and Daniel Reichman(参考訳) モノトーン関数とデータセットは、さまざまなアプリケーションで発生します。 モノトーンデータセットの補間問題(interpolation problem)について検討する。入力は、n$ポイントのモノトーンデータセットであり、目標は、データセットを補間する非負のパラメータとしきい値ユニットを持つ、サイズと深さの効率的なモノトーンニューラルネットワークを見つけることである。 深さ2ドルのモノトーンネットワークでは補間できないモノトーンデータセットが存在することを示す。 一方で、$n$ で$\mathbb{r}^d$ のモノトーンデータ集合に対して、深さ 4$ とサイズ $o(nd)$ の補間モノトーンネットワークが存在することを証明する。 我々の補間結果から、$[0,1]^d$ 上のすべての単調関数は、深さ 4 の単調ネットワークによって任意に近似可能であることが示唆される。 最後に,ブール回路の複雑性の結果に基づいて,正のパラメータを持つ帰納的バイアスが,単音関数近似時のニューロン数を超多項ブローアップさせる可能性を示す。

Monotone functions and data sets arise in a variety of applications. We study the interpolation problem for monotone data sets: The input is a monotone data set with $n$ points, and the goal is to find a size and depth efficient monotone neural network, with non negative parameters and threshold units, that interpolates the data set. We show that there are monotone data sets that cannot be interpolated by a monotone network of depth $2$. On the other hand, we prove that for every monotone data set with $n$ points in $\mathbb{R}^d$, there exists an interpolating monotone network of depth $4$ and size $O(nd)$. Our interpolation result implies that every monotone function over $[0,1]^d$ can be approximated arbitrarily well by a depth-4 monotone network, improving the previous best-known construction of depth $d+1$. Finally, building on results from Boolean circuit complexity, we show that the inductive bias of having positive parameters can lead to a super-polynomial blow-up in the number of neurons when approximating monotone functions.
翻訳日:2022-07-13 14:00:32 公開日:2022-07-12
# 確率勾配勾配の変動平均場限界としての保守的SPDE

Conservative SPDEs as fluctuating mean field limits of stochastic gradient descent ( http://arxiv.org/abs/2207.05705v1 )

ライセンス: Link先を確認
Benjamin Gess, Rishabh S. Gvalani, Vitalii Konarovskyi(参考訳) 保存的確率偏微分方程式の解に対する平均場極限における確率的相互作用粒子系の収束は、最適収束率で示される。 第2の主結果として、そのようなspdesに対する定量的中心極限定理が、再び最適な収束率で導かれる。 結果は特にSPDEに対する解に対する過度にパラメータ化された浅層ニューラルネットワークにおける確率勾配勾配ダイナミクスの平均場スケーリングの収束に適用できる。 制限SPDEにおけるゆらぎの包含は収束率を向上し、連続極限における確率勾配勾配のゆらぎに関する情報を保持することが示されている。

The convergence of stochastic interacting particle systems in the mean-field limit to solutions to conservative stochastic partial differential equations is shown, with optimal rate of convergence. As a second main result, a quantitative central limit theorem for such SPDEs is derived, again with optimal rate of convergence. The results apply in particular to the convergence in the mean-field scaling of stochastic gradient descent dynamics in overparametrized, shallow neural networks to solutions to SPDEs. It is shown that the inclusion of fluctuations in the limiting SPDE improves the rate of convergence, and retains information about the fluctuations of stochastic gradient descent in the continuum limit.
翻訳日:2022-07-13 13:59:04 公開日:2022-07-12
# CANF-VC:ビデオ圧縮のための条件付き正規化フロー

CANF-VC: Conditional Augmented Normalizing Flows for Video Compression ( http://arxiv.org/abs/2207.05315v1 )

ライセンス: Link先を確認
Yung-Han Ho, Chih-Peng Chang, Peng-Yu Chen, Alessandro Gnutti, Wen-Hsiao Peng(参考訳) 本稿では,条件付き拡張正規化フロー(ANF)に基づく,エンドツーエンドの学習ベースビデオ圧縮システムCANF-VCを提案する。 ほとんどの学習ビデオ圧縮システムは、従来のコーデックと同じハイブリッドベースのコーディングアーキテクチャを採用している。 条件付きコーディングの最近の研究は、ハイブリッドベースのコーディングの亜最適性を示し、深層生成モデルが新しいコーディングフレームワークを作成する上で重要な役割を果たす機会を開く。 canf-vcは条件付きanfを利用して条件付きフレーム間コーディングのためのビデオ生成モデルを学ぶ新しい試みである。 我々は、特殊ケースとして変分オートエンコーダを含む特殊な生成モデルであり、表現性を向上できるため、ANFを選択する。 CANF-VCはまた、条件付きコーディングをモーションコーディングに拡張し、純粋に条件付きコーディングフレームワークを形成する。 CANF-VCが最先端の手法よりも優れていることを確認するために、一般的に使用されるデータセットの大規模な実験結果が得られた。

This paper presents an end-to-end learning-based video compression system, termed CANF-VC, based on conditional augmented normalizing flows (ANF). Most learned video compression systems adopt the same hybrid-based coding architecture as the traditional codecs. Recent research on conditional coding has shown the sub-optimality of the hybrid-based coding and opens up opportunities for deep generative models to take a key role in creating new coding frameworks. CANF-VC represents a new attempt that leverages the conditional ANF to learn a video generative model for conditional inter-frame coding. We choose ANF because it is a special type of generative model, which includes variational autoencoder as a special case and is able to achieve better expressiveness. CANF-VC also extends the idea of conditional coding to motion coding, forming a purely conditional coding framework. Extensive experimental results on commonly used datasets confirm the superiority of CANF-VC to the state-of-the-art methods.
翻訳日:2022-07-13 13:58:17 公開日:2022-07-12
# 非凸関数制約最適化のための単一ループ勾配勾配及び摂動昇降アルゴリズム

A Single-Loop Gradient Descent and Perturbed Ascent Algorithm for Nonconvex Functional Constrained Optimization ( http://arxiv.org/abs/2207.05650v1 )

ライセンス: Link先を確認
Songtao Lu(参考訳) 非凸制約最適化問題は、マルチクラスネイマン・ピアソン分類やマルコフ決定過程などの機械学習問題をモデル化するために用いられる。 しかし, 目的値と制約値がともに非凸であるため, 損失値の低減と制約違反の低減のバランスをとることは困難である。 このタイプの問題を解決する方法はいくつかあるが、いずれもダブルループまたはトリプルループのアルゴリズムであり、各イテレーションで複数のハイパーパラメータをチューニングすることで、ある程度の精度でいくつかのサブ問題をoracleが解決する必要がある。 本稿では,滑らかな非凸不等式制約問題のクラスを解くために,新しい勾配降下・摂動上昇法(gdpa)を提案する。 GDPAは原始双対アルゴリズムであり、目的関数と制約関数の両方の第一次情報のみを利用して、原始変数と双対変数を交互に更新する。 提案アルゴリズムの重要な特徴は、シングルループアルゴリズムであり、2つのステップサイズしか調整する必要のないことである。 軽度規則性条件下では、GDPAは収束率保証を伴う非凸関数制約問題のKKT(Karush-Kuhn-Tucker)点を見つけることができる。 我々の知る限りでは、非凸不等式制約による一般的な非凸スムーズな問題を解くことができる最初のシングルループアルゴリズムである。 計算結果はまた、最もよく知られたアルゴリズム(定常測度と解の実現可能性の両方の観点から)と比較してgdpaの優位を示す。

Nonconvex constrained optimization problems can be used to model a number of machine learning problems, such as multi-class Neyman-Pearson classification and constrained Markov decision processes. However, such kinds of problems are challenging because both the objective and constraints are possibly nonconvex, so it is difficult to balance the reduction of the loss value and reduction of constraint violation. Although there are a few methods that solve this class of problems, all of them are double-loop or triple-loop algorithms, and they require oracles to solve some subproblems up to certain accuracy by tuning multiple hyperparameters at each iteration. In this paper, we propose a novel gradient descent and perturbed ascent (GDPA) algorithm to solve a class of smooth nonconvex inequality constrained problems. The GDPA is a primal-dual algorithm, which only exploits the first-order information of both the objective and constraint functions to update the primal and dual variables in an alternating way. The key feature of the proposed algorithm is that it is a single-loop algorithm, where only two step-sizes need to be tuned. We show that under a mild regularity condition GDPA is able to find Karush-Kuhn-Tucker (KKT) points of nonconvex functional constrained problems with convergence rate guarantees. To the best of our knowledge, it is the first single-loop algorithm that can solve the general nonconvex smooth problems with nonconvex inequality constraints. Numerical results also showcase the superiority of GDPA compared with the best-known algorithms (in terms of both stationarity measure and feasibility of the obtained solutions).
翻訳日:2022-07-13 13:58:02 公開日:2022-07-12
# 複雑性保証付き非凸円錐最適化の2次定常点を求めるNewton-CGに基づく障壁法

A Newton-CG based barrier method for finding a second-order stationary point of nonconvex conic optimization with complexity guarantees ( http://arxiv.org/abs/2207.05697v1 )

ライセンス: Link先を確認
Chuan He and Zhaosong Lu(参考訳) 本稿では、アフィン部分空間と凸錐の交叉上の2つの微分可能な関数を最小化する非凸錐最適化の近似二階定常点(SOSP)を求める。 特に、この問題の$(\epsilon,\sqrt{\epsilon})$-SOSPを求めるためのニュートン共役勾配(Newton-CG)に基づく障壁法を提案する。 我々の方法は実装可能であるだけでなく、制約のない非凸最適化の$(\epsilon,\sqrt{\epsilon})$-SOSPを見つけるための2階法の最もよく知られた反復複雑性と一致する${\cal O}(\epsilon^{-3/2})$の反復複雑性を達成する。 基本演算量によって測定された$\widetilde{\cal O}(\epsilon^{-3/2}\min\{n,\epsilon^{-1/4}\})$の演算複雑性も本手法のために確立した。

In this paper we consider finding an approximate second-order stationary point (SOSP) of nonconvex conic optimization that minimizes a twice differentiable function over the intersection of an affine subspace and a convex cone. In particular, we propose a Newton-conjugate gradient (Newton-CG) based barrier method for finding an $(\epsilon,\sqrt{\epsilon})$-SOSP of this problem. Our method is not only implementable, but also achieves an iteration complexity of ${\cal O}(\epsilon^{-3/2})$, which matches the best known iteration complexity of second-order methods for finding an $(\epsilon,\sqrt{\epsilon})$-SOSP of unconstrained nonconvex optimization. The operation complexity of $\widetilde{\cal O}(\epsilon^{-3/2}\min\{n,\epsilon^{-1/4}\})$, measured by the amount of fundamental operations, is also established for our method.
翻訳日:2022-07-13 13:57:36 公開日:2022-07-12
# メタラーニングによる実効的なファウショット名付きエンティティリンク

Effective Few-Shot Named Entity Linking by Meta-Learning ( http://arxiv.org/abs/2207.05280v1 )

ライセンス: Link先を確認
Xiuxing Li, Zhenyu Li, Zhengyan Zhang, Ning Liu, Haitao Yuan, Wei Zhang, Zhiyuan Liu, Jianyong Wang(参考訳) エンティティリンクは、知識ベースで対応するエンティティへのあいまいな言及をリンクすることを目的としており、知識ベース補完、質問応答、情報抽出など、様々な下流アプリケーションにおいて重要である。 このタスクには多大な努力が費やされてきたが、これらの研究のほとんどは大規模ラベル付きデータを利用できるという仮定に従っている。 しかし、労働集約的なアノテーション作業のためにラベル付きデータが特定のドメインに不十分な場合、既存のアルゴリズムの性能は耐え難く低下する。 本稿では,最小限のドメイン内ラベル付きデータしか必要とせず,現実の状況ではより実用的である,少数ショットエンティティリンクの問題を解決する。 具体的には,参照書き換えに基づく非自明な合成エンティティ・メンションペアを生成するための,新しい弱い監督戦略を提案する。 合成データの質は効果的なモデルトレーニングに重大な影響を与えるため、各合成エンティティ-メントペアに異なる重みを割り当てるメタ学習機構を設計する。 この方法では、リッチで貴重なセマンティック情報を深く活用して、訓練されたエンティティリンクモデルを、わずかな設定で導出することができます。 実世界のデータセットに対する実験により,提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善し,少量のラベル付きデータしか利用できない場合,印象的な性能が得られることが示された。 さらに,モデルの伝達性にも優れることを示す。

Entity linking aims to link ambiguous mentions to their corresponding entities in a knowledge base, which is significant and fundamental for various downstream applications, e.g., knowledge base completion, question answering, and information extraction. While great efforts have been devoted to this task, most of these studies follow the assumption that large-scale labeled data is available. However, when the labeled data is insufficient for specific domains due to labor-intensive annotation work, the performance of existing algorithms will suffer an intolerable decline. In this paper, we endeavor to solve the problem of few-shot entity linking, which only requires a minimal amount of in-domain labeled data and is more practical in real situations. Specifically, we firstly propose a novel weak supervision strategy to generate non-trivial synthetic entity-mention pairs based on mention rewriting. Since the quality of the synthetic data has a critical impact on effective model training, we further design a meta-learning mechanism to assign different weights to each synthetic entity-mention pair automatically. Through this way, we can profoundly exploit rich and precious semantic information to derive a well-trained entity linking model under the few-shot setting. The experiments on real-world datasets show that the proposed method can extensively improve the state-of-the-art few-shot entity linking model and achieve impressive performance when only a small amount of labeled data is available. Moreover, we also demonstrate the outstanding ability of the model's transferability.
翻訳日:2022-07-13 13:56:51 公開日:2022-07-12
# huqariq: ペルーの母国語による音声認識のための多言語音声コーパス

Huqariq: A Multilingual Speech Corpus of Native Languages of Peru for Speech Recognition ( http://arxiv.org/abs/2207.05498v1 )

ライセンス: Link先を確認
Rodolfo Zevallos, Luis Camacho and Nelsi Melgarejo(参考訳) フカーリク・コーパス(huqariq corpus)は、ペルーの言語による多言語集である。 transcribedコーパスは、ペルーの絶滅危惧言語を保存するための音声技術の研究と開発を目的としている。 Huqariqは主に音声認識、言語識別、音声合成ツールの開発のために設計されている。 コーパス収集を持続的に実現するために,クラウドソーシング手法を用いる。 huqariqにはペルーの4つのネイティブ言語が含まれており、2022年末までには、ペルーの48のネイティブ言語のうち最大20のネイティブ言語に到達することが期待されている。 このコーパスは500人以上のボランティアが録音した220時間分の音声を録音しており、ペルーで最大の母語コーパスとなっている。 コーパスの品質を検証するために,220時間の完全書き起こし音声を用いた音声認識実験を行った。

The Huqariq corpus is a multilingual collection of speech from native Peruvian languages. The transcribed corpus is intended for the research and development of speech technologies to preserve endangered languages in Peru. Huqariq is primarily designed for the development of automatic speech recognition, language identification and text-to-speech tools. In order to achieve corpus collection sustainably, we employ the crowdsourcing methodology. Huqariq includes four native languages of Peru, and it is expected that by the end of the year 2022, it can reach up to 20 native languages out of the 48 native languages in Peru. The corpus has 220 hours of transcribed audio recorded by more than 500 volunteers, making it the largest speech corpus for native languages in Peru. In order to verify the quality of the corpus, we present speech recognition experiments using 220 hours of fully transcribed audio.
翻訳日:2022-07-13 13:55:58 公開日:2022-07-12
# パラフレーズを用いた文脈埋め込みの性質の研究

Using Paraphrases to Study Properties of Contextual Embeddings ( http://arxiv.org/abs/2207.05553v1 )

ライセンス: Link先を確認
Laura Burdick, Jonathan K. Kummerfeld, Rada Mihalcea(参考訳) 我々は、独自のデータソースとしてパラフレーズを使用し、特にBERTに焦点を当てたコンテキスト化された埋め込みを分析します。 パラフレーズは自然に一貫した単語やフレーズのセマンティクスを符号化するため、埋め込みの性質を研究するためのユニークなレンズを提供する。 パラフレーズデータベースのアライメントを用いて,パラフレーズ内の単語とフレーズ表現について検討する。 文脈埋め込みは多義語を効果的に扱うが、多くの場合、驚くほど異なる表現を与える。 我々は,BERTが単語の順序に敏感であることを確認するが,BERT層間の文脈化のレベルにおいて,従来の作業と若干異なるパターンを見出す。

We use paraphrases as a unique source of data to analyze contextualized embeddings, with a particular focus on BERT. Because paraphrases naturally encode consistent word and phrase semantics, they provide a unique lens for investigating properties of embeddings. Using the Paraphrase Database's alignments, we study words within paraphrases as well as phrase representations. We find that contextual embeddings effectively handle polysemous words, but give synonyms surprisingly different representations in many cases. We confirm previous findings that BERT is sensitive to word order, but find slightly different patterns than prior work in terms of the level of contextualization across BERT's layers.
翻訳日:2022-07-13 13:55:43 公開日:2022-07-12
# 木の平面線形化における辺長の期待和の線形時間計算

Linear-time calculation of the expected sum of edge lengths in planar linearizations of trees ( http://arxiv.org/abs/2207.05564v1 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig and Ramon Ferrer-i-Cancho(参考訳) 依存グラフは、人間の言語の文の構文構造を表現する非常に成功したモデルであることが証明されている。 これらのグラフは木として広く受け入れられ、頂点は単語であり、弧は構文的に依存した単語を結び付ける。 これらの依存関係が短い傾向は、辺の長さまたはその変異の合計のランダムなベースラインを用いて実証されている。 ユビキタスベースラインは射影順序の期待和である(エッジが交差せず、文の根語がどの端でもカバーされない)。 この期待値は、$O(n)$ timeで計算できることが示されている。 この記事では、平面順序(ルートワードがカバーできる)に注目し、2つの主な結果を示す。 まず,平面配置における期待和と投影配置における期待和の関係を示す。 第二に、エッジ長の和の期待値を計算するために$O(n)$-timeアルゴリズムも導出する。 この2つの結果は、この論文の別の貢献、すなわち、ある文が与えられたとき、その単語の均一なランダムな平面置換を生成するための平面置換数か効率的なアルゴリズムのいずれかを生成する平面性の特徴に由来する。 本研究では,ランダム平面線形化をベースラインとする依存性距離最小化に関する過去の研究を再現する方法を提案する。

Dependency graphs have proven to be a very successful model to represent the syntactic structure of sentences of human languages. In these graphs, widely accepted to be trees, vertices are words and arcs connect syntactically-dependent words. The tendency of these dependencies to be short has been demonstrated using random baselines for the sum of the lengths of the edges or its variants. A ubiquitous baseline is the expected sum in projective orderings (wherein edges do not cross and the root word of the sentence is not covered by any edge). It was shown that said expected value can be computed in $O(n)$ time. In this article we focus on planar orderings (where the root word can be covered) and present two main results. First, we show the relationship between the expected sum in planar arrangements and the expected sum in projective arrangements. Second, we also derive a $O(n)$-time algorithm to calculate the expected value of the sum of edge lengths. These two results stem from another contribution of the present article, namely a characterization of planarity that, given a sentence, yields either the number of planar permutations or an efficient algorithm to generate uniformly random planar permutations of the words. Our research paves the way for replicating past research on dependency distance minimization using random planar linearizations as random baseline.
翻訳日:2022-07-13 13:55:33 公開日:2022-07-12
# 音楽によるオンラインゲームレベル生成

Online Game Level Generation from Music ( http://arxiv.org/abs/2207.05271v1 )

ライセンス: Link先を確認
Ziqi Wang, Jialin Liu(参考訳) ゲームは複数のタイプのコンテンツで構成され、異なるコンテンツタイプの調和はゲームデザインにおいて重要な役割を果たす。 しかしながら、手続き的コンテンツ生成に関するほとんどの研究は、一度にひとつのタイプのコンテンツしか考慮していない。 本稿では,プレイヤーの演奏速度に適応しつつ,リアルタイムに演奏機能と音楽機能とを一致させる方法で,音楽からオンラインレベルの生成を提案し,定式化する。 オンラインプレイヤー適応型プロシージャコンテンツ生成フレームワークであるOPARLは、経験駆動型強化学習と制御可能な強化学習に基づいて、音楽からオンラインレベルの生成を可能にする。 さらに, ローカル検索とk-アネレスト近傍に基づく新しい制御ポリシーを提案し, OPARLに統合し, オンラインで収集したプレイデータを考慮したレベルジェネレータを制御する。 シミュレーションに基づく実験の結果、OPARLの実装は、オンライン方式で異なる人工プレイヤーのための「エネルギー」のダイナミックな音楽に適合する難易度で演奏可能なレベルを生成する能力を持つことが示された。

Game consists of multiple types of content, while the harmony of different content types play an essential role in game design. However, most works on procedural content generation consider only one type of content at a time. In this paper, we propose and formulate online level generation from music, in a way of matching a level feature to a music feature in real-time, while adapting to players' play speed. A generic framework named online player-adaptive procedural content generation via reinforcement learning, OPARL for short, is built upon the experience-driven reinforcement learning and controllable reinforcement learning, to enable online level generation from music. Furthermore, a novel control policy based on local search and k-nearest neighbours is proposed and integrated into OPARL to control the level generator considering the play data collected online. Results of simulation-based experiments show that our implementation of OPARL is competent to generate playable levels with difficulty degree matched to the ``energy'' dynamic of music for different artificial players in an online fashion.
翻訳日:2022-07-13 13:55:09 公開日:2022-07-12
# 効率的な物体検出のための動的提案

Dynamic Proposals for Efficient Object Detection ( http://arxiv.org/abs/2207.05252v1 )

ライセンス: Link先を確認
Yiming Cui, Linjie Yang, Ding Liu(参考訳) オブジェクト検出は、与えられた画像内のオブジェクトをローカライズし分類する基本的なコンピュータビジョンタスクである。 ほとんどの最先端検出方法は、オブジェクト候補の中間表現として固定された数の提案を使い、推論中に異なる計算制約に適応できない。 本稿では,オブジェクト検出のための動的提案を生成することにより,異なる計算資源に適応する簡易かつ効果的な手法を提案する。 まず、異なる数の提案を推測できるように、単一のクエリベースのモデルを作成するモジュールを設計する。 さらに,入力画像に応じて提案数を選択する動的モデルに拡張し,計算コストを大幅に削減した。 本手法は,2段階モデルや問合せモデルを含む幅広い検出モデルにおいて,類似性や精度を保ちながら,大幅な高速化を実現する。

Object detection is a basic computer vision task to loccalize and categorize objects in a given image. Most state-of-the-art detection methods utilize a fixed number of proposals as an intermediate representation of object candidates, which is unable to adapt to different computational constraints during inference. In this paper, we propose a simple yet effective method which is adaptive to different computational resources by generating dynamic proposals for object detection. We first design a module to make a single query-based model to be able to inference with different numbers of proposals. Further, we extend it to a dynamic model to choose the number of proposals according to the input image, greatly reducing computational costs. Our method achieves significant speed-up across a wide range of detection models including two-stage and query-based models while obtaining similar or even better accuracy.
翻訳日:2022-07-13 13:53:02 公開日:2022-07-12
# ソーシャルグループ活動認識のためのトランスフォーマーを用いたハンティンググループクルー

Hunting Group Clues with Transformers for Social Group Activity Recognition ( http://arxiv.org/abs/2207.05254v1 )

ライセンス: Link先を確認
Masato Tamura, Rahul Vishwakarma, Ravigopal Vennelakanti(参考訳) 本稿では,社会集団活動認識のための新しい枠組みを提案する。 グループ活動認識のタスクとして、社会集団活動認識は複数のサブグループ活動を認識し、グループメンバーを識別する必要がある。 既存のメソッドのほとんどは、リージョンフィーチャを洗練し、アクティビティ機能にまとめることで、両方のタスクに取り組みます。 このようなヒューリスティックな特徴設計は、不完全な人物のローカライゼーションに影響を受けやすい特徴の有効性を示し、シーンコンテキストの重要性を無視する。 さらに、地域の特徴は、地域の人々によって支配され、異なる意味を持つため、グループメンバーを特定するのに最適である。 これらの欠点を克服するために,トランスフォーマーのアテンションモジュールを活用して,効果的なソーシャルグループ機能を生成することを提案する。 本手法は,アテンションモジュールがソーシャルグループ活動に関連する特徴を識別・集約し,各ソーシャルグループに有効な特徴を生成するように設計されている。 グループメンバー情報は機能に組み込まれ、フィードフォワードネットワークによってアクセスされる。 フィードフォワードネットワークの出力は、グループメンバーがグループと個人の間の単純なハンガリー語マッチングで識別できるほど簡潔にグループを表す。 実験の結果,本手法はVolleyball and Collective Activityデータセットの最先端手法よりも優れていた。

This paper presents a novel framework for social group activity recognition. As an expanded task of group activity recognition, social group activity recognition requires recognizing multiple sub-group activities and identifying group members. Most existing methods tackle both tasks by refining region features and then summarizing them into activity features. Such heuristic feature design renders the effectiveness of features susceptible to incomplete person localization and disregards the importance of scene contexts. Furthermore, region features are sub-optimal to identify group members because the features may be dominated by those of people in the regions and have different semantics. To overcome these drawbacks, we propose to leverage attention modules in transformers to generate effective social group features. Our method is designed in such a way that the attention modules identify and then aggregate features relevant to social group activities, generating an effective feature for each social group. Group member information is embedded into the features and thus accessed by feed-forward networks. The outputs of feed-forward networks represent groups so concisely that group members can be identified with simple Hungarian matching between groups and individuals. Experimental results show that our method outperforms state-of-the-art methods on the Volleyball and Collective Activity datasets.
翻訳日:2022-07-13 13:52:49 公開日:2022-07-12
# セマンティックセグメンテーションのための正規化特徴蒸留

Normalized Feature Distillation for Semantic Segmentation ( http://arxiv.org/abs/2207.05256v1 )

ライセンス: Link先を確認
Tao Liu, Xi Yang, Chenshu Chen(参考訳) モデル圧縮における有望なアプローチとして、知識蒸留は、煩わしいものから知識を移すことでコンパクトモデルの性能を向上させる。 学生の訓練を指導するのに用いられる知識は重要である。 セマンティックセグメンテーションにおける従来の蒸留法は, 先行情報に依存した精巧な手作業による設計を含む特徴から, 様々な種類の知識を抽出しようと試み, 性能向上が限定された。 本稿では, 新規な知識を手作業で設計することなく, 従来の特徴を効果的に蒸留することを目的とした, 正規化特徴蒸留(NFD)と呼ばれる簡易かつ効果的な特徴蒸留法を提案する。 鍵となるアイデアは、正規化によって教師の特徴応答の大きさを模倣することに学生が集中することを防ぐことである。 本手法は,都市景観における意味セグメンテーション,voc 2012,ade20kデータセットにおいて最先端の蒸留結果を得る。 コードは利用可能だ。

As a promising approach in model compression, knowledge distillation improves the performance of a compact model by transferring the knowledge from a cumbersome one. The kind of knowledge used to guide the training of the student is important. Previous distillation methods in semantic segmentation strive to extract various forms of knowledge from the features, which involve elaborate manual design relying on prior information and have limited performance gains. In this paper, we propose a simple yet effective feature distillation method called normalized feature distillation (NFD), aiming to enable effective distillation with the original features without the need to manually design new forms of knowledge. The key idea is to prevent the student from focusing on imitating the magnitude of the teacher's feature response by normalization. Our method achieves state-of-the-art distillation results for semantic segmentation on Cityscapes, VOC 2012, and ADE20K datasets. Code will be available.
翻訳日:2022-07-13 13:52:28 公開日:2022-07-12
# クロスアーキテクチャ知識蒸留

Cross-Architecture Knowledge Distillation ( http://arxiv.org/abs/2207.05273v1 )

ライセンス: Link先を確認
Yufan Liu, Jiajiong Cao, Bing Li, Weiming Hu, Jingting Ding, Liang Li(参考訳) トランスフォーマーは、グローバルな関係と優れたパフォーマンスを学ぶ能力から、多くの注目を集めている。 高い性能を達成するために、Transformerから畳み込みニューラルネットワーク(CNN)への補完的な知識を蒸留するのは自然である。 しかし、既存の知識蒸留法は、cnnからcnnへの知識の蒸留など、相同構造蒸留のみを考慮する。 これらはtransformerからcnnまで、アーキテクチャ横断のシナリオに適用する場合には適さないかもしれない。 この問題に対処するために,新しいクロスアーキテクチャ知識蒸留法を提案する。 具体的には,教師の出力・中間的特徴を直接模倣する代わりに,部分横断的注意プロジェクタとグループ的リニアプロジェクタを導入し,教師の持つ特徴を2つの投影的特徴空間に合わせる。 また、フレームワークの堅牢性と安定性を改善するために、多視点ロバストトレーニングスキームも提示した。 大規模な実験により,提案手法は小規模なデータセットと大規模データセットの両方において,14の最先端を達成できた。

Transformer attracts much attention because of its ability to learn global relations and superior performance. In order to achieve higher performance, it is natural to distill complementary knowledge from Transformer to convolutional neural network (CNN). However, most existing knowledge distillation methods only consider homologous-architecture distillation, such as distilling knowledge from CNN to CNN. They may not be suitable when applying to cross-architecture scenarios, such as from Transformer to CNN. To deal with this problem, a novel cross-architecture knowledge distillation method is proposed. Specifically, instead of directly mimicking output/intermediate features of the teacher, a partially cross attention projector and a group-wise linear projector are introduced to align the student features with the teacher's in two projected feature spaces. And a multi-view robust training scheme is further presented to improve the robustness and stability of the framework. Extensive experiments show that the proposed method outperforms 14 state-of-the-arts on both small-scale and large-scale datasets.
翻訳日:2022-07-13 13:52:13 公開日:2022-07-12
# PseudoClick: クリック模倣によるインタラクティブなイメージセグメンテーション

PseudoClick: Interactive Image Segmentation with Click Imitation ( http://arxiv.org/abs/2207.05282v1 )

ライセンス: Link先を確認
Qin Liu, Meng Zheng, Benjamin Planche, Srikrishna Karanam, Terrence Chen, Marc Niethammer, Ziyan Wu(参考訳) クリックベースのインタラクティブイメージセグメンテーションの目標は、ユーザインタラクションが制限された正確なオブジェクトセグメンテーションマスク、すなわち、最小数のユーザクリックによって取得することである。 既存の方法は、まずセグメンテーションマスクを検査し、次に誤ラベルされた領域のポイントを反復的に提供することで、すべてのクリックを提供する必要がある。 私たちのモデルは、ユーザのインタラクションコストをさらに削減するために、どこをクリックすべきかを直接予測できますか? この目的のために、既存のセグメンテーションネットワークが次のクリック候補を提案できる汎用フレームワークである {\PseudoClick} を提案する。 これらの自動生成クリックは、この作業で擬似クリックと呼ばれ、人間のクリックを模倣してセグメンテーションマスクを洗練させる。

The goal of click-based interactive image segmentation is to obtain precise object segmentation masks with limited user interaction, i.e., by a minimal number of user clicks. Existing methods require users to provide all the clicks: by first inspecting the segmentation mask and then providing points on mislabeled regions, iteratively. We ask the question: can our model directly predict where to click, so as to further reduce the user interaction cost? To this end, we propose {\PseudoClick}, a generic framework that enables existing segmentation networks to propose candidate next clicks. These automatically generated clicks, termed pseudo clicks in this work, serve as an imitation of human clicks to refine the segmentation mask.
翻訳日:2022-07-13 13:51:56 公開日:2022-07-12
# MetaAge: メタ学習型個人年齢推定器

MetaAge: Meta-Learning Personalized Age Estimators ( http://arxiv.org/abs/2207.05288v1 )

ライセンス: Link先を確認
Wanhua Li, Jiwen Lu, Abudukelimu Wuerkaixi, Jianjiang Feng, Jie Zhou(参考訳) 年齢は年齢によって異なる。 パーソナライズされた年齢推定器の学習は、老化プロセスのパーソナライズをより良くモデル化するため、年齢推定にとって有望な方向性である。 しかし、既存のパーソナライズされたほとんどの方法は、アイデンティティラベルと個人が長期的な老化パターンを形成するのに十分なサンプルという、高度な要求のために大規模なデータセットが欠如している。 本稿では、上記の要件を満たさずにパーソナライズされた年齢推定器を学習し、MetaAgeというメタラーニング手法を提案する。 トレーニングセット内の各人ごとのパーソナライズされた推定者のパラメータを学習する従来のパーソナライズされた方法とは異なり、本手法は識別情報から年齢推定者パラメータへのマッピングを学習する。 具体的には、アイデンティティ機能を入力として、カスタマイズされた推定者のパラメータを出力するパーソナライズされた推定子メタリーナーを導入する。 このようにして,本手法は上記の要件なしにメタ知識を学習し,学習したメタ知識をテストセットにシームレスに転送する。 MORPH II、ChaLearn LAP 2015、ChaLearn LAP 2016データベースを含む3つのベンチマークデータセットの大規模な実験結果から、私たちのMetaAgeは既存のパーソナライズされたメソッドのパフォーマンスを大幅に向上させ、最先端のアプローチよりも優れています。

Different people age in different ways. Learning a personalized age estimator for each person is a promising direction for age estimation given that it better models the personalization of aging processes. However, most existing personalized methods suffer from the lack of large-scale datasets due to the high-level requirements: identity labels and enough samples for each person to form a long-term aging pattern. In this paper, we aim to learn personalized age estimators without the above requirements and propose a meta-learning method named MetaAge for age estimation. Unlike most existing personalized methods that learn the parameters of a personalized estimator for each person in the training set, our method learns the mapping from identity information to age estimator parameters. Specifically, we introduce a personalized estimator meta-learner, which takes identity features as the input and outputs the parameters of customized estimators. In this way, our method learns the meta knowledge without the above requirements and seamlessly transfers the learned meta knowledge to the test set, which enables us to leverage the existing large-scale age datasets without any additional annotations. Extensive experimental results on three benchmark datasets including MORPH II, ChaLearn LAP 2015 and ChaLearn LAP 2016 databases demonstrate that our MetaAge significantly boosts the performance of existing personalized methods and outperforms the state-of-the-art approaches.
翻訳日:2022-07-13 13:51:42 公開日:2022-07-12
# DETRに基づくヒューマン・オブジェクト・インタラクション検出のためのハード・ポジティヴ・クエリマイニングに向けて

Towards Hard-Positive Query Mining for DETR-based Human-Object Interaction Detection ( http://arxiv.org/abs/2207.05293v1 )

ライセンス: Link先を確認
Xubin Zhong, Changxing Ding, Zijian Li, and Shaoli Huang(参考訳) ヒューマンオブジェクトインタラクション(HOI)検出は、高レベル画像理解のコアタスクである。 近年,検出変換器(DETR)を用いたHOI検出器の高性能化と効率的な構造が注目されている。 しかし、これらのアプローチは通常、特定の画像内のオブジェクトの位置変更に弱い全てのテスト画像に対して固定されたhoiクエリを採用する。 そこで,本稿では,部分的な視覚的手がかりを用いて正確な予測を迫られるハード陽性クエリをマイニングすることで,DETRのロバスト性を高めることを提案する。 まず,各トレーニング画像に対して,ラベル付き人間オブジェクトペアのグラウンドトゥルース(GT)位置に応じて,ハード陽性クエリを明示的に構成する。 具体的には、ラベル付き人間オブジェクトペアのGTバウンディングボックスを、シフトしたボックスがGTボックスの一部だけをカバーするようにシフトする。 各ラベル付き人間とオブジェクトのペアのシフトボックスの座標をhoiクエリにエンコードする。 第二に、デコーダ層の交差アテンションマップでトップスコアをマスキングすることで、別のハード陽性クエリを暗黙的に構築する。 マスク付きアテンションマップはHOI予測のための部分的な重要な手がかりのみをカバーする。 最後に,両タイプのハードクエリを効率的に組み合わせた代替戦略を提案する。 各繰り返しにおいて、DeTRの学習可能なクエリと選択された1種類のハード陽性クエリが損失計算に採用されている。 実験の結果,提案手法は既存のDETRベースのHOI検出器に広く適用可能であることがわかった。 さらに, HICO-DET, V-COCO, HOI-Aの3つのベンチマークにおいて, 最先端性能を継続的に達成する。 コードはhttps://github.com/MuchHair/HQM.comで入手できる。

Human-Object Interaction (HOI) detection is a core task for high-level image understanding. Recently, Detection Transformer (DETR)-based HOI detectors have become popular due to their superior performance and efficient structure. However, these approaches typically adopt fixed HOI queries for all testing images, which is vulnerable to the location change of objects in one specific image. Accordingly, in this paper, we propose to enhance DETR's robustness by mining hard-positive queries, which are forced to make correct predictions using partial visual cues. First, we explicitly compose hard-positive queries according to the ground-truth (GT) position of labeled human-object pairs for each training image. Specifically, we shift the GT bounding boxes of each labeled human-object pair so that the shifted boxes cover only a certain portion of the GT ones. We encode the coordinates of the shifted boxes for each labeled human-object pair into an HOI query. Second, we implicitly construct another set of hard-positive queries by masking the top scores in cross-attention maps of the decoder layers. The masked attention maps then only cover partial important cues for HOI predictions. Finally, an alternate strategy is proposed that efficiently combines both types of hard queries. In each iteration, both DETR's learnable queries and one selected type of hard-positive queries are adopted for loss computation. Experimental results show that our proposed approach can be widely applied to existing DETR-based HOI detectors. Moreover, we consistently achieve state-of-the-art performance on three benchmarks: HICO-DET, V-COCO, and HOI-A. Code is available at https://github.com/MuchHair/HQM.
翻訳日:2022-07-13 13:51:14 公開日:2022-07-12
# SD-GAN:離散属性を用いた顔画像合成のための意味分解

SD-GAN: Semantic Decomposition for Face Image Synthesis with Discrete Attribute ( http://arxiv.org/abs/2207.05300v1 )

ライセンス: Link先を確認
Zhou Kangneng, Zhu Xiaobin, Gao Daiheng, Lee Kai, Li Xinjie, Yin Xu-Cheng(参考訳) 顔画像合成のためのgans(generative adversarial network)における潜在コード操作は、主に連続的な属性合成(例えば、年齢、ポーズ、感情)に重点を置いているが、フェイスマスクや眼鏡のような離散的な属性合成は、あまり注目されていない。 顔の離散属性に直接既存の作品を適用すると、不正確な結果が生じる可能性がある。 本研究では,SD-GANと呼ばれる意味分解による顔の離散属性合成に挑戦する革新的な枠組みを提案する。 具体的には、離散属性表現を2つのコンポーネント、すなわちセマンティクスの事前基底とオフセットの潜在表現に明示的に分解する。 セマンティック事前ベースは、潜在空間における顔表現を操作する初期化方向を示す。 3D対応セマンティックフュージョンネットワークによって得られるオフセット潜在プレゼンテーションを提案し,事前調整を行った。 さらに、融合ネットワークは3D埋め込みを統合し、アイデンティティ保存と離散属性合成を改善する。 先行基底とオフセット潜在表現の組み合わせにより, 個別属性を持つフォトリアリスティックな顔画像の合成が可能となる。 特に,既存のデータセットにおける個別属性の欠如を解消するために,大規模で価値のあるMEGN(Face Mask and Eyeglasses images crawled from Google and Naver)を構築した。 大規模定性的および定量的実験により,本手法の最先端性能を実証した。 私たちのコードは、https://github.com/MontaEllis/SD-GAN.comで利用可能です。

Manipulating latent code in generative adversarial networks (GANs) for facial image synthesis mainly focuses on continuous attribute synthesis (e.g., age, pose and emotion), while discrete attribute synthesis (like face mask and eyeglasses) receives less attention. Directly applying existing works to facial discrete attributes may cause inaccurate results. In this work, we propose an innovative framework to tackle challenging facial discrete attribute synthesis via semantic decomposing, dubbed SD-GAN. To be concrete, we explicitly decompose the discrete attribute representation into two components, i.e. the semantic prior basis and offset latent representation. The semantic prior basis shows an initializing direction for manipulating face representation in the latent space. The offset latent presentation obtained by 3D-aware semantic fusion network is proposed to adjust prior basis. In addition, the fusion network integrates 3D embedding for better identity preservation and discrete attribute synthesis. The combination of prior basis and offset latent representation enable our method to synthesize photo-realistic face images with discrete attributes. Notably, we construct a large and valuable dataset MEGN (Face Mask and Eyeglasses images crawled from Google and Naver) for completing the lack of discrete attributes in the existing dataset. Extensive qualitative and quantitative experiments demonstrate the state-of-the-art performance of our method. Our code is available at: https://github.com/MontaEllis/SD-GAN.
翻訳日:2022-07-13 13:50:51 公開日:2022-07-12
# (参考訳) DGPO:多様性誘導政策最適化による複数戦略の発見

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization ( http://arxiv.org/abs/2207.05631v1 )

ライセンス: CC BY 4.0
Wenze Chen, Shiyu Huang, Yuan Chiang, Ting Chen, Jun Zhu(参考訳) 最近の強化学習タスク用に設計されたアルゴリズムは、単一の最適解を見つけることに焦点を当てている。 しかし、多くの実践的応用において、多様な戦略を持つ合理的なエージェントを開発することが重要である。 本稿では、同一タスクに対する複数の戦略を発見するためのオンラインフレームワークである多様性誘導政策最適化(DGPO)を提案する。 本アルゴリズムは、多様性目標を用いて潜在コード条件付きポリシーを導出し、1つのトレーニング手順で一連の多様な戦略を学ぶ。 具体的には,多様性制約付き最適化問題と外部制約付き最適化問題の組み合わせとして,アルゴリズムを定式化する。 そして、制約付き最適化を確率的推論タスクとして解決し、ポリシー反復を用いて導出した下界を最大化する。 実験の結果,多種多様な強化学習タスクにおいて,効率的に多様な戦略を見出すことができた。 さらに,dgpoは多様性スコアが高く,サンプルの複雑さや性能も他のベースラインと同等であることを示した。

Recent algorithms designed for reinforcement learning tasks focus on finding a single optimal solution. However, in many practical applications, it is important to develop reasonable agents with diverse strategies. In this paper, we propose Diversity-Guided Policy Optimization (DGPO), an on-policy framework for discovering multiple strategies for the same task. Our algorithm uses diversity objectives to guide a latent code conditioned policy to learn a set of diverse strategies in a single training procedure. Specifically, we formalize our algorithm as the combination of a diversity-constrained optimization problem and an extrinsic-reward constrained optimization problem. And we solve the constrained optimization as a probabilistic inference task and use policy iteration to maximize the derived lower bound. Experimental results show that our method efficiently finds diverse strategies in a wide variety of reinforcement learning tasks. We further show that DGPO achieves a higher diversity score and has similar sample complexity and performance compared to other baselines.
翻訳日:2022-07-13 13:49:59 公開日:2022-07-12
# LudVision -- ドローン搭載マルチスペクトルデータによる外来水生植物のリモート検出

LudVision -- Remote Detection of Exotic Invasive Aquatic Floral Species using Drone-Mounted Multispectral Data ( http://arxiv.org/abs/2207.05620v1 )

ライセンス: Link先を確認
Ant\'onio J. Abreu, Lu\'is A. Alexandre, Jo\~ao A. Santos, Filippo Basso(参考訳) リモートセンシング(英: Remote Sensor)は、反射放射と放射放射放射を距離で測定することで、領域の物理的特性を検知し、監視するプロセスである。 主に生態系の保全のために広く使用されている。 侵略的な種の報告は生態系の自然のバランスに影響を与えている。 エキゾチックな外来種は、新しい生態系に導入されると重大な影響を及ぼし、原生生物の絶滅につながる可能性がある。 本研究では,欧州連合が水生侵入種とみなすLudwigia peploidesに着目した。 その存在は周囲の生態系や農業、漁業、航海といった人間の活動に悪影響を及ぼす可能性がある。 我々の目標は、種の存在を特定する方法を開発することであった。 ドローンに搭載されたマルチスペクトルセンサーが収集した画像を使ってこれを実現し、LudVisionデータセットを作成しました。 収集した画像から対象種を特定するため,ludwigia pの新しい検出法を提案する。 マルチスペクトル画像です この方法は、マルチスペクトルデータを扱うために修正された既存の最先端セマンティックセグメンテーションメソッドに基づいている。 提案手法は,生産者の精度0.799,ユーザの精度0.955を実現した。

Remote sensing is the process of detecting and monitoring the physical characteristics of an area by measuring its reflected and emitted radiation at a distance. It is being broadly used to monitor ecosystems, mainly for their preservation. Ever-growing reports of invasive species have affected the natural balance of ecosystems. Exotic invasive species have a critical impact when introduced into new ecosystems and may lead to the extinction of native species. In this study, we focus on Ludwigia peploides, considered by the European Union as an aquatic invasive species. Its presence can negatively impact the surrounding ecosystem and human activities such as agriculture, fishing, and navigation. Our goal was to develop a method to identify the presence of the species. We used images collected by a drone-mounted multispectral sensor to achieve this, creating our LudVision data set. To identify the targeted species on the collected images, we propose a new method for detecting Ludwigia p. in multispectral images. The method is based on existing state-of-the-art semantic segmentation methods modified to handle multispectral data. The proposed method achieved a producer's accuracy of 0.799 and a user's accuracy of 0.955.
翻訳日:2022-07-13 13:29:16 公開日:2022-07-12
# 群衆数に対するバックドア攻撃

Backdoor Attacks on Crowd Counting ( http://arxiv.org/abs/2207.05641v1 )

ライセンス: Link先を確認
Yuhua Sun, Tailai Zhang, Xingjun Ma, Pan Zhou, Jian Lou, Zichuan Xu, Xing Di, Yu Cheng, and Lichao(参考訳) クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクであり、ビデオ監視、トラフィック監視、フロー制御など、さまざまな安全クリティカルなアプリケーションにおいて重要な役割を果たす。 本稿では,深層学習に対する主要なセキュリティ脅威であるバックドアアタックに対する,深層学習に基づく群集カウントモデルの脆弱性について検討する。 バックドア攻撃は、テスト時にモデルの予測を制御するために、データ中毒により、バックドアトリガーをターゲットモデルに埋め込む。 既存のバックドア攻撃の大半が開発・テストされている画像分類モデルとは異なり、群衆カウントモデルは多次元密度マップを出力する回帰モデルであり、操作するために異なるテクニックを必要とする。 本稿では,このモデルを攻撃するための2つの新しい密度操作バックドア攻撃(dmba$^{-}$とdmba$^{+}$)を提案する。 実験の結果,5つの古典的群集カウントモデルと4種類のデータセットに対するDMBA攻撃の有効性が示された。 また,クラウドソーシングモデルのバックドア化というユニークな課題を詳細に分析し,効果的な攻撃の2つの重要な要素を明らかにする。 1)フルかつ高密度なトリガー 2) 基底の真理数や密度マップの操作。 私たちの研究は、バックドア攻撃に対するクラウドカウントモデルの脆弱性を評価するのに役立ちます。

Crowd counting is a regression task that estimates the number of people in a scene image, which plays a vital role in a range of safety-critical applications, such as video surveillance, traffic monitoring and flow control. In this paper, we investigate the vulnerability of deep learning based crowd counting models to backdoor attacks, a major security threat to deep learning. A backdoor attack implants a backdoor trigger into a target model via data poisoning so as to control the model's predictions at test time. Different from image classification models on which most of existing backdoor attacks have been developed and tested, crowd counting models are regression models that output multi-dimensional density maps, thus requiring different techniques to manipulate. In this paper, we propose two novel Density Manipulation Backdoor Attacks (DMBA$^{-}$ and DMBA$^{+}$) to attack the model to produce arbitrarily large or small density estimations. Experimental results demonstrate the effectiveness of our DMBA attacks on five classic crowd counting models and four types of datasets. We also provide an in-depth analysis of the unique challenges of backdooring crowd counting models and reveal two key elements of effective attacks: 1) full and dense triggers and 2) manipulation of the ground truth counts or density maps. Our work could help evaluate the vulnerability of crowd counting models to potential backdoor attacks.
翻訳日:2022-07-13 13:29:00 公開日:2022-07-12
# オフライン平衡探索

Offline Equilibrium Finding ( http://arxiv.org/abs/2207.05285v1 )

ライセンス: Link先を確認
Shuxin Li, Xinrun Wang, Jakub Cerny, Youzhi Zhang, Hau Chan, Bo An(参考訳) オフライン強化学習(オフライン強化学習、オフライン rl)は、最近さまざまなアプリケーションドメインで注目を集め始めている新興分野である。 ログデータの使用は、環境とのさらなるインタラクションが高価である場合(計算上またはその他の場合)、安全でない場合、あるいは完全に実現不可能である。 オフラインrlは非常に成功し、従来の難解な実世界の問題を解決する道筋を拓き、このパラダイムをマルチエージェントまたはマルチプレイヤーゲームに一般化することを目指している。 この領域では、標準化されたデータセットと意味のあるベンチマークが欠如しているため、研究はほとんど行われていない。 本研究では,この領域を記述するためにオフライン平衡探索(OEF)という用語を作成し,複数の確立された手法を用いて,幅広いゲームで収集された戦略からなる複数のデータセットを構築する。 また,行動閉ざしアルゴリズムとモデルベースアルゴリズムのアマルガメーションというベンチマーク手法を提案する。 OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習におけるDeep CFRとPSROの適応である。 実験では、構築したデータセットにおけるベンチマークアルゴリズムの性能を評価する。 我々の努力が大規模均衡発見の研究を加速させることを願っている。 データセットとコードはhttps://github.com/securitygames/oefで入手できる。

Offline reinforcement learning (Offline RL) is an emerging field that has recently begun gaining attention across various application domains due to its ability to learn behavior from earlier collected datasets. Using logged data is imperative when further interaction with the environment is expensive (computationally or otherwise), unsafe, or entirely unfeasible. Offline RL proved very successful, paving a path to solving previously intractable real-world problems, and we aim to generalize this paradigm to a multi-agent or multiplayer-game setting. Very little research has been done in this area, as the progress is hindered by the lack of standardized datasets and meaningful benchmarks. In this work, we coin the term offline equilibrium finding (OEF) to describe this area and construct multiple datasets consisting of strategies collected across a wide range of games using several established methods. We also propose a benchmark method -- an amalgamation of a behavior-cloning and a model-based algorithm. Our two model-based algorithms -- OEF-PSRO and OEF-CFR -- are adaptations of the widely-used equilibrium finding algorithms Deep CFR and PSRO in the context of offline learning. In the empirical part, we evaluate the performance of the benchmark algorithms on the constructed datasets. We hope that our efforts may help to accelerate research in large-scale equilibrium finding. Datasets and code are available at https://github.com/SecurityGames/oef.
翻訳日:2022-07-13 13:25:58 公開日:2022-07-12
# 時系列をパッチに分割する - Dateformerによる時系列予測の再考

Split Time Series into Patches: Rethinking Long-term Series Forecasting with Dateformer ( http://arxiv.org/abs/2207.05397v1 )

ライセンス: Link先を確認
Julong Young, Huiqiang Wang, Junhui Chen, Feihu Huang, Jian Peng(参考訳) timeは時系列の最も重要な特徴の1つだが、あまり注目されていない。 過去の時系列予測研究は、主に過去のサブシリーズ(振り返りウィンドウ)を将来のシリーズ(予報ウィンドウ)にマッピングすることに重点を置いており、ほとんどの場合、シリーズの時間が補助的な役割を果たす。 これらのウィンドウ内でのポイントワイドな処理のため、パターンの長期化は困難である。 この障壁を克服するため,Dateformerという新たな時系列予測フレームワークを提案する。 具体的には、時系列は、Date Encoder Representations from Transformers (DERT)で動的日付表現の学習を監督するために、まず1日ごとにパッチに分割される。 これらの表現は単純なデコーダに入力され、粗い(またはグローバルな)予測を生成し、モデルがルックバックウィンドウから貴重な情報を探し出して洗練された(または局所的な)予測を学ぶのを助ける。 dateformerは、上記の2つの部分をまとめることで最終結果を得る。 7つのベンチマークを用いた実験により, 時系列モデリング法と比較して, 時系列予測に時間モデリング法の方が効率的であることが示された。 dateformerは、最先端の精度と40%の相対的改善を実現し、最大信頼性の予測範囲を半年レベルのレベルに拡大する。

Time is one of the most significant characteristics of time-series, yet has received insufficient attention. Prior time-series forecasting research has mainly focused on mapping a past subseries (lookback window) to a future series (forecast window), and time of series often just play an auxiliary role even completely ignored in most cases. Due to the point-wise processing within these windows, extrapolating series to longer-term future is tough in the pattern. To overcome this barrier, we propose a brand-new time-series forecasting framework named Dateformer who turns attention to modeling time instead of following the above practice. Specifically, time-series are first split into patches by day to supervise the learning of dynamic date-representations with Date Encoder Representations from Transformers (DERT). These representations are then fed into a simple decoder to produce a coarser (or global) prediction, and used to help the model seek valuable information from the lookback window to learn a refined (or local) prediction. Dateformer obtains the final result by summing the above two parts. Our empirical studies on seven benchmarks show that the time-modeling method is more efficient for long-term series forecasting compared with sequence modeling methods. Dateformer yields state-of-the-art accuracy with a 40% remarkable relative improvement, and broadens the maximum credible forecasting range to a half-yearly level.
翻訳日:2022-07-13 13:25:38 公開日:2022-07-12
# 予測保守のためのベンチマークデータセット

A Benchmark dataset for predictive maintenance ( http://arxiv.org/abs/2207.05466v1 )

ライセンス: Link先を確認
Bruno Veloso, Jo\~ao Gama, Rita P. Ribeiro, Pedro M. Pereira(参考訳) 本稿は,ポルトガル・ポルト市における都市都市公共交通サービスによる予測保守プロジェクトの成果である鉄道データセットについて述べる。 データは2020年から2022年にかけて収集され、オンライン異常検出と障害予測のための機械学習手法の開発を目的としていた。 いくつかのアナログセンサ信号(圧力、温度、電流消費)、デジタル信号(制御信号、離散信号)、GPS情報(緯度、経度、速度)をキャプチャすることで、新しい機械学習手法で容易に使用・開発できるフレームワークを提供する。 このデータセットには興味深い特徴がいくつか含まれており、予測メンテナンスモデルの優れたベンチマークになると考えています。

The paper describes the Railway data set, an outcome of a Predictive Maintenance project with an urban metro public transportation service in Porto, Portugal. The data was collected between 2020 and 2022 that aimed to develop machine learning methods for online anomaly detection and failure prediction. By capturing several analogic sensor signals (pressure, temperature, current consumption), digital signals (control signals, discrete signals), and GPS information (latitude, longitude, and speed), we provide a framework that can be easily used and developed for the new machine learning methods. We believe this dataset contains some interesting characteristics and can be a good benchmark for predictive maintenance models.
翻訳日:2022-07-13 13:25:11 公開日:2022-07-12
# 生涯強化学習における非定常コードへの反応探索

Reactive Exploration to Cope with Non-Stationarity in Lifelong Reinforcement Learning ( http://arxiv.org/abs/2207.05742v1 )

ライセンス: Link先を確認
Christian Steinparz, Thomas Schmied, Fabian Paischer, Marius-Constantin Dinu, Vihang Patil, Angela Bitto-Nemling, Hamid Eghbal-zadeh, Sepp Hochreiter(参考訳) 生涯学習において、エージェントは人間のように常に変化する環境の中で、リセットなしで生涯学習する。 その結果、生涯学習には連続的なドメインシフトのような多くの研究課題が伴い、非定常的な報酬や環境ダイナミクスが生じる。 これらの非定常性は、その連続的な性質のために検出および対処が困難である。 したがって、安定したドメインシフトを追跡し、それに適応できる探索戦略と学習方法が必要となる。 我々は,生涯強化学習における連続的領域シフトを追跡し,対応し,それに対応する方針を更新するためのリアクティブ探索を提案する。 この目的のために,異なる探査戦略を検討するために実験を行った。 我々は,q-learningよりも分布シフトに迅速に適応するため,政策グレードファミリーの代表者が生涯学習に適していることを実証的に示す。 これにより、ポリシーグラディエントな手法はリアクティブ探索から最も利益を上げ、継続的なドメインシフトによる生涯学習のよい結果を示す。 私たちのコードは、https://github.com/ml-jku/reactive-explorationで利用可能です。

In lifelong learning, an agent learns throughout its entire life without resets, in a constantly changing environment, as we humans do. Consequently, lifelong learning comes with a plethora of research problems such as continual domain shifts, which result in non-stationary rewards and environment dynamics. These non-stationarities are difficult to detect and cope with due to their continuous nature. Therefore, exploration strategies and learning methods are required that are capable of tracking the steady domain shifts, and adapting to them. We propose Reactive Exploration to track and react to continual domain shifts in lifelong reinforcement learning, and to update the policy correspondingly. To this end, we conduct experiments in order to investigate different exploration strategies. We empirically show that representatives of the policy-gradient family are better suited for lifelong learning, as they adapt more quickly to distribution shifts than Q-learning. Thereby, policy-gradient methods profit the most from Reactive Exploration and show good results in lifelong learning with continual domain shifts. Our code is available at: https://github.com/ml-jku/reactive-exploration.
翻訳日:2022-07-13 13:25:00 公開日:2022-07-12
# 分布時系列モデリングのためのwaserstein multivariate auto-regressive modelとそのグラフ学習への応用

Wasserstein multivariate auto-regressive models for modeling distributional time series and its application in graph learning ( http://arxiv.org/abs/2207.05442v1 )

ライセンス: Link先を確認
Yiye Jiang(参考訳) 多変量分布時系列の統計解析のための新しい自己回帰モデルを提案する。 興味のあるデータは、実数直線の有界区間で支持される複数の確率測度の集まりであり、それらは別々の時間インスタントによってインデックス化される。 確率測度は、ワッサーシュタイン空間のランダムな対象としてモデル化される。 ルベーグ測度において接空間における自己回帰モデルを確立し、まずすべての原測度を中心とし、それらのfr\'echet がルベーグ測度となるようにする。 反復ランダム関数系の理論を用いて、そのようなモデルの解の存在、一意性および定常性に関する結果を提供する。 また,モデル係数の一貫した推定器を提案する。 シミュレーションデータの解析に加えて,異なる国の年齢分布から得られた2つの実データと,パリの自転車シェアリングネットワークを用いて,提案モデルを示す。 最後に、モデル係数に課す正および有界性制約により、これらの制約の下で学習される提案する推定器は、自然にスパース構造を持つ。 この空間性は,多変量分布時系列から時間依存性のグラフを学習する際のモデルの適用をさらに促進させる。

We propose a new auto-regressive model for the statistical analysis of multivariate distributional time series. The data of interest consist of a collection of multiple series of probability measures supported over a bounded interval of the real line, and that are indexed by distinct time instants. The probability measures are modelled as random objects in the Wasserstein space. We establish the auto-regressive model in the tangent space at the Lebesgue measure by first centering all the raw measures so that their Fr\'echet means turn to be the Lebesgue measure. Using the theory of iterated random function systems, results on the existence, uniqueness and stationarity of the solution of such a model are provided. We also propose a consistent estimator for the model coefficient. In addition to the analysis of simulated data, the proposed model is illustrated with two real data sets made of observations from age distribution in different countries and bike sharing network in Paris. Finally, due to the positive and boundedness constraints that we impose on the model coefficients, the proposed estimator that is learned under these constraints, naturally has a sparse structure. The sparsity allows furthermore the application of the proposed model in learning a graph of temporal dependency from the multivariate distributional time series.
翻訳日:2022-07-13 13:24:45 公開日:2022-07-12
# 不均衡データセットにおけるラベルノイズに対する不確実性認識学習

Uncertainty-Aware Learning Against Label Noise on Imbalanced Datasets ( http://arxiv.org/abs/2207.05471v1 )

ライセンス: Link先を確認
Yingsong Huang, Bing Bai, Shengwei Zhao, Kun Bai, Fei Wang(参考訳) ディープニューラルネットワークの信頼性を保証するためには,ラベルノイズに対する学習が不可欠だ。 最近の研究は通常、モデル出力確率と損失値を持つ動的ノイズモデリングを参照し、クリーンでノイズの多いサンプルを分離する。 これらの手法は目覚ましい成功を収めた。 しかし、チェリーピッキングされたデータとは異なり、既存のアプローチは、現実世界で一般的なシナリオである不均衡データセットに直面した場合、うまく機能しないことが多い。 我々は、この現象を徹底的に調査し、性能を阻害する2つの主要な問題、すなわち不確実性に起因する「クラス間損失分布の不一致」と「ミスリーディング予測」を指摘した。 最初の問題は、既存のメソッドがしばしばクラスに依存しないノイズモデリングを実行することである。 しかし、損失分布はクラス不均衡のクラス間で大きな相違を示し、クラス非依存ノイズモデリングは少数クラスのノイズのあるサンプルやサンプルと容易に混同される。 第2の問題は、モデルが認識的不確かさとアレエータ的不確実性による誤解を招く予測を出力する可能性があるため、既存の方法は出力確率のみに依存するため、自信のあるサンプルを区別できない可能性があることである。 そこで本研究では,不均衡データセット上でラベルノイズを処理するための不確実性認識ラベル補正フレームワーク~(ulc)を提案する。 まず, 信頼性の高いクリーンサンプルを同定し, 信頼性の高い真・破損ラベルを精査・破棄する。 次に,学習過程におけるアレータリックな不確実性を導入し,ラベルノイズモデリングプロセスにおける雑音の蓄積を防止する。 いくつかの合成および実世界のデータセットで実験を行う。 その結果,特に不均衡データセットにおいて提案手法の有効性が示された。

Learning against label noise is a vital topic to guarantee a reliable performance for deep neural networks. Recent research usually refers to dynamic noise modeling with model output probabilities and loss values, and then separates clean and noisy samples. These methods have gained notable success. However, unlike cherry-picked data, existing approaches often cannot perform well when facing imbalanced datasets, a common scenario in the real world. We thoroughly investigate this phenomenon and point out two major issues that hinder the performance, i.e., \emph{inter-class loss distribution discrepancy} and \emph{misleading predictions due to uncertainty}. The first issue is that existing methods often perform class-agnostic noise modeling. However, loss distributions show a significant discrepancy among classes under class imbalance, and class-agnostic noise modeling can easily get confused with noisy samples and samples in minority classes. The second issue refers to that models may output misleading predictions due to epistemic uncertainty and aleatoric uncertainty, thus existing methods that rely solely on the output probabilities may fail to distinguish confident samples. Inspired by our observations, we propose an Uncertainty-aware Label Correction framework~(ULC) to handle label noise on imbalanced datasets. First, we perform epistemic uncertainty-aware class-specific noise modeling to identify trustworthy clean samples and refine/discard highly confident true/corrupted labels. Then, we introduce aleatoric uncertainty in the subsequent learning process to prevent noise accumulation in the label noise modeling process. We conduct experiments on several synthetic and real-world datasets. The results demonstrate the effectiveness of the proposed method, especially on imbalanced datasets.
翻訳日:2022-07-13 13:24:23 公開日:2022-07-12
# AGBoost: 注意に基づくグラディエントブースティングマシンの改良

AGBoost: Attention-based Modification of Gradient Boosting Machine ( http://arxiv.org/abs/2207.05724v1 )

ライセンス: Link先を確認
Andrei Konstantinov and Lev Utkin and Stanislav Kirpichenko(参考訳) agboost (the attention-based gradient boosting) と呼ばれるグラデーションブースティングマシン (gbm) のための新しいアテンションベースモデルが回帰問題を解決するために提案されている。 提案した AGBoost モデルの背後にある主な考え方は,GBM における決定木が基本学習者であることを条件に,トレーニング可能なパラメータによる注意重み付けを GBM の反復に割り当てることである。 注意重みは、決定木の特性を応用し、注意の訓練可能なパラメータと注意重みの間の興味深い線形依存性を提供するフーバー汚染モデルを用いて決定される。 この特異性により、線形制約付き標準二次最適化問題を解くことで注意重みを訓練することができる。 注意重み付けは、調整パラメータとしてディスカウント係数にも依存し、イテレーション数に応じて、重みの影響がどの程度減少するかを決定する。 2種類の基本学習者、原決定木、および様々な回帰データセットを持つ極端ランダム化木に対して行われた数値実験は、提案モデルを示す。

A new attention-based model for the gradient boosting machine (GBM) called AGBoost (the attention-based gradient boosting) is proposed for solving regression problems. The main idea behind the proposed AGBoost model is to assign attention weights with trainable parameters to iterations of GBM under condition that decision trees are base learners in GBM. Attention weights are determined by applying properties of decision trees and by using the Huber's contamination model which provides an interesting linear dependence between trainable parameters of the attention and the attention weights. This peculiarity allows us to train the attention weights by solving the standard quadratic optimization problem with linear constraints. The attention weights also depend on the discount factor as a tuning parameter, which determines how much the impact of the weight is decreased with the number of iterations. Numerical experiments performed for two types of base learners, original decision trees and extremely randomized trees with various regression datasets illustrate the proposed model.
翻訳日:2022-07-13 13:23:53 公開日:2022-07-12
# より良い分散検出のための再帰的異常値と外れ値の仕様

Revisiting Inlier and Outlier Specification for Improved Out-of-Distribution Detection ( http://arxiv.org/abs/2207.05286v1 )

ライセンス: Link先を確認
Vivek Narayanaswamy, Yamen Mubarka, Rushil Anirudh, Deepta Rajan, Andreas Spanias and Jayaraman J. Thiagarajan(参考訳) in-distribution(id)データに対する意味的および共変的シフトのレベルが異なるood(out-of-distribution)データを正確に検出することは、安全で信頼性の高いモデルのデプロイに不可欠である。 これは、高度に連続したアプリケーション(例えば、医療画像、自動運転車など)を扱う場合に特に当てはまる。 目標は、IDデータの有意義なバリエーションを受け入れることができる検出器を設計し、OODレギュレーションの例を拒否することである。 実際には、この二重目的は、適切なスコアリング関数(例えば、エネルギー)を使用して整合性を強制し、検出器を校正してOODデータの硬化したセットを拒絶することで実現することができる。 OE法は広く採用されているが、現実シナリオの予測不能のため、代表OODデータセットの組み立ては費用がかかり難い。 本稿では,id変動に対する一般化制御と,多種多様な(合成的)異常例への露出が,意味的・モダリティ的シフト検出の同時改善に不可欠であることを示す。 既存手法とは対照的に,本手法は潜在空間のイリアーをサンプリングし,負のデータ拡張によって外れたサンプルを構成する。 医用画像ベンチマーク(MedMNIST, ISIC2019, NCT)の厳密な実証研究を通じて, 既存のOEフリーなOOD検出手法に対して, セマンティックシフトとモダリティシフトの両方で, 大幅な性能向上(AUROCでは15.5%~35.%)を示した。

Accurately detecting out-of-distribution (OOD) data with varying levels of semantic and covariate shifts with respect to the in-distribution (ID) data is critical for deployment of safe and reliable models. This is particularly the case when dealing with highly consequential applications (e.g. medical imaging, self-driving cars, etc). The goal is to design a detector that can accept meaningful variations of the ID data, while also rejecting examples from OOD regimes. In practice, this dual objective can be realized by enforcing consistency using an appropriate scoring function (e.g., energy) and calibrating the detector to reject a curated set of OOD data (referred to as outlier exposure or shortly OE). While OE methods are widely adopted, assembling representative OOD datasets is both costly and challenging due to the unpredictability of real-world scenarios, hence the recent trend of designing OE-free detectors. In this paper, we make a surprising finding that controlled generalization to ID variations and exposure to diverse (synthetic) outlier examples are essential to simultaneously improving semantic and modality shift detection. In contrast to existing methods, our approach samples inliers in the latent space, and constructs outlier examples via negative data augmentation. Through a rigorous empirical study on medical imaging benchmarks (MedMNIST, ISIC2019 and NCT), we demonstrate significant performance gains ($15\% - 35\%$ in AUROC) over existing OE-free, OOD detection approaches under both semantic and modality shifts.
翻訳日:2022-07-13 13:22:42 公開日:2022-07-12
# 自己教師付き・量子化学習

Synergistic Self-supervised and Quantization Learning ( http://arxiv.org/abs/2207.05432v1 )

ライセンス: Link先を確認
Yun-Hao Cao, Peiqin Sun, Yechang Huang, Jianxin Wu, Shuchang Zhou(参考訳) 自己教師型学習(SSL)の成功により、下流タスクのパフォーマンスを高めるために、自己教師型事前訓練モデルから微調整を行うための主流パラダイムとなった。 しかし、現在のSSLモデルは、低ビット量子化の実行時に深刻な精度低下を被り、リソース制約のあるアプリケーションへの展開を禁止している。 本稿では,下流への展開を容易にする量子化フレンドリーな自己教師付きモデルを事前学習するための,相乗的自己教師付き量子化学習(ssql)と呼ばれる手法を提案する。 ssqlは、量子化モデルのビット幅が各ステップでランダムに選択される自己教師あり方式で、量子化および完全精度モデルの特徴と対比する。 SSQLは、ビット幅を小さくする量子化の精度を著しく向上するだけでなく、ほとんどの場合、完全精度モデルの精度も向上する。 一度だけトレーニングすることで、SSQLは異なるビット幅でさまざまなダウンストリームタスクを同時に利用できる。 さらに、ビット幅の柔軟性は、追加のストレージオーバーヘッドなしに達成され、トレーニングと推論中に1コピーの重みしか必要としない。 ssqlの最適化プロセスを理論的に解析し,様々なベンチマークで徹底的な実験を行い,本手法の有効性をさらに実証する。 私たちのコードはhttps://github.com/megvii-research/SSQL-ECCV2022で公開されています。

With the success of self-supervised learning (SSL), it has become a mainstream paradigm to fine-tune from self-supervised pretrained models to boost the performance on downstream tasks. However, we find that current SSL models suffer severe accuracy drops when performing low-bit quantization, prohibiting their deployment in resource-constrained applications. In this paper, we propose a method called synergistic self-supervised and quantization learning (SSQL) to pretrain quantization-friendly self-supervised models facilitating downstream deployment. SSQL contrasts the features of the quantized and full precision models in a self-supervised fashion, where the bit-width for the quantized model is randomly selected in each step. SSQL not only significantly improves the accuracy when quantized to lower bit-widths, but also boosts the accuracy of full precision models in most cases. By only training once, SSQL can then benefit various downstream tasks at different bit-widths simultaneously. Moreover, the bit-width flexibility is achieved without additional storage overhead, requiring only one copy of weights during training and inference. We theoretically analyze the optimization process of SSQL, and conduct exhaustive experiments on various benchmarks to further demonstrate the effectiveness of our method. Our code is available at https://github.com/megvii-research/SSQL-ECCV2022.
翻訳日:2022-07-13 13:21:51 公開日:2022-07-12
# ニューラルネットワーク訓練における余剰資源の利用

Utilizing Excess Resources in Training Neural Networks ( http://arxiv.org/abs/2207.05532v1 )

ライセンス: Link先を確認
Amit Henig and Raja Giryes(参考訳) 本研究では,kflo(kernel filter linear overparameterization)を提案する。 このカスケードをカーネルフィルタリング方式で実装することで、トレーニング済みアーキテクチャが不要に深くなるのを防ぐことができる。 これにより、ほぼすべてのネットワークアーキテクチャでアプローチを使用でき、テスト時間内にフィルタリングレイヤを単一のレイヤに組み合わせることができます。 したがって,本手法は推論中に計算複雑性を増すものではない。 教師あり学習における様々なネットワークモデルとデータセットにおけるKFLOの利点を実証する。

In this work, we suggest Kernel Filtering Linear Overparameterization (KFLO), where a linear cascade of filtering layers is used during training to improve network performance in test time. We implement this cascade in a kernel filtering fashion, which prevents the trained architecture from becoming unnecessarily deeper. This also allows using our approach with almost any network architecture and let combining the filtering layers into a single layer in test time. Thus, our approach does not add computational complexity during inference. We demonstrate the advantage of KFLO on various network models and datasets in supervised learning.
翻訳日:2022-07-13 13:21:29 公開日:2022-07-12
# RE-Tagger:軽量リアルタイム画像分類器

RE-Tagger: A light-weight Real-Estate Image Classifier ( http://arxiv.org/abs/2207.05696v1 )

ライセンス: Link先を確認
Prateek Chhikara, Anil Goyal, Chirag Sharma(参考訳) リアルタイム画像タグ付けは、手動アノテーションに関わる労力を省き、ユーザエクスペリエンスを向上させるために不可欠なユースケースの1つです。 本稿では,リアルタイム画像分類問題に対するエンドツーエンドパイプライン(RE-Tagger)を提案する。 本稿では,カスタムインセプションv3アーキテクチャを用いた2段階のトランスファー学習アプローチを提案し,画像を異なるカテゴリ(寝室,浴室,キッチン,バルコニー,ホールなど)に分類する。 最後に、2GBのRAMを持つ2コアマシン上で動作するWebアプリケーションとしてホストされたREST APIとしてアプリケーションをリリースしました。 デモビデオはここにある。

Real-estate image tagging is one of the essential use-cases to save efforts involved in manual annotation and enhance the user experience. This paper proposes an end-to-end pipeline (referred to as RE-Tagger) for the real-estate image classification problem. We present a two-stage transfer learning approach using custom InceptionV3 architecture to classify images into different categories (i.e., bedroom, bathroom, kitchen, balcony, hall, and others). Finally, we released the application as REST API hosted as a web application running on 2 cores machine with 2 GB RAM. The demo video is available here.
翻訳日:2022-07-13 13:21:21 公開日:2022-07-12
# (参考訳) ベイズ因果発見のための潜在変数モデル

Latent Variable Models for Bayesian Causal Discovery ( http://arxiv.org/abs/2207.05723v1 )

ライセンス: CC BY 4.0
Jithendaraa Subramanian, Yashas Annadani, Ivaxi Sheth, Stefan Bauer, Derek Nowrouzezahrai, Samira Ebrahimi Kahou(参考訳) 散発的な相関に依存しない予測因子の学習は因果表現の構築を伴う。 しかし、そのような表現を学ぶことは非常に難しい。 そこで,高次元データから因果表現を学習する問題を定式化し,合成データを用いて因果回復の研究を行う。 この研究はベイジアン因果発見のための潜伏変数デコーダモデルDecoder BCDを導入し、軽度に教師なしおよび教師なしの設定で実験を行う。 因果発見の重要な要因を特徴づける一連の合成実験を行い、既知の介入対象をラベルとして使用することで、線形ガウス付加雑音潜在構造因果モデルの構造とパラメータに関する教師なしベイズ推論が有効であることを示した。

Learning predictors that do not rely on spurious correlations involves building causal representations. However, learning such a representation is very challenging. We, therefore, formulate the problem of learning a causal representation from high dimensional data and study causal recovery with synthetic data. This work introduces a latent variable decoder model, Decoder BCD, for Bayesian causal discovery and performs experiments in mildly supervised and unsupervised settings. We present a series of synthetic experiments to characterize important factors for causal discovery and show that using known intervention targets as labels helps in unsupervised Bayesian inference over structure and parameters of linear Gaussian additive noise latent structural causal models.
翻訳日:2022-07-13 13:19:16 公開日:2022-07-12
# 内的モノローグ:言語モデルによる計画による推論の具体化

Inner Monologue: Embodied Reasoning through Planning with Language Models ( http://arxiv.org/abs/2207.05608v1 )

ライセンス: Link先を確認
Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, Pierre Sermanet, Noah Brown, Tomas Jackson, Linda Luu, Sergey Levine, Karol Hausman, Brian Ichter(参考訳) 近年,大規模言語モデル(LLM)の推論能力は,ロボットの計画やインタラクションなど,自然言語処理以外の領域にも適用可能であることが示されている。 これらの具体化された問題は、エージェントが世界の多くのセマンティックな側面を理解する必要がある: 利用可能なスキルのレパートリー、これらのスキルが世界に与える影響、そして、世界への変化が言語にどうマッピングするか。 具体化された環境でのLLMの計画には、どのようなスキルを行うかだけでなく、エージェント自身の選択に応じて時間とともに変化する答えを、いつどのように行うかを考える必要がある。 本研究では,このような具体的文脈におけるLLMが,追加の訓練を伴わずに,自然言語によるフィードバックの源泉を如何に推論できるかを考察する。 我々は,環境フィードバックを活用することで,ロボット制御シナリオにおいてよりリッチな処理と計画を可能にする内部モノローグを構築できることを提案する。 本研究では,成功検出やシーン記述,ヒューマンインタラクションなど,さまざまなフィードバック源について検討する。 クローズドループ言語フィードバックは,実世界のキッチン環境でのシミュレーションおよび実テーブルトップ再配置タスクや長時間ホリゾン移動操作タスクなど,3つのドメインのハイレベルな命令補完を大幅に改善する。

Recent works have shown how the reasoning capabilities of Large Language Models (LLMs) can be applied to domains beyond natural language processing, such as planning and interaction for robots. These embodied problems require an agent to understand many semantic aspects of the world: the repertoire of skills available, how these skills influence the world, and how changes to the world map back to the language. LLMs planning in embodied environments need to consider not just what skills to do, but also how and when to do them - answers that change over time in response to the agent's own choices. In this work, we investigate to what extent LLMs used in such embodied contexts can reason over sources of feedback provided through natural language, without any additional training. We propose that by leveraging environment feedback, LLMs are able to form an inner monologue that allows them to more richly process and plan in robotic control scenarios. We investigate a variety of sources of feedback, such as success detection, scene description, and human interaction. We find that closed-loop language feedback significantly improves high-level instruction completion on three domains, including simulated and real table top rearrangement tasks and long-horizon mobile manipulation tasks in a kitchen environment in the real world.
翻訳日:2022-07-13 13:06:03 公開日:2022-07-12
# データ拡張技術を用いた韓国手話強調コーパスの構築

Building Korean Sign Language Augmentation (KoSLA) Corpus with Data Augmentation Technique ( http://arxiv.org/abs/2207.05261v1 )

ライセンス: Link先を確認
Changnam An, Eunkyung Han, Dongmyeong Noh, Ohkyoon Kwon, Sumi Lee, Hyunshim Han(参考訳) 手話翻訳のためのコーパスの効率的な枠組みを提案する。 本手法は,単純だが劇的なデータ拡張手法を用いて,テキストを最小情報損失のアノテート形式に変換する。 手話は手動信号、非手動信号、象徴的特徴で構成されている。 プロの手話通訳によれば、表情やジェスチャーのような非手動信号は、正確な意味を伝える上で重要な役割を果たす。 手話の言語的特徴を考慮することにより,本提案手法は,手話と非人文的モダリティの両方を含むマルチモーダル手話拡張コーパス(以下,コスラコーパスと呼ぶ)を構築するための,最初の,かつユニークな試みである。 私たちが構築したコーパスは、病院のコンテキストにおいて確実な結果を示し、拡張データセットによるパフォーマンスの向上を示します。 データ不足を克服するため、手話の文法的・意味的構造を維持しつつ、同義語置換などのデータ拡張手法を用いて翻訳モデルと利用可能なデータの効率を向上した。 実験的な支援のために,通常の文と2つのトークン化子に手話アノテーションを翻訳することで,データ拡張手法の有効性とコーパスの有用性を検証する。 その結果、BLEUのスコアとKoSLAコーパスのスコアが重要であることが証明された。

We present an efficient framework of corpus for sign language translation. Aided with a simple but dramatic data augmentation technique, our method converts text into annotated forms with minimum information loss. Sign languages are composed of manual signals, non-manual signals, and iconic features. According to professional sign language interpreters, non-manual signals such as facial expressions and gestures play an important role in conveying exact meaning. By considering the linguistic features of sign language, our proposed framework is a first and unique attempt to build a multimodal sign language augmentation corpus (hereinafter referred to as the KoSLA corpus) containing both manual and non-manual modalities. The corpus we built demonstrates confident results in the hospital context, showing improved performance with augmented datasets. To overcome data scarcity, we resorted to data augmentation techniques such as synonym replacement to boost the efficiency of our translation model and available data, while maintaining grammatical and semantic structures of sign language. For the experimental support, we verify the effectiveness of data augmentation technique and usefulness of our corpus by performing a translation task between normal sentences and sign language annotations on two tokenizers. The result was convincing, proving that the BLEU scores with the KoSLA corpus were significant.
翻訳日:2022-07-13 13:05:10 公開日:2022-07-12
# CompoundE: 翻訳・回転・スケーリング操作を組み込んだ知識グラフ

CompoundE: Knowledge Graph Embedding with Translation, Rotation and Scaling Compound Operations ( http://arxiv.org/abs/2207.05324v1 )

ライセンス: Link先を確認
Xiou Ge, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo(参考訳) 翻訳、回転、スケーリングは、画像処理で一般的に使用される幾何学的操作である。 さらに、それらのいくつかは、TransEやRotatEのような効果的な知識グラフ埋め込み(KGE)モデルの開発に成功している。 このシナジーに触発されて,本研究における3つの操作をすべて活用した新しいKGEモデルを提案する。 翻訳、回転、スケーリング操作は複合モデルを形成するためにカスケードされるので、新しいモデルは CompoundE と呼ばれる。 群論の枠組みで CompoundE を鋳造することにより、数個のスコアリング関数に基づく KGE モデルが CompoundE の特別な場合であることを示す。 CompoundEは、頭および/または尾のエンティティ上の関係依存化合物操作と単純な距離ベース関係を拡張する。 提案手法の有効性を示すため,3つのKG完了データセットを用いて実験を行った。 実験結果から, コンベンションEは一貫して技術性能を達成することがわかった。

Translation, rotation, and scaling are three commonly used geometric manipulation operations in image processing. Besides, some of them are successfully used in developing effective knowledge graph embedding (KGE) models such as TransE and RotatE. Inspired by the synergy, we propose a new KGE model by leveraging all three operations in this work. Since translation, rotation, and scaling operations are cascaded to form a compound one, the new model is named CompoundE. By casting CompoundE in the framework of group theory, we show that quite a few scoring-function-based KGE models are special cases of CompoundE. CompoundE extends the simple distance-based relation to relation-dependent compound operations on head and/or tail entities. To demonstrate the effectiveness of CompoundE, we conduct experiments on three popular KG completion datasets. Experimental results show that CompoundE consistently achieves the state of-the-art performance.
翻訳日:2022-07-13 13:04:49 公開日:2022-07-12
# 混合テンソルを用いたcnnの効率的な推定のためのフォトニック再構成型加速器

Photonic Reconfigurable Accelerators for Efficient Inference of CNNs with Mixed-Sized Tensors ( http://arxiv.org/abs/2207.05278v1 )

ライセンス: Link先を確認
Sairam Sri Vatsavai, Ishan G Thakkar(参考訳) フォトニックマイクロリング共振器(MRR)ベースのハードウェアアクセラレータは、深層畳み込みニューラルネットワーク(CNN)を処理するために破壊的なスピードアップとエネルギー効率の改善を提供する。 しかし、以前のMRRベースのCNNアクセラレーターは、混合サイズのテンソルを持つCNNに対して効率的な適応性を提供できない。 そのようなCNNの例としては、深く分離可能なCNNがある。 このような不屈な加速器に混合サイズのテンソルを用いたCNNの推論を行うと、ハードウェア利用率が低下し、加速器の性能とエネルギー効率が低下する。 本稿では,MRRをベースとしたCNNアクセラレータに再構成性を導入し,ハードウェアコンポーネントを用いて処理されるCNNテンソルとアクセルハードウェアコンポーネント間のサイズ互換性を動的に最大化する手法を提案する。 我々は,現在最先端のMRRベースのCNNアクセラレータを,アクセル内のハードウェアコンポーネントのレイアウトと相対配置に基づいて,先行研究から2つのカテゴリに分類する。 そこで本手法では,この2つのクラスから加速器に再構成可能性を導入することで,並列性,速度,エネルギー効率の異なるテンソルを効率的にマッピングする柔軟性を向上させる。 我々は,再構成可能なアクセラレーターを,各アクセラレーターのハードウェア領域に比例する領域の3つの先行研究と比較した。 4つの現代的なcnnの推論の評価から,設計した再構成可能なcnnアクセラレータはフレーム毎秒(fps)で最大1.8倍,fps/wで最大1.5倍の改善が得られた。

Photonic Microring Resonator (MRR) based hardware accelerators have been shown to provide disruptive speedup and energy-efficiency improvements for processing deep Convolutional Neural Networks (CNNs). However, previous MRR-based CNN accelerators fail to provide efficient adaptability for CNNs with mixed-sized tensors. One example of such CNNs is depthwise separable CNNs. Performing inferences of CNNs with mixed-sized tensors on such inflexible accelerators often leads to low hardware utilization, which diminishes the achievable performance and energy efficiency from the accelerators. In this paper, we present a novel way of introducing reconfigurability in the MRR-based CNN accelerators, to enable dynamic maximization of the size compatibility between the accelerator hardware components and the CNN tensors that are processed using the hardware components. We classify the state-of-the-art MRR-based CNN accelerators from prior works into two categories, based on the layout and relative placements of the utilized hardware components in the accelerators. We then use our method to introduce reconfigurability in accelerators from these two classes, to consequently improve their parallelism, the flexibility of efficiently mapping tensors of different sizes, speed, and overall energy efficiency. We evaluate our reconfigurable accelerators against three prior works for the area proportionate outlook (equal hardware area for all accelerators). Our evaluation for the inference of four modern CNNs indicates that our designed reconfigurable CNN accelerators provide improvements of up to 1.8x in Frames-Per-Second (FPS) and up to 1.5x in FPS/W, compared to an MRR-based accelerator from prior work.
翻訳日:2022-07-13 13:02:15 公開日:2022-07-12
# トランスファービリティによるクロスドメイン・クロスタスク・トランスファー学習

Transferability-Guided Cross-Domain Cross-Task Transfer Learning ( http://arxiv.org/abs/2207.05510v1 )

ライセンス: Link先を確認
Yang Tan, Yang Li, Shao-Lun Huang, Xiao-Ping Zhang(参考訳) 本稿では,F-OTCE(Fast Optimal Transport based Conditional Entropy)とJC-OTCE(Joint Cor correspondingence OTCE)の2つの新しいトランスファービリティ指標を提案する。 補助作業における経験的伝達性の評価を必要とする既存のメトリクスとは異なり、我々のメトリクスはより効率的に計算できるように補助的ではない。 具体的には、F-OTCEは、まずソースとターゲットの分布間の最適輸送(OT)問題を解き、次に最適結合を用いてソースとターゲットのラベル間の負条件エントロピーを計算する。 ターゲットタスクを微調整する前に、ソースモデルの転送可能性を最大化するための損失関数としても機能する。 一方、JC-OTCEは、OT問題にラベル距離を含めることで、F-OTCEの転送可能性の堅牢性を向上させるが、追加の計算コストを発生させる可能性がある。 広範な実験により、f-otce と jc-otce はそれぞれ18.85% と 28.88% の補助的自由度を上回り、接地移動精度との相関係数を示した。 補助的なタスクのトレーニングコストを削減することにより、2つのメトリクスは前のメソッドの計算時間をそれぞれ43分から9.32秒、10.78秒に短縮する。 損失関数として使用すると、F-OTCEは数発の分類実験でソースモデルの転送精度を一貫した改善を示し、精度は4.41%まで向上した。

We propose two novel transferability metrics F-OTCE (Fast Optimal Transport based Conditional Entropy) and JC-OTCE (Joint Correspondence OTCE) to evaluate how much the source model (task) can benefit the learning of the target task and to learn more transferable representations for cross-domain cross-task transfer learning. Unlike the existing metric that requires evaluating the empirical transferability on auxiliary tasks, our metrics are auxiliary-free such that they can be computed much more efficiently. Specifically, F-OTCE estimates transferability by first solving an Optimal Transport (OT) problem between source and target distributions, and then uses the optimal coupling to compute the Negative Conditional Entropy between source and target labels. It can also serve as a loss function to maximize the transferability of the source model before finetuning on the target task. Meanwhile, JC-OTCE improves the transferability robustness of F-OTCE by including label distances in the OT problem, though it may incur additional computation cost. Extensive experiments demonstrate that F-OTCE and JC-OTCE outperform state-of-the-art auxiliary-free metrics by 18.85% and 28.88%, respectively in correlation coefficient with the ground-truth transfer accuracy. By eliminating the training cost of auxiliary tasks, the two metrics reduces the total computation time of the previous method from 43 minutes to 9.32s and 10.78s, respectively, for a pair of tasks. When used as a loss function, F-OTCE shows consistent improvements on the transfer accuracy of the source model in few-shot classification experiments, with up to 4.41% accuracy gain.
翻訳日:2022-07-13 13:01:47 公開日:2022-07-12
# オンライン半教師付き連続学習のためのコントラスト学習

Contrastive Learning for Online Semi-Supervised General Continual Learning ( http://arxiv.org/abs/2207.05615v1 )

ライセンス: Link先を確認
Nicolas Michel, Romain Negrel, Giovanni Chierchia, Jean-Fran\c{c}ois Bercher(参考訳) ラベルの欠落したオンライン連続学習について検討し,部分的なラベル付きデータに対する新しいコントラスト損失であるsemiconを提案する。 我々は、ラベルのないデータストリームでトレーニングされたメモリベースのメソッドを考案することで、その効率を実証する。 提案手法は,スプリット・シファー100のラベルの2.6%,スプリット・シファー100のラベルの10%のみを用いて,既存の半教師あり方式よりも優れている。

We study Online Continual Learning with missing labels and propose SemiCon, a new contrastive loss designed for partly labeled data. We demonstrate its efficiency by devising a memory-based method trained on an unlabeled data stream, where every data added to memory is labeled using an oracle. Our approach outperforms existing semi-supervised methods when few labels are available, and obtain similar results to state-of-the-art supervised methods while using only 2.6% of labels on Split-CIFAR10 and 10% of labels on Split-CIFAR100.
翻訳日:2022-07-13 13:01:04 公開日:2022-07-12
# Docent:現代美術発見のためのコンテンツベースのレコメンデーションシステム

Docent: A content-based recommendation system to discover contemporary art ( http://arxiv.org/abs/2207.05648v1 )

ライセンス: Link先を確認
Antoine Fosset, Mohamed El-Mennaoui, Amine Rebei, Paul Calligaro, Elise Farge Di Maria, H\'el\`ene Nguyen-Ban, Francesca Rea, Marie-Charlotte Vallade, Elisabetta Vitullo, Christophe Zhang, Guillaume Charpiat and Mathieu Rosenbaum(参考訳) 音楽、映画、eショップなど様々な分野においてレコメンデーションシステムが広く使われている。 デジタル化をほとんど避けたアートの世界は、パンデミックによる技術的転換点に達し、オンラインの売上は大幅に増加し、アーティストやアート作品に関する定量的なオンラインデータを提供している。 本稿では,アート作品のイメージとアーティストの文脈メタデータに依拠した現代美術のコンテンツベース推薦システムを提案する。 高度な情報とアート特有の情報を備えたアートワークを収集し、アノテートして、モデルトレーニングに使用する、まったくユニークなデータベースを作りました。 この情報により、アートワーク間の近接グラフを構築しました。 同様に, nlp技術を用いてアーティストの実践を特徴付け, 展覧会などのイベント履歴から情報を抽出し, アーティスト間の近接グラフを作成した。 グラフ解析の力により、アートワークやアーティストの視覚的情報と文脈的情報の組み合わせに基づいて、アートワークレコメンデーションシステムを提供することができる。 専門家チームによる評価の後、専門家による評価と比較すると、有意義なアートワークの75%の最終的な評価が得られます。

Recommendation systems have been widely used in various domains such as music, films, e-shopping etc. After mostly avoiding digitization, the art world has recently reached a technological turning point due to the pandemic, making online sales grow significantly as well as providing quantitative online data about artists and artworks. In this work, we present a content-based recommendation system on contemporary art relying on images of artworks and contextual metadata of artists. We gathered and annotated artworks with advanced and art-specific information to create a completely unique database that was used to train our models. With this information, we built a proximity graph between artworks. Similarly, we used NLP techniques to characterize the practices of the artists and we extracted information from exhibitions and other event history to create a proximity graph between artists. The power of graph analysis enables us to provide an artwork recommendation system based on a combination of visual and contextual information from artworks and artists. After an assessment by a team of art specialists, we get an average final rating of 75% of meaningful artworks when compared to their professional evaluations.
翻訳日:2022-07-13 13:00:52 公開日:2022-07-12
# 文脈最適化のためのベイズ実験設計による因果判定の効率的な実世界テスト

Efficient Real-world Testing of Causal Decision Making via Bayesian Experimental Design for Contextual Optimisation ( http://arxiv.org/abs/2207.05250v1 )

ライセンス: Link先を確認
Desi R. Ivanova, Joel Jennings, Cheng Zhang, Adam Foster(参考訳) 因果的機械学習モデルを用いた意思決定の現実的なテストは、彼らの成功したアプリケーションにとって必須の前提条件である。 本研究は, 顧客に対して, 報酬の最大化を目的とし, それぞれの文脈情報を付与するパーソナライズド・トリート(パーソナライズド・トリート)の意思決定の評価と改善に焦点をあてる。 本稿では,ベイズ実験設計による文脈的意思決定を評価するために,データ収集のためのモデル非依存フレームワークを提案する。 具体的には,過去の治療課題の後悔をデータ効率で評価するために,本手法を用いる。 A/Bテストのようなアプローチとは異なり、本手法は、関連する情報を集めるためにいくつかの調査をしながら、高度に最適化された治療を割り当てることを避ける。 エンド・ツー・エンドを最適化する情報に基づく設計目標を導入することでこれを実現する。 本手法は離散処理および連続処理に適用できる。 いくつかのシミュレーション研究において,ベースラインに対する情報理論的アプローチを比較することで,提案手法の優れた性能を示す。

The real-world testing of decisions made using causal machine learning models is an essential prerequisite for their successful application. We focus on evaluating and improving contextual treatment assignment decisions: these are personalised treatments applied to e.g. customers, each with their own contextual information, with the aim of maximising a reward. In this paper we introduce a model-agnostic framework for gathering data to evaluate and improve contextual decision making through Bayesian Experimental Design. Specifically, our method is used for the data-efficient evaluation of the regret of past treatment assignments. Unlike approaches such as A/B testing, our method avoids assigning treatments that are known to be highly sub-optimal, whilst engaging in some exploration to gather pertinent information. We achieve this by introducing an information-based design objective, which we optimise end-to-end. Our method applies to discrete and continuous treatments. Comparing our information-theoretic approach to baselines in several simulation studies demonstrates the superior performance of our proposed approach.
翻訳日:2022-07-13 13:00:36 公開日:2022-07-12
# 逆ロバストな深層ニューラルアーキテクチャのための双方向進化的多目的探索

Bi-fidelity Evolutionary Multiobjective Search for Adversarially Robust Deep Neural Architectures ( http://arxiv.org/abs/2207.05321v1 )

ライセンス: Link先を確認
Jia Liu, Ran Cheng, Yaochu Jin(参考訳) ディープニューラルネットワークは敵の攻撃に弱いことが分かっており、セキュリティに敏感な状況において潜在的に懸念される可能性がある。 この問題に対処するために、最近の研究は、アーキテクチャの観点からディープニューラルネットワークの敵対的ロバスト性を調査している。 しかしながら、ディープニューラルネットワークのアーキテクチャの探索は、特に敵のトレーニングプロセスと組み合わせて計算コストが高い。 上記の課題を満たすため,本論文では多目的多目的ニューラルネットワーク探索手法を提案する。 まず,深部ニューラルネットワークの対角性向上のためのNAS問題を多目的最適化問題に定式化する。 具体的には、第1の目的として低忠実度性能予測器に加えて、補助目的物、すなわち高忠実度評価で訓練された代理モデルの出力を利用する。 次に,パラメータ共有,低忠実度評価,代理型予測器という3つの性能推定手法を組み合わせることにより,計算コストを削減する。 提案手法の有効性は, CIFAR-10, CIFAR-100, SVHNデータセットを用いた広範囲な実験により確認された。

Deep neural networks have been found vulnerable to adversarial attacks, thus raising potentially concerns in security-sensitive contexts. To address this problem, recent research has investigated the adversarial robustness of deep neural networks from the architectural point of view. However, searching for architectures of deep neural networks is computationally expensive, particularly when coupled with adversarial training process. To meet the above challenge, this paper proposes a bi-fidelity multiobjective neural architecture search approach. First, we formulate the NAS problem for enhancing adversarial robustness of deep neural networks into a multiobjective optimization problem. Specifically, in addition to a low-fidelity performance predictor as the first objective, we leverage an auxiliary-objective -- the value of which is the output of a surrogate model trained with high-fidelity evaluations. Secondly, we reduce the computational cost by combining three performance estimation methods, i.e., parameter sharing, low-fidelity evaluation, and surrogate-based predictor. The effectiveness of the proposed approach is confirmed by extensive experiments conducted on CIFAR-10, CIFAR-100 and SVHN datasets.
翻訳日:2022-07-13 12:59:07 公開日:2022-07-12
# 深層信念ネットワーク学習のための発達的アプローチ

A developmental approach for training deep belief networks ( http://arxiv.org/abs/2207.05473v1 )

ライセンス: Link先を確認
Matteo Zambra, Alberto Testolin, Michele De Filippo De Grazia, Marco Zorzi(参考訳) ディープ信念ネットワーク(Deep belief Network、DBN)は、知覚データから環境の豊かな内部表現を抽出できる確率的ニューラルネットワークである。 DBNは深層学習革命を誘発する触媒的効果を示し、多くの層が隠されたニューロンを持つネットワークにおける教師なし学習の可能性を示した。 これらの階層的アーキテクチャは、その生物学的および認知可能性により、様々な領域において人間の知覚と認知の計算モデルを構築するのに成功している。 しかし、dbnsでの学習は通常、皮質回路の全体的発展をシミュレートすることができない、欲張りで層的な方法で行われる。 ここでは、階層のすべての層にまたがる接続重みを共同で更新できるDBNの反復学習アルゴリズムiDBNを紹介する。 我々は2つの異なる視覚刺激のセットでアルゴリズムをテストし、グラフ理論特性の観点からネットワーク開発も追跡可能であることを示す。 反復的手法を用いて訓練したDBNは、グリーディ的手法に匹敵する最終的な性能を達成すると同時に、生成モデルの内部表現の段階的発達を正確に解析する。 我々の研究は、神経認知発達のモデリングにiDBNを使うことへの道を開いた。

Deep belief networks (DBNs) are stochastic neural networks that can extract rich internal representations of the environment from the sensory data. DBNs had a catalytic effect in triggering the deep learning revolution, demonstrating for the very first time the feasibility of unsupervised learning in networks with many layers of hidden neurons. Thanks to their biological and cognitive plausibility, these hierarchical architectures have been also successfully exploited to build computational models of human perception and cognition in a variety of domains. However, learning in DBNs is usually carried out in a greedy, layer-wise fashion, which does not allow to simulate the holistic development of cortical circuits. Here we present iDBN, an iterative learning algorithm for DBNs that allows to jointly update the connection weights across all layers of the hierarchy. We test our algorithm on two different sets of visual stimuli, and we show that network development can also be tracked in terms of graph theoretical properties. DBNs trained using our iterative approach achieve a final performance comparable to that of the greedy counterparts, at the same time allowing to accurately analyze the gradual development of internal representations in the generative model. Our work paves the way to the use of iDBN for modeling neurocognitive development.
翻訳日:2022-07-13 12:58:44 公開日:2022-07-12
# テーブル質問回答に関する調査研究 : 最近の進歩

A Survey on Table Question Answering: Recent Advances ( http://arxiv.org/abs/2207.05270v1 )

ライセンス: Link先を確認
Nengzheng Jin, Joanna Siebert, Dongfang Li, Qingcai Chen(参考訳) 表 質問応答(表 qa)は、ユーザーの質問に答えるために表から正確な回答を提供する。 近年,テーブルQAに関する研究が盛んに行われているが,この研究テーマに関する総合的な調査は乏しい。 そこで我々は,テーブルQAで利用可能なデータセットと代表手法の概要を提供する。 既存のテーブルQAの手法は, セマンティックパーシング, 生成, 抽出, マッチング, 検索の手法の5つのカテゴリに分類される。 さらに,テーブルQAは依然として既存手法の課題であり,いくつかの重要な課題を特定し,概説するとともに,テーブルQAの今後の方向性について論じる。

Table Question Answering (Table QA) refers to providing precise answers from tables to answer a user's question. In recent years, there have been a lot of works on table QA, but there is a lack of comprehensive surveys on this research topic. Hence, we aim to provide an overview of available datasets and representative methods in table QA. We classify existing methods for table QA into five categories according to their techniques, which include semantic-parsing-based, generative, extractive, matching-based, and retriever-reader-based methods. Moreover, as table QA is still a challenging task for existing methods, we also identify and outline several key challenges and discuss the potential future directions of table QA.
翻訳日:2022-07-13 12:58:24 公開日:2022-07-12
# コントラストディープスーパービジョン

Contrastive Deep Supervision ( http://arxiv.org/abs/2207.05306v1 )

ライセンス: Link先を確認
Linfeng Zhang, Xin Chen, Junbo Zhang, Runpei Dong, Kaisheng Ma(参考訳) ディープラーニングの成功は通常、ニューラルネットワークの深さの成長を伴う。 しかしながら、従来のトレーニング手法では、最後の層でニューラルネットワークを監督するのみであり、中間層を最適化する上で困難となる監視層を層単位で伝播させる。 近年,ディープニューラルネットワークの中間層に補助的分類器を追加するための深層監視手法が提案されている。 これらの補助的分類器を教師付きタスク損失で最適化することで、浅層層に直接監督を適用することができる。 しかし、深い監督は、浅い層がタスクバイアスの高いハイレベルな意味的特徴ではなく低レベルな特徴を学ぶというよく知られた観察と矛盾する。 そこで本稿では,中間層を強調型コントラスト学習で管理する,コントラスト深層指導という新しい学習枠組みを提案する。 一般的な画像分類, きめ細かな画像分類, 物体検出, 教師付き学習, 半教師付き学習, 知識蒸留における9つの人気データセットに対する実験結果について検討した。 コードはgithubで公開されている。

The success of deep learning is usually accompanied by the growth in neural network depth. However, the traditional training method only supervises the neural network at its last layer and propagates the supervision layer-by-layer, which leads to hardship in optimizing the intermediate layers. Recently, deep supervision has been proposed to add auxiliary classifiers to the intermediate layers of deep neural networks. By optimizing these auxiliary classifiers with the supervised task loss, the supervision can be applied to the shallow layers directly. However, deep supervision conflicts with the well-known observation that the shallow layers learn low-level features instead of task-biased high-level semantic features. To address this issue, this paper proposes a novel training framework named Contrastive Deep Supervision, which supervises the intermediate layers with augmentation-based contrastive learning. Experimental results on nine popular datasets with eleven models demonstrate its effects on general image classification, fine-grained image classification and object detection in supervised learning, semi-supervised learning and knowledge distillation. Codes have been released in Github.
翻訳日:2022-07-13 12:57:58 公開日:2022-07-12
# DTG-SSOD:半監督対象検出のためのDense Teacher Guidance

DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection ( http://arxiv.org/abs/2207.05536v1 )

ライセンス: Link先を確認
Gang Li, Xiang Li, Yujie Wang, Yichao Wu, Ding Liang, Shanshan Zhang(参考訳) Mean-Teacher (MT) スキームは半教師対象検出(SSOD)において広く採用されている。 mtでは、教師の最終的な予測(例えば、非最大抑制(nms)後の処理)によって提供されたスパース擬似ラベルが、手作りのラベル割り当てによって学生の密集した監督に採用される。 しかし,Sparse-to-DenseパラダイムはSSODのパイプラインを複雑にし,教師の指導力の強化を同時に無視する。 本稿では,教師の密集した指導を直接活用し,生徒の学習,すなわち密集した学習パラダイムを監督することを試みる。 具体的には,従来の分散擬似ラベルを使わずに,密集した監督をインスタンス化する逆nmsクラスタリング (inc) とランクマッチング (rm) を提案する。 incは、教師が行うように、候補者ボックスを nms のクラスタにグループ化し、教師の nms 手順で明らかになったグループ化情報を学習することによって実施する。 学生は、INCを介して教師と同じグループ化スキームを得た後、ランキングマッチングにより、クラスタ化された候補者よりも教師のランク分布を模倣する。 提案する inc と rm では,教師指導を半教師対象検出 (dtg-ssod と呼ぶ) に統合し,ばらばらな擬似ラベルの放棄に成功し,ラベルなしデータに対するより情報的な学習を可能にした。 COCOベンチマークでは、DTG-SSODは様々なラベル付け比で最先端の性能を達成する。 例えば、10%のラベル付け比率でDTG-SSODは、教師付きベースラインを26.9から35.9mAPに改善し、以前の最良のメソッドであるSoft Teacherを1.9ポイント上回った。

The Mean-Teacher (MT) scheme is widely adopted in semi-supervised object detection (SSOD). In MT, the sparse pseudo labels, offered by the final predictions of the teacher (e.g., after Non Maximum Suppression (NMS) post-processing), are adopted for the dense supervision for the student via hand-crafted label assignment. However, the sparse-to-dense paradigm complicates the pipeline of SSOD, and simultaneously neglects the powerful direct, dense teacher supervision. In this paper, we attempt to directly leverage the dense guidance of teacher to supervise student training, i.e., the dense-to-dense paradigm. Specifically, we propose the Inverse NMS Clustering (INC) and Rank Matching (RM) to instantiate the dense supervision, without the widely used, conventional sparse pseudo labels. INC leads the student to group candidate boxes into clusters in NMS as the teacher does, which is implemented by learning grouping information revealed in NMS procedure of the teacher. After obtaining the same grouping scheme as the teacher via INC, the student further imitates the rank distribution of the teacher over clustered candidates through Rank Matching. With the proposed INC and RM, we integrate Dense Teacher Guidance into Semi-Supervised Object Detection (termed DTG-SSOD), successfully abandoning sparse pseudo labels and enabling more informative learning on unlabeled data. On COCO benchmark, our DTG-SSOD achieves state-of-the-art performance under various labelling ratios. For example, under 10% labelling ratio, DTG-SSOD improves the supervised baseline from 26.9 to 35.9 mAP, outperforming the previous best method Soft Teacher by 1.9 points.
翻訳日:2022-07-13 12:57:39 公開日:2022-07-12
# (参考訳) 生涯指導型学習入門

An Introduction to Lifelong Supervised Learning ( http://arxiv.org/abs/2207.04354v2 )

ライセンス: CC BY 4.0
Shagun Sodhani, Mojtaba Faramarzi, Sanket Vaibhav Mehta, Pranshu Malviya, Mohamed Abdelsalam, Janarthanan Janarthanan, Sarath Chandar(参考訳) このプライマーは、生涯学習のさまざまな側面の詳細な概要を提供する試みである。 まず、生涯学習システムの高レベルな概要を提供する2章から始める。 本章では、生涯学習における顕著なシナリオについて論じる(第2.4章)。第2.5章)、理想的な生涯学習システムのためのデシラタを列挙する(第2.6章)、生涯学習が他の学習パラダイムとどのように関連しているかを論じる(第2.7章)、生涯学習システムを評価するために使用される一般的な指標を説明する(第2.8章)。 この章は、生涯学習に慣れて、特定のアプローチやベンチマークに集中することなく、この分野に導入したい読者にとってより有用なものです。 残りの章は特定の側面(学習アルゴリズムやベンチマーク)に焦点を当てており、特定のアプローチやベンチマークを探している読者にとってより有用である。 第3章は、以前のタスクからのデータにアクセスしない正規化ベースのアプローチに焦点を当てている。 第4章では、通常、リプレイバッファまたはエピソードメモリを使用して異なるタスク間でデータのサブセットを保存するメモリベースのアプローチについて論じている。 第5章は、生涯学習システムのトレーニングのために提案された異なるアーキテクチャファミリー(とそのインスタンス)に焦点を当てている。 これらの異なる学習アルゴリズムのクラスに従えば、生涯学習のための評価ベンチマークとメトリクス(図6)を議論し、第7章で今後の課題と重要な研究方向性について議論する。

This primer is an attempt to provide a detailed summary of the different facets of lifelong learning. We start with Chapter 2 which provides a high-level overview of lifelong learning systems. In this chapter, we discuss prominent scenarios in lifelong learning (Section 2.4), provide 8 Introduction a high-level organization of different lifelong learning approaches (Section 2.5), enumerate the desiderata for an ideal lifelong learning system (Section 2.6), discuss how lifelong learning is related to other learning paradigms (Section 2.7), describe common metrics used to evaluate lifelong learning systems (Section 2.8). This chapter is more useful for readers who are new to lifelong learning and want to get introduced to the field without focusing on specific approaches or benchmarks. The remaining chapters focus on specific aspects (either learning algorithms or benchmarks) and are more useful for readers who are looking for specific approaches or benchmarks. Chapter 3 focuses on regularization-based approaches that do not assume access to any data from previous tasks. Chapter 4 discusses memory-based approaches that typically use a replay buffer or an episodic memory to save subset of data across different tasks. Chapter 5 focuses on different architecture families (and their instantiations) that have been proposed for training lifelong learning systems. Following these different classes of learning algorithms, we discuss the commonly used evaluation benchmarks and metrics for lifelong learning (Chapter 6) and wrap up with a discussion of future challenges and important research directions in Chapter 7.
翻訳日:2022-07-13 11:19:20 公開日:2022-07-12
# (参考訳) 局所グローバル情報融合を用いた単眼深度推定のためのマルチスケール視覚変換器

Depthformer : Multiscale Vision Transformer For Monocular Depth Estimation With Local Global Information Fusion ( http://arxiv.org/abs/2207.04535v2 )

ライセンス: CC BY 4.0
Ashutosh Agarwal and Chetan Arora(参考訳) トランスフォーマなどの注意に基づくモデルは、画像の長距離依存性を捉える能力から、セマンティックセグメンテーションのような密集した予測タスクにおいて優れた性能を示している。 しかし,単眼深度予測における変圧器の利点は,これまでほとんど解明されていない。 本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。 本稿では,提案するデコーダネットワークと組み合わさったマルチスケール特徴マップを作成するために,マルチヘッドセルフアテンションを用いた単眼深度推定のための新しいアテンションベースアーキテクチャである depthformer を提案する。 また、画像毎に中心値が適応的に推定されるビンに深さ範囲を分割するトランスビンスモジュールを提案する。 最後の深さは各ピクセルのビン中心の線形結合である。 Transbinsモジュールは、エンコーディングステージにおけるTransformerモジュールを使用して、グローバルな受信フィールドを利用する。 NYUV2 と KITTI の深さ推定ベンチマークによる実験結果から,提案手法はルート平均正方形誤差(RMSE)においてそれぞれ3.3%,3.3%改善することが示された。 コードはhttps://github.com/ashutosh1807/Depthformer.gitで入手できる。

Attention-based models such as transformers have shown outstanding performance on dense prediction tasks, such as semantic segmentation, owing to their capability of capturing long-range dependency in an image. However, the benefit of transformers for monocular depth prediction has seldom been explored so far. This paper benchmarks various transformer-based models for the depth estimation task on an indoor NYUV2 dataset and an outdoor KITTI dataset. We propose a novel attention-based architecture, Depthformer for monocular depth estimation that uses multi-head self-attention to produce the multiscale feature maps, which are effectively combined by our proposed decoder network. We also propose a Transbins module that divides the depth range into bins whose center value is estimated adaptively per image. The final depth estimated is a linear combination of bin centers for each pixel. Transbins module takes advantage of the global receptive field using the transformer module in the encoding stage. Experimental results on NYUV2 and KITTI depth estimation benchmark demonstrate that our proposed method improves the state-of-the-art by 3.3%, and 3.3% respectively in terms of Root Mean Squared Error (RMSE). Code is available at https://github.com/ashutosh1807/Depthformer.git.
翻訳日:2022-07-13 11:17:57 公開日:2022-07-12
# デュアルビジョントランス

Dual Vision Transformer ( http://arxiv.org/abs/2207.04976v2 )

ライセンス: Link先を確認
Ting Yao and Yehao Li and Yingwei Pan and Yu Wang and Xiao-Ping Zhang and Tao Mei(参考訳) 先行研究は自己認識機構の計算コストを削減するためのいくつかの戦略を提案した。 これらの研究の多くは、それぞれが計算の複雑さをはるかに少なくする局所的特徴抽出手順に自己着脱手順を分解することを検討している。 しかし、地域情報は通常、ダウンサンプリングによって失った望ましくない情報を犠牲にしてのみ達成される。 本稿では,dual vision transformer (dual-vit) という,コスト削減を目的とした新しいトランスフォーマーアーキテクチャを提案する。 新しいアーキテクチャには、より効率的にトークンベクトルをグローバルセマンティクスに圧縮し、複雑さの順序を下げる重要なセマンティクス経路が組み込まれている。 このような圧縮されたグローバルセマンティクスは、別の構築されたピクセル経路を通して、より細かいピクセルレベルの詳細を学ぶ上で有用な事前情報として機能する。 セマンティックパスとピクセルパスは統合され、共同で訓練され、両方の経路を通して拡張された自己認識情報を並列に拡散する。 そのため、Dual-ViTは計算の複雑さを減らすことができる。 我々は、Dual-ViTが訓練の複雑さを低減したSOTAトランスフォーマーアーキテクチャよりも優れた精度を提供することを示す。 ソースコードは \url{https://github.com/YehLi/ImageNetModel} で入手できる。

Prior works have proposed several strategies to reduce the computational cost of self-attention mechanism. Many of these works consider decomposing the self-attention procedure into regional and local feature extraction procedures that each incurs a much smaller computational complexity. However, regional information is typically only achieved at the expense of undesirable information lost owing to down-sampling. In this paper, we propose a novel Transformer architecture that aims to mitigate the cost issue, named Dual Vision Transformer (Dual-ViT). The new architecture incorporates a critical semantic pathway that can more efficiently compress token vectors into global semantics with reduced order of complexity. Such compressed global semantics then serve as useful prior information in learning finer pixel level details, through another constructed pixel pathway. The semantic pathway and pixel pathway are then integrated together and are jointly trained, spreading the enhanced self-attention information in parallel through both of the pathways. Dual-ViT is henceforth able to reduce the computational complexity without compromising much accuracy. We empirically demonstrate that Dual-ViT provides superior accuracy than SOTA Transformer architectures with reduced training complexity. Source code is available at \url{https://github.com/YehLi/ImageNetModel}.
翻訳日:2022-07-13 11:07:29 公開日:2022-07-12
# 擬似的手による連続的グラスピング関数の学習

Learning Continuous Grasping Function with a Dexterous Hand from Human Demonstrations ( http://arxiv.org/abs/2207.05053v2 )

ライセンス: Link先を確認
Jianglong Ye, Jiashun Wang, Binghao Huang, Yuzhe Qin, Xiaolong Wang(参考訳) そこで本研究では,暗黙関数を用いたデクスタラスハンド操作のための把持動作生成法を提案する。 連続的な時間入力により、モデルは連続的で滑らかな把握計画を生成することができる。 提案したモデルであるContinuous Grasping Function (CGF) を命名する。 CGFは3次元人間の実演を用いて条件付き変分オートエンコーダを用いて生成モデルを用いて学習する。 まず、大規模な人間と物体の相互作用軌道を、モーションリターゲティングによってロボットのデモに変換し、次にこれらのデモを使ってCGFを訓練する。 推定中, cgfを用いたサンプリングを行い, シミュレータ内で異なる把持計画を生成し, 実ロボットへの移動に成功するものを選択する。 多様な人間のデータをトレーニングすることで、cgfは一般化によって複数のオブジェクトを操作できる。 従来の計画アルゴリズムと比較して、CGFはより効率的であり、実のアレグロハンドでグリーピングする際の成功率を大幅に向上させる。 私たちのプロジェクトページはhttps://jianglongye.com/cgf です。

We propose to learn to generate grasping motion for manipulation with a dexterous hand using implicit functions. With continuous time inputs, the model can generate a continuous and smooth grasping plan. We name the proposed model Continuous Grasping Function (CGF). CGF is learned via generative modeling with a Conditional Variational Autoencoder using 3D human demonstrations. We will first convert the large-scale human-object interaction trajectories to robot demonstrations via motion retargeting, and then use these demonstrations to train CGF. During inference, we perform sampling with CGF to generate different grasping plans in the simulator and select the successful ones to transfer to the real robot. By training on diverse human data, our CGF allows generalization to manipulate multiple objects. Compared to previous planning algorithms, CGF is more efficient and achieves significant improvement on success rate when transferred to grasping with the real Allegro Hand. Our project page is at https://jianglongye.com/cgf .
翻訳日:2022-07-13 11:07:07 公開日:2022-07-12
# 幾何学的一像フルボディリライティング

Geometry-aware Single-image Full-body Human Relighting ( http://arxiv.org/abs/2207.04750v2 )

ライセンス: Link先を確認
Chaonan Ji, Tao Yu, Kaiwen Guo, Jingxin Liu, Yebin Liu(参考訳) 単像人間の照明は、入力画像をアルベド、形状、照明に分解することで、新しい照明条件下でターゲットの人間を照らすことを目的としている。 妥当な照明効果は達成できるが、以前の方法はアルベドと照明の絡み合いと硬い影の欠如の両方に苦しむため、リアリズムは大きく低下する。 これら2つの問題に対処するために,従来のグラフィックレンダリングとニューラルレンダリングの併用配置に単一画像の幾何再構成を応用した,幾何学的一眼レフティングフレームワークを提案する。 消灯のために、unetアーキテクチャの欠点を探究し、修正hrnetを提案し、アルベドと照明のより良好な絡み合いを実現する。 本報告では,高周波数影を明示的にモデル化したレイトレーシング方式の画素ごとの照明表現を導入し,レイトレーシングシェーディングマップから現実的な影(ハードキャストシャドウを含む)を復元する学習型シェーディングリファインメントモジュールを提案する。 提案手法は, キャスティングシャドウなどのフォトリアリスティックな高周波シャドウを, 厳しい照明条件下で生成することができる。 提案手法は, 合成画像と実画像の両方において, 従来の手法よりも優れていた。

Single-image human relighting aims to relight a target human under new lighting conditions by decomposing the input image into albedo, shape and lighting. Although plausible relighting results can be achieved, previous methods suffer from both the entanglement between albedo and lighting and the lack of hard shadows, which significantly decrease the realism. To tackle these two problems, we propose a geometry-aware single-image human relighting framework that leverages single-image geometry reconstruction for joint deployment of traditional graphics rendering and neural rendering techniques. For the de-lighting, we explore the shortcomings of UNet architecture and propose a modified HRNet, achieving better disentanglement between albedo and lighting. For the relighting, we introduce a ray tracing-based per-pixel lighting representation that explicitly models high-frequency shadows and propose a learning-based shading refinement module to restore realistic shadows (including hard cast shadows) from the ray-traced shading maps. Our framework is able to generate photo-realistic high-frequency shadows such as cast shadows under challenging lighting conditions. Extensive experiments demonstrate that our proposed method outperforms previous methods on both synthetic and real images.
翻訳日:2022-07-13 11:06:54 公開日:2022-07-12
# コンタクトグラフにおける逐次タスクの計画

Planning Sequential Tasks on Contact Graph ( http://arxiv.org/abs/2207.04364v2 )

ライセンス: Link先を確認
Ziyuan Jiao, Yida Niu, Zeyu Zhang, Song-Chun Zhu, Yixin Zhu, Hangxin Liu(参考訳) 3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案し,逐次的なタスク計画を行う。 述語的属性を付加したこの接触グラフに基づく表現は、簡潔な幾何学情報と有効なロボットとシーンの相互作用でシーンレイアウトを抽象化する。 接触グラフに自然に指定された目標構成は、確率的最適化法を用いて遺伝的アルゴリズムによって生成することができる。 タスクプランは、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算して初期化され、ロボットの動作に対応するグラフ編集操作を生成する。 我々は,グラフ編集作業の時間的実現性を制限する制約を課し,有効なタスクと動作対応を確保することでタスク計画の確定を図った。 一連のシミュレーションと実験において、ロボットは、計画ドメイン定義言語(PDDL)のような従来の計画言語を用いて特定し難い複雑な逐次的オブジェクト再構成タスクを完了し、コンタクトグラフ上でロボットシーケンシャルタスク計画の可能性と可能性を示す。

We devise a 3D scene graph representation, contact graph+ (cg+), for efficient sequential task planning. Augmented with predicate-like attributes, this contact graph-based representation abstracts scene layouts with succinct geometric information and valid robot-scene interactions. Goal configurations, naturally specified on contact graphs, can be produced by a genetic algorithm with a stochastic optimization method. A task plan is then initialized by computing the Graph Editing Distance (GED) between the initial contact graphs and the goal configurations, which generates graph edit operations corresponding to possible robot actions. We finalize the task plan by imposing constraints to regulate the temporal feasibility of graph edit operations, ensuring valid task and motion correspondences. In a series of simulations and experiments, robots successfully complete complex sequential object rearrangement tasks that are difficult to specify using conventional planning language like Planning Domain Definition Language (PDDL), demonstrating the high feasibility and potential of robot sequential task planning on contact graph.
翻訳日:2022-07-13 11:06:29 公開日:2022-07-12
# マルチモーダル感情認識のためのWav2vec 2.0とBERTの多レベル融合

Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion Recognition ( http://arxiv.org/abs/2207.04697v2 )

ライセンス: Link先を確認
Zihan Zhao, Yanfeng Wang, Yu Wang(参考訳) マルチモーダル感情認識の研究と応用は近年ますます人気が高まっている。 しかし、マルチモーダル感情認識はデータ不足の課題に直面している。 そこで本研究では,wav2vec 2.0 と bert を含む最先端の事前学習モデルを活用した転送学習手法を提案する。 コートテンションに基づく早期核融合と後期核融合を含む多段階核融合法について検討した。 また, フレームレベルの音声埋め込みだけでなく, 音声, 音節, 単語レベルの音声埋め込みなどのセグメントレベルの埋め込みも抽出し, さらなる性能向上を図る。 その結果,IEMOCAPデータセット上で,初期核融合モデルと後期核融合モデルと多粒度特徴抽出フレームワークを組み合わせることで,最適なベースラインアプローチを1.3%の未重み付き精度(UA)で上回る結果を得た。

The research and applications of multimodal emotion recognition have become increasingly popular recently. However, multimodal emotion recognition faces the challenge of lack of data. To solve this problem, we propose to use transfer learning which leverages state-of-the-art pre-trained models including wav2vec 2.0 and BERT for this task. Multi-level fusion approaches including coattention-based early fusion and late fusion with the models trained on both embeddings are explored. Also, a multi-granularity framework which extracts not only frame-level speech embeddings but also segment-level embeddings including phone, syllable and word-level speech embeddings is proposed to further boost the performance. By combining our coattention-based early fusion model and late fusion model with the multi-granularity feature extraction framework, we obtain result that outperforms best baseline approaches by 1.3% unweighted accuracy (UA) on the IEMOCAP dataset.
翻訳日:2022-07-13 11:06:11 公開日:2022-07-12
# あなたのフェアモデルはどうロバストか? 多様な公正戦略の堅牢性を探る

How Robust is your Fair Model? Exploring the Robustness of Diverse Fairness Strategies ( http://arxiv.org/abs/2207.04581v2 )

ライセンス: Link先を確認
Edward Small, Wei Shao, Zeliang Zhang, Peihan Liu, Jeffrey Chan, Kacper Sokol and Flora Salim(参考訳) 高度な意思決定における機械学習の導入により、アルゴリズムの公平性を保証することがますます重要になっている。 これに対し、フェアネスの数学的定義が多数提案され、フェアネスの定義を最大化するために様々な最適化技術が開発されている。 しかし、公正なソリューションはトレーニングデータの品質に依存しており、ノイズに非常に敏感である。 近年の研究では、新しい問題にアプローチする際に使用するべき戦略のタイプにおいて、ロバスト性(モデルが不明瞭なデータに対してうまく機能する能力)が重要な役割を果たすことが示されており、そのため、これらの戦略のロバスト性を測定することが根本的な問題となっている。 そこで本研究では,様々な公平性最適化戦略(ロバスト性比)のロバスト性を評価するための新しい基準を提案する。 我々は,5つのベンチマークフェアネスデータセットに対して,最もポピュラーなフェアネス戦略の3つを用いて,最もポピュラーなフェアネス定義の4つについて,広範な実験を行った。 実験の結果,しきい値最適化に依拠する公平性は,他の手法をほとんど上回っているにもかかわらず,評価されたデータセットのノイズに対して非常に敏感であることが示された。 これは他の2つの方法とは対照的で、低ノイズシナリオでは公平ではないが、高ノイズシナリオではより公平である。 私たちの知る限りでは、公平な最適化戦略の堅牢さを定量的に評価するのは、当社が初めてです。 これは、様々なデータセットに最も適したフェアネス戦略を選択する際のガイドラインとなる可能性がある。

With the introduction of machine learning in high-stakes decision making, ensuring algorithmic fairness has become an increasingly important problem to solve. In response to this, many mathematical definitions of fairness have been proposed, and a variety of optimisation techniques have been developed, all designed to maximise a defined notion of fairness. However, fair solutions are reliant on the quality of the training data, and can be highly sensitive to noise. Recent studies have shown that robustness (the ability for a model to perform well on unseen data) plays a significant role in the type of strategy that should be used when approaching a new problem and, hence, measuring the robustness of these strategies has become a fundamental problem. In this work, we therefore propose a new criterion to measure the robustness of various fairness optimisation strategies - the robustness ratio. We conduct multiple extensive experiments on five bench mark fairness data sets using three of the most popular fairness strategies with respect to four of the most popular definitions of fairness. Our experiments empirically show that fairness methods that rely on threshold optimisation are very sensitive to noise in all the evaluated data sets, despite mostly outperforming other methods. This is in contrast to the other two methods, which are less fair for low noise scenarios but fairer for high noise ones. To the best of our knowledge, we are the first to quantitatively evaluate the robustness of fairness optimisation strategies. This can potentially can serve as a guideline in choosing the most suitable fairness strategy for various data sets.
翻訳日:2022-07-13 11:05:55 公開日:2022-07-12
# 繰り返し2次オークションにおける動的予算変動

Dynamic Budget Throttling in Repeated Second-Price Auctions ( http://arxiv.org/abs/2207.04690v2 )

ライセンス: Link先を確認
Zhaohua Chen, Chang Wang, Qian Wang, Yuqi Pan, Zhuming Shi, Chuyue Tang, Zheng Cai, Yukun Ren, Zhihua Zhu, Xiaotie Deng(参考訳) Throttlingは、今日のオンライン広告市場で最も人気のある予算管理手法の1つである。 予算制約のある広告主がスロットリングを採用すると、広告プラットフォームが入札を推奨した後、オークションに参加するかどうかを選択できる。 本稿では,2次オークションを繰り返す場合の動的予算削減過程を理論的に考察する。 根本的な問題の本質的な特徴は、広告主が市場参入時に最も高い入札者の分布を知らないことである。 このような不確実性を取り除くことの難しさをモデル化するため、2つの異なる情報構造を考える。 広告主は、全情報フィードバックで各ラウンドで最高の競争入札を得ることができた。 一方、部分的な情報フィードバックによって、広告主は、彼女が参加するオークションで最も高い競争入札にしかアクセスできない。 分配学習と収益最適化を同時に行うOGD-CBアルゴリズムを提案する。 どちらの設定でも、このアルゴリズムは流体適応スロットリングベンチマークと比較して1-O(1/T)$の確率で$O(\sqrt{T\log T})$後悔を保証する。 隠れた最適化でさえも最小限の後悔に対して$\Omega(\sqrt{T})$の低い境界を証明することにより、アルゴリズムのほぼ最適性を確立する。 最後に, スロットリングの最適流体と, 予算管理法として広く採用されているペーシングの流体を比較した。 これらのベンチマークの数値関係は、予算制約下での収益最大化のための異なるオンラインアルゴリズムの理解に新たな光を当てている。

Throttling is one of the most popular budget control methods in today's online advertising markets. When a budget-constrained advertiser employs throttling, she can choose whether or not to participate in an auction after the advertising platform recommends a bid. This paper focuses on the dynamic budget throttling process in repeated second-price auctions from a theoretical view. An essential feature of the underlying problem is that the advertiser does not know the distribution of the highest competing bid upon entering the market. To model the difficulty of eliminating such uncertainty, we consider two different information structures. The advertiser could obtain the highest competing bid in each round with full-information feedback. Meanwhile, with partial information feedback, the advertiser could only have access to the highest competing bid in the auctions she participates in. We propose the OGD-CB algorithm, which involves simultaneous distribution learning and revenue optimization. In both settings, we demonstrate that this algorithm guarantees an $O(\sqrt{T\log T})$ regret with probability $1 - O(1/T)$ relative to the fluid adaptive throttling benchmark. By proving a lower bound of $\Omega(\sqrt{T})$ on the minimal regret for even the hindsight optimum, we establish the near optimality of our algorithm. Finally, we compare the fluid optimum of throttling to that of pacing, another widely adopted budget control method. The numerical relationship of these benchmarks sheds new light on the understanding of different online algorithms for revenue maximization under budget constraints.
翻訳日:2022-07-13 11:03:53 公開日:2022-07-12
# (参考訳) 証明可能な保証を持つ多モデルフェデレーション学習

Multi-Model Federated Learning with Provable Guarantees ( http://arxiv.org/abs/2207.04330v2 )

ライセンス: CC BY 4.0
Neelkamal Bhuyan, Sharayu Moharir, Gauri Joshi(参考訳) Federated Learning(FL)は、エッジデバイスが中央サーバや互いにデータを共有せずにモデルを学習する分散学習の亜種である。 クライアントの共通プールをマルチモデルFLとするフェデレーション設定において,複数の独立モデルを同時に訓練するプロセスについて述べる。 本研究では,多モデルflのための一般的なfedavgアルゴリズムの2つの変種を提案する。 さらに,同じ計算量において,マルチモデルflは,各モデルを個別にトレーニングするよりも優れた性能が得られることを示す。 我々は, 強凸, 凸, 非凸の設定実験により, 理論結果を補足する。

Federated Learning (FL) is a variant of distributed learning where edge devices collaborate to learn a model without sharing their data with the central server or each other. We refer to the process of training multiple independent models simultaneously in a federated setting using a common pool of clients as multi-model FL. In this work, we propose two variants of the popular FedAvg algorithm for multi-model FL, with provable convergence guarantees. We further show that for the same amount of computation, multi-model FL can have better performance than training each model separately. We supplement our theoretical results with experiments in strongly convex, convex, and non-convex settings.
翻訳日:2022-07-13 10:14:59 公開日:2022-07-12
# (参考訳) 弾性管路によるエッジの効率的なnlp推定

Efficient NLP Inference at the Edge via Elastic Pipelining ( http://arxiv.org/abs/2207.05022v2 )

ライセンス: CC BY 4.0
Liwei Guo, Wonkyo Choe, Felix Xiaozhu Lin(参考訳) 自然言語処理(nlp)推論は、ユーザのデータのプライバシの保護とネットワークラウンドトリップの回避にデバイス上での推論が不可欠であるモバイルアプリケーションで採用が増加している。 しかし、NLPモデルの前例のないサイズは、モバイルデバイスの2つの重要なリソースであるレイテンシとメモリの両方を強調している。 ターゲットのレイテンシを満たすため、モデル全体のメモリ保持はできるだけ早く実行を起動するが、1つのアプリのメモリフットプリントを数回増加させるため、モバイルメモリ管理によってリサイクルされる前に、そのメリットをわずかに制限する。 一方、オンデマンドのストレージからモデルを読み込むと、ユーザにとって満足な遅延範囲をはるかに超える数秒のIOが発生する。 そこで我々はWRXを提案する。 WRXは、モデルの最も重要な部分にIO/Computeリソースの利用を最大化するというキーアイデアに基づいて、2つの新しいテクニックを通じてレイテンシ/メモリの緊張を緩和する。 まず、モデルシャーディング。 wrxはモデルパラメータを独立に調整可能なシャードとして管理し、精度の重要性をプロファイルする。 次に、プリロードバッファによる弾性パイプライン計画。 wrxはio/計算パイプラインをインスタンス化し、早い段階で停止することなく、シャードをプリロードしてブートストラップ実行を行うための小さなバッファを使用する。 2つのコモディティ SoC の上に WRX を構築し,実際の目標レイテンシ,CPU と GPU の両面において,幅広い NLP タスクに対して評価を行う。 我々はWRXが1~2桁のメモリで高い精度を実現し、競争上のベースラインを上回っていることを示した。

Natural Language Processing (NLP) inference is seeing increasing adoption by mobile applications, where on-device inference is desirable for crucially preserving user data privacy and avoiding network roundtrips. Yet, the unprecedented size of an NLP model stresses both latency and memory, the two key resources of a mobile device. To meet a target latency, holding the whole model in memory launches execution as soon as possible but increases one app's memory footprints by several times, limiting its benefits to only a few inferences before being recycled by mobile memory management. On the other hand, loading the model from storage on demand incurs a few seconds long IO, far exceeding the delay range satisfying to a user; pipelining layerwise model loading and execution does not hide IO either, due to the large skewness between IO and computation delays. To this end, we propose WRX. Built on the key idea of maximizing IO/compute resource utilization on the most important parts of a model, WRX reconciles the latency/memory tension via two novel techniques. First, model sharding. WRX manages model parameters as independently tunable shards and profiles their importance to accuracy. Second, elastic pipeline planning with a preload buffer. WRX instantiates an IO/computation pipeline and uses a small buffer for preload shards to bootstrap execution without stalling in early stages; it judiciously selects, tunes, and assembles shards per their importance for resource-elastic execution, which maximizes inference accuracy. Atop two commodity SoCs, we build WRX and evaluate it against a wide range of NLP tasks, under a practical range of target latencies, and on both CPU and GPU. We demonstrate that, WRX delivers high accuracies with 1--2 orders of magnitude lower memory, outperforming competitive baselines.
翻訳日:2022-07-13 10:14:11 公開日:2022-07-12
# 放射線誘導グローバルローカ変換器による胸部X線診断

Radiomics-Guided Global-Local Transformer for Weakly Supervised Pathology Localization in Chest X-Rays ( http://arxiv.org/abs/2207.04394v2 )

ライセンス: Link先を確認
Yan Han, Gregory Holste, Ying Ding, Ahmed Tewfik, Yifan Peng, and Zhangyang Wang(参考訳) 医療画像の自動解析のためのディープラーニング手法が最近成功する以前、実践者は医療画像の局所的なパッチを定量的に記述するために手作りの放射線学的特徴を使用していた。 しかし, 診断的放射線学的特徴の抽出は, 正確な病理組織局在に依存するため, 実世界では獲得が困難である。 疾患の分類や胸部x線からの局在化の進歩にもかかわらず、多くのアプローチは臨床で不正なドメイン知識を取り入れられていない。 これらの理由から,Radiomics-Guided Transformer (RGT) を提案する。このトランスフォーマは,<textit{global} 画像情報を \textit{local} 知識誘導無線情報と融合し,正確な心肺疾患の局在と分類を行う。 RGTは、画像トランスフォーマーブランチ、放射能トランスフォーマーブランチ、および画像と放射線情報を集約する融合層から構成される。 rgtは、画像ブランチの学習されたセルフアテンションを用いて、放射線ブランチによってさらに処理される放射線特徴を計算するための境界ボックスを抽出し、学習画像と放射線特徴を融合してクロスアテンション層を介して相互に相互作用させる。 このようにして、RGTは画像レベルの疾患ラベルのみを用いて、正確な病理局在をブートストラップできる新しいエンドツーエンドフィードバックループを利用する。 NIH ChestXRayデータセットの実験では、RGTは、弱制御された疾患の局所化(様々な交叉対ユニオン閾値の平均マージン 3.6 %)と分類(レシーバーの操作特性曲線の下での平均領域 1.1 % )において、以前よりも優れていたことが示されている。 コードとトレーニングされたモデルは受け入れ次第リリースされる。

Before the recent success of deep learning methods for automated medical image analysis, practitioners used handcrafted radiomic features to quantitatively describe local patches of medical images. However, extracting discriminative radiomic features relies on accurate pathology localization, which is difficult to acquire in real-world settings. Despite advances in disease classification and localization from chest X-rays, many approaches fail to incorporate clinically-informed domain knowledge. For these reasons, we propose a Radiomics-Guided Transformer (RGT) that fuses \textit{global} image information with \textit{local} knowledge-guided radiomics information to provide accurate cardiopulmonary pathology localization and classification \textit{without any bounding box annotations}. RGT consists of an image Transformer branch, a radiomics Transformer branch, and fusion layers that aggregate image and radiomic information. Using the learned self-attention of its image branch, RGT extracts a bounding box for which to compute radiomic features, which are further processed by the radiomics branch; learned image and radiomic features are then fused and mutually interact via cross-attention layers. Thus, RGT utilizes a novel end-to-end feedback loop that can bootstrap accurate pathology localization only using image-level disease labels. Experiments on the NIH ChestXRay dataset demonstrate that RGT outperforms prior works in weakly supervised disease localization (by an average margin of 3.6\% over various intersection-over-union thresholds) and classification (by 1.1\% in average area under the receiver operating characteristic curve). Code and trained models will be released upon acceptance.
翻訳日:2022-07-13 09:10:32 公開日:2022-07-12