このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220604となっている論文です。

PDF登録状況(公開日: 20220604)

TitleAuthorsAbstract論文公表日・翻訳日
# RealAnt: 実世界の強化学習における教育と研究のためのオープンソース低コスト四角形

RealAnt: An Open-Source Low-Cost Quadruped for Education and Research in Real-World Reinforcement Learning ( http://arxiv.org/abs/2011.03085v2 )

ライセンス: Link先を確認
Rinu Boney, Jussi Sainio, Mikko Kaivola, Arno Solin, Juho Kannala(参考訳) 現在の研究対象のロボットプラットフォームは非常に高価か、強化学習における探索的制御の濫用を処理できない。 私たちは、強化学習で使われる'ant'ベンチマークの最小限の低コストな物理バージョンであるrealantを開発しました。 realantの費用はわずか$sim$350 eur ($410)で、1時間以内に組み立てることができる。 我々は、強化学習実験でプラットフォームを検証し、一連のベンチマークタスクのベースライン結果を提供する。 われわれはRealAntロボットが10分未満の経験からスクラッチから歩くことを学習できることを実証した。 また,MuJoCoシミュレータとPyBulletシミュレータにおいて,ロボットのシミュレータバージョン(同一次元,状態動作空間,遅延雑音観測)も提供する。 我々は,教育用および再現可能な研究のためのハードウェア設計,サポートソフトウェア,ベースライン結果のオープンソース化を行った。

Current robot platforms available for research are either very expensive or unable to handle the abuse of exploratory controls in reinforcement learning. We develop RealAnt, a minimal low-cost physical version of the popular `Ant' benchmark used in reinforcement learning. RealAnt costs only $\sim$350 EUR (\$410) in materials and can be assembled in less than an hour. We validate the platform with reinforcement learning experiments and provide baseline results on a set of benchmark tasks. We demonstrate that the RealAnt robot can learn to walk from scratch from less than 10 minutes of experience. We also provide simulator versions of the robot (with the same dimensions, state-action spaces, and delayed noisy observations) in the MuJoCo and PyBullet simulators. We open-source hardware designs, supporting software, and baseline results for educational use and reproducible research.
翻訳日:2022-09-29 12:33:32 公開日:2022-06-04
# ai in 6g: 多層ヘテロジニアスネットワークのためのエネルギー効率の高い分散機械学習

AI in 6G: Energy-Efficient Distributed Machine Learning for Multilayer Heterogeneous Networks ( http://arxiv.org/abs/2207.00415v1 )

ライセンス: Link先を確認
Mohammad Arif Hossain, Abdullah Ridwan Hossain, and Nirwan Ansari(参考訳) 複雑で高密度な6G移動ヘテロジニアスネットワーク(HetNet)を想定する場合,ネットワーク管理が極めてヘテロジニアスなアプリケーションをサポートする鍵となる。 環境と経済の両方の観点から見ると、非均質なqos要求は、想定されたロバストネットワークのエネルギーフットプリントと運用コストの最小化を妨げる。 このように、ネットワークのインテリジェント化は、そのような高度な目的の実現に不可欠な役割を果たすことが期待されている。 人工知能(ai)とモバイルネットワークの融合により、ネットワーク機能の動的かつ自動的な構成が可能になる。 AIのバックボーンのひとつである機械学習(ML)は、ネットワーク負荷とリソース利用の変化の予測、チャネル条件の推定、ネットワークスライシングの最適化、セキュリティと暗号化の強化に役立ちます。 しかしながら、mlタスク自体が膨大な計算負荷とエネルギーコストを負うことはよく知られている。 このような障害を克服するために,ネットワーク層やエンティティにまたがるさまざまなMLアプローチに関連するタスクを最適に分散する階層ベースのHetNetアーキテクチャを提案する。

Adept network management is key for supporting extremely heterogeneous applications with stringent quality of service (QoS) requirements; this is more so when envisioning the complex and ultra-dense 6G mobile heterogeneous network (HetNet). From both the environmental and economical perspectives, non-homogeneous QoS demands obstruct the minimization of the energy footprints and operational costs of the envisioned robust networks. As such, network intelligentization is expected to play an essential role in the realization of such sophisticated aims. The fusion of artificial intelligence (AI) and mobile networks will allow for the dynamic and automatic configuration of network functionalities. Machine learning (ML), one of the backbones of AI, will be instrumental in forecasting changes in network loads and resource utilization, estimating channel conditions, optimizing network slicing, and enhancing security and encryption. However, it is well known that ML tasks themselves incur massive computational burdens and energy costs. To overcome such obstacles, we propose a novel layer-based HetNet architecture which optimally distributes tasks associated with different ML approaches across network layers and entities; such a HetNet boasts multiple access schemes as well as device-to-device (D2D) communications to enhance energy efficiency via collaborative learning and communications.
翻訳日:2022-07-10 12:20:53 公開日:2022-06-04
# (参考訳) 修正VGG16を用いたサルポックス病検出のための画像データ収集と深層学習モデルの実装

Image Data collection and implementation of deep learning-based model in detecting Monkeypox disease using modified VGG16 ( http://arxiv.org/abs/2206.01862v1 )

ライセンス: CC BY 4.0
Md Manjurul Ahsan, Muhammad Ramiz Uddin, Mithila Farjana, Ahmed Nazmus Sakib, Khondhaker Al Momin, and Shahana Akter Luna(参考訳) 世界は新型コロナウイルス(COVID-19)の感染拡大による被害から回復しようとしているが、サルポックスウイルスは世界的なパンデミックになる新たな脅威となっている。 サルポックスウイルス自体は、COVID-19ほど致命的で伝染性はないが、毎日、多くの国で新たな患者が報告されている。 したがって、適切な予防措置が欠如しているため、世界が再び世界的なパンデミックに直面したとしても不思議ではない。 近年、機械学習(ML)は、がん検出、腫瘍細胞同定、COVID-19患者検出などの画像ベースの診断において大きな可能性を示している。 したがって、同様の応用により、ヒト皮膚に感染したサルポックス関連疾患を診断することができ、その画像を取得し、さらに疾患の診断に用いることができる。 この機会を考えると、本研究では、新しく開発された"monkeypox2022"データセットを紹介します。 データセットは、商用目的であっても使用制限を課さない複数のオープンソースおよびオンラインポータルからイメージを収集し、任意の種類のMLモデルを構築し、デプロイする際に、そのようなデータを使用および分散するための安全なパスを提供する。 さらに,研究1と研究2の2つの異なる研究を含む改良VGG16モデルを提案し,評価する。 その結果,提案モデルでは, サルポックス患者に対して, 97\pm1.8\%$ (AUC=97.2) と 88\pm0.8\%$ (AUC=0.867) の精度で, サルポックス患者を同定できることが示唆された。 さらに, 局所的解釈可能なモデル非依存的説明(lime)を用いたモデル予測と特徴抽出は, サルポックスウイルスの発症を特徴付ける特定の特徴について深い知見を得るのに役立つ。

While the world is still attempting to recover from the damage caused by the broad spread of COVID-19, the Monkeypox virus poses a new threat of becoming a global pandemic. Although the Monkeypox virus itself is not deadly and contagious as COVID-19, still every day, new patients case has been reported from many nations. Therefore, it will be no surprise if the world ever faces another global pandemic due to the lack of proper precautious steps. Recently, Machine learning (ML) has demonstrated huge potential in image-based diagnoses such as cancer detection, tumor cell identification, and COVID-19 patient detection. Therefore, a similar application can be adopted to diagnose the Monkeypox-related disease as it infected the human skin, which image can be acquired and further used in diagnosing the disease. Considering this opportunity, in this work, we introduce a newly developed "Monkeypox2022" dataset that is publicly available to use and can be obtained from our shared GitHub repository. The dataset is created by collecting images from multiple open-source and online portals that do not impose any restrictions on use, even for commercial purposes, hence giving a safer path to use and disseminate such data when constructing and deploying any type of ML model. Further, we propose and evaluate a modified VGG16 model, which includes two distinct studies: Study One and Two. Our exploratory computational results indicate that our suggested model can identify Monkeypox patients with an accuracy of $97\pm1.8\%$ (AUC=97.2) and $88\pm0.8\%$ (AUC=0.867) for Study One and Two, respectively. Additionally, we explain our model's prediction and feature extraction utilizing Local Interpretable Model-Agnostic Explanations (LIME) help to a deeper insight into specific features that characterize the onset of the Monkeypox virus.
翻訳日:2022-06-12 14:44:09 公開日:2022-06-04
# (参考訳) 野球における仮想仮想シミュレーションによる打球戦略の影響の推定

Estimating the Effect of Team Hitting Strategies Using Counterfactual Virtual Simulation in Baseball ( http://arxiv.org/abs/2206.01871v1 )

ライセンス: CC BY 4.0
Hiroshi Nakahara, Kazuya Takeda, Keisuke Fujii(参考訳) 野球では、フィールド上のすべてのプレーは定量的に評価され、個人およびチーム戦略に影響を及ぼす。 ベース平均(wOBA)の重み付けは打者が貢献する度合いとしてよく知られている。 しかし、この方法は、打者やコーチが複数の打者戦略を採るときに考慮することが知られているベース走者などのゲーム状況を無視しているが、これらの戦略の有効性は分かっていない。 これは,(1)バッターの戦略を得ることができず,(2)戦略の効果を推定することが難しいためと考えられる。 本稿では,反実バッティングシミュレーションを用いて効果を推定する新しい手法を提案する。 そこで本研究では,バッティング戦略変更時のバッティング能力を変化させるディープラーニングモデルを提案する。 この方法は、従来のゲームデータでは難しい様々な戦略の効果を推定することができる。 バット戦略の切り替えコストを無視できる場合には、異なる戦略の使用が実行量を増やすことが分かりました。 切換コストを考慮すると、増走条件は限られていた。 検証結果から,複数のバッティング戦略を用いた場合の効果をシミュレーションにより明らかにできる可能性が示唆された。

In baseball, every play on the field is quantitatively evaluated and has an effect on individual and team strategies. The weighted on base average (wOBA) is well known as a measure of an batter's hitting contribution. However, this measure ignores the game situation, such as the runners on base, which coaches and batters are known to consider when employing multiple hitting strategies, yet, the effectiveness of these strategies is unknown. This is probably because (1) we cannot obtain the batter's strategy and (2) it is difficult to estimate the effect of the strategies. Here, we propose a new method for estimating the effect using counterfactual batting simulation. To this end, we propose a deep learning model that transforms batting ability when batting strategy is changed. This method can estimate the effects of various strategies, which has been traditionally difficult with actual game data. We found that, when the switching cost of batting strategies can be ignored, the use of different strategies increased runs. When the switching cost is considered, the conditions for increasing runs were limited. Our validation results suggest that our simulation could clarify the effect of using multiple batting strategies.
翻訳日:2022-06-12 14:31:58 公開日:2022-06-04
# (参考訳) オフラインマルチエージェント強化学習における報酬中毒攻撃

Reward Poisoning Attacks on Offline Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.01888v1 )

ライセンス: CC BY 4.0
Young Wu, Jermey McMahan, Xiaojin Zhu, Qiaomin Xie(参考訳) 我々は、オフラインマルチエージェント強化学習(MARL)における報酬中毒の危険性を露呈し、攻撃者は中毒のコストを発生させながら、異なる学習者に対して報酬ベクトルを修正できる。 有毒なデータセットに基づいて、信頼できるバウンドベースのMARLアルゴリズムを使用するすべての合理的学習者は、攻撃者によって選択され、必ずしもソリューションの概念ではないターゲットポリシーがマルコフの根底にあるマルコフゲームにとって完全な支配的な戦略均衡であることを推測する。 我々は、攻撃者がターゲットポリシーをインストールできる正確な条件を特徴付ける。 我々はさらに,攻撃者が線状プログラムを定式化し,その中毒コストを最小化する方法を示した。 我々の研究は、敵攻撃に対する堅牢なMARLの必要性を示している。

We expose the danger of reward poisoning in offline multi-agent reinforcement learning (MARL), whereby an attacker can modify the reward vectors to different learners in an offline data set while incurring a poisoning cost. Based on the poisoned data set, all rational learners using some confidence-bound-based MARL algorithm will infer that a target policy - chosen by the attacker and not necessarily a solution concept originally - is the Markov perfect dominant strategy equilibrium for the underlying Markov Game, hence they will adopt this potentially damaging target policy in the future. We characterize the exact conditions under which the attacker can install a target policy. We further show how the attacker can formulate a linear program to minimize its poisoning cost. Our work shows the need for robust MARL against adversarial attacks.
翻訳日:2022-06-12 14:22:55 公開日:2022-06-04
# (参考訳) 脳腫瘍患者の免疫細胞状態と生存予測のためのテクスチャのモデル化

Modeling of Textures to Predict Immune Cell Status and Survival of Brain Tumour Patients ( http://arxiv.org/abs/2206.01897v1 )

ライセンス: CC BY 4.0
Ahmad Chaddad, Mingli Zhang, Lama Hassan, Tamim Niazi(参考訳) 放射線はグリオーマのような様々な種類のがんに対して臨床結果を予測する能力を示している。 治療前に免疫療法反応を評価する非侵襲的な手段を持つことができる。 しかし、深層畳み込みニューラルネットワーク(cnns)ベースの放射能を使用するには、大きなトレーニング画像セットが必要である。 この問題を回避するため,学習した3次元CNN特徴のガウス混合モデル(GMM)を用いて分布をモデル化する新しい画像特徴について検討する。 これらの深部放射線学的特徴 (DRF) を用いて, グリオーマ患者に対する免疫マーカー(低値と高値)と全身生存率の予測を目的とした。 151例の免疫マーカーに対応するmriスキャンのラベル付き腫瘍領域に、予め訓練された3d-cnnの活性化マップを集約してdrfを抽出する。 提案するdrfと3種類の免疫細胞マーカー(macrophage m1,好中球,t細胞卵胞ヘルパー)の関係を評価し,それらの生存率との関連性について検討した。 ランダムフォレスト(RF)モデルを用いて、DRFは、マクロファージM1、好中球およびT細胞卵胞ヘルパーにおいて、それぞれ78.67、83.93、75.67\%のLOC曲線(AUC)以下の領域で免疫マーカーの状態を予測することができた。 免疫マーカーをDRFと臨床変数と組み合わせ、Kaplan-Meier estimatorおよびLog-rank testは、予測された患者群(短期生存と長期生存)と、p\,=\,4.31$\times$10$^{-7}$と、免疫細胞マーカーのp\,=\,0.03、臨床変数のp\,=\,0.07、DRFのp\,=\,1.45$\times$10$^{-5}$との間に最も有意な差が認められた。 RFモデルで提案した特徴 (DRFs) は, 手術前の脳腫瘍の予後を画像データを用いて有意に検討する可能性が示唆された。

Radiomics has shown a capability for different types of cancers such as glioma to predict the clinical outcome. It can have a non-invasive means of evaluating the immunotherapy response prior to treatment. However, the use of deep convolutional neural networks (CNNs)-based radiomics requires large training image sets. To avoid this problem, we investigate a new imaging features that model distribution with a Gaussian mixture model (GMM) of learned 3D CNN features. Using these deep radiomic features (DRFs), we aim to predict the immune marker status (low versus high) and overall survival for glioma patients. We extract the DRFs by aggregating the activation maps of a pre-trained 3D-CNN within labeled tumor regions of MRI scans that corresponded immune markers of 151 patients. Our experiments are performed to assess the relationship between the proposed DRFs, three immune cell markers (Macrophage M1, Neutrophils and T Cells Follicular Helper), and measure their association with overall survival. Using the random forest (RF) model, DRFs was able to predict the immune marker status with area under the ROC curve (AUC) of 78.67, 83.93 and 75.67\% for Macrophage M1, Neutrophils and T Cells Follicular Helper, respectively. Combined the immune markers with DRFs and clinical variables, Kaplan-Meier estimator and Log-rank test achieved the most significant difference between predicted groups of patients (short-term versus long-term survival) with p\,=\,4.31$\times$10$^{-7}$ compared to p\,=\,0.03 for Immune cell markers, p\,=\,0.07 for clinical variables , and p\,=\,1.45$\times$10$^{-5}$ for DRFs. Our findings indicate that the proposed features (DRFs) used in RF models may significantly consider prognosticating patients with brain tumour prior to surgery through regularly acquired imaging data.
翻訳日:2022-06-12 13:20:33 公開日:2022-06-04
# (参考訳) 軌道予測によるサッカーにおけるチームメイトの得点機会作成の評価

Evaluation of creating scoring opportunities for teammates in soccer via trajectory prediction ( http://arxiv.org/abs/2206.01899v1 )

ライセンス: CC BY-SA 4.0
Masakiyo Teranishi, Kazushi Tsutsui, Kazuya Takeda, Keisuke Fujii(参考訳) サッカー選手のチームメイトに対する個人の動きを評価することは、チームワーク、スカウト、ファンエンゲージメントを評価する上で重要である。 90分試合の選手は平均87分ほどボールを持っていないと言われている。 しかし,ボールを受け取らずに攻撃選手を評価することは困難であり,チームメイトへの得点機会の創出にどう貢献するかを明らかにすることは困難である。 本稿では,実際の動作と軌道予測による参照動作を比較することで,オフボールスコアリングの機会を生み出す選手を評価する。 まず,プレイヤー間の関係を正確にモデル化し,長期経過を予測できるグラフ変動リカレントニューラルネットワークを用いて,プレイヤーの軌跡を予測する。 次に,実測軌跡と予測軌跡との修正オフボール評価指標の差を基準として,実際の動きが予測運動と比較して得点率にどのように寄与するかを評価する。 検証のために,プロサッカーリーグにおける1年以内のチームの全試合について,年間給与,目標,評価との関係について,専門家による検証を行った。 その結果,年収と提案指標は有意な相関関係を示し,既存の指標や目標では説明できなかった。 提案手法は,ボールのない選手にとって,チームメイトが得点する機会を創出するための指標としての有効性を示唆する。

Evaluating the individual movements for teammates in soccer players is crucial for assessing teamwork, scouting, and fan engagement. It has been said that players in a 90-min game do not have the ball for about 87 minutes on average. However, it has remained difficult to evaluate an attacking player without receiving the ball, and to reveal how movement contributes to the creation of scoring opportunities for teammates. In this paper, we evaluate players who create off-ball scoring opportunities by comparing actual movements with the reference movements generated via trajectory prediction. First, we predict the trajectories of players using a graph variational recurrent neural network that can accurately model the relationship between players and predict the long-term trajectory. Next, based on the difference in the modified off-ball evaluation index between the actual and the predicted trajectory as a reference, we evaluate how the actual movement contributes to scoring opportunity compared to the predicted movement. For verification, we examined the relationship with the annual salary, the goals, and the rating in the game by experts for all games of a team in a professional soccer league in a year. The results show that the annual salary and the proposed indicator correlated significantly, which could not be explained by the existing indicators and goals. Our results suggest the effectiveness of the proposed method as an indicator for a player without the ball to create a scoring chance for teammates.
翻訳日:2022-06-12 13:08:06 公開日:2022-06-04
# (参考訳) ソフトadversarial trainingは、自然な正確性を維持することができる

Soft Adversarial Training Can Retain Natural Accuracy ( http://arxiv.org/abs/2206.01904v1 )

ライセンス: CC BY 4.0
Abhijith Sharma and Apurva Narayan(参考訳) 近年,ニューラルネットワークのアドバーサリートレーニングが注目されている。 過去10年間のニューラルネットワークアーキテクチャの進歩は、そのパフォーマンスを大幅に向上させた。 リアルタイムアプリケーションへのデプロイに対する関心が高まりました。 このプロセスでは、敵攻撃に対するこれらのモデルの脆弱性を理解する必要が生じた。 それは敵に対して堅牢なモデルを設計するのに役立ちます。 近年の研究では、しばしば自然の正確性を犠牲にする敵に対抗する新しい手法が提案されている。 ほとんどの場合、入力の逆バージョンでトレーニングを推奨し、元の分布から常に離れている。 私たちの研究の焦点は、(“ソフト”と呼ばれる)敵対的トレーニングのインプットのサブセットを抽出するために、抽象的認証を使用することです。 本研究では,制約条件下での頑健さを犠牲にすることなく,自然な精度を維持する訓練フレームワークを提案する。 我々のフレームワークは特に、ロバスト性と精度の適切なバランスを必要とする適度にクリティカルなアプリケーションをターゲットにしています。 その結果, 対人攻撃に対する防御のためのソフト・対人訓練の考え方が実証された。 最後に,このフレームワークのさらなる改良に向けた今後の研究範囲を提案する。

Adversarial training for neural networks has been in the limelight in recent years. The advancement in neural network architectures over the last decade has led to significant improvement in their performance. It sparked an interest in their deployment for real-time applications. This process initiated the need to understand the vulnerability of these models to adversarial attacks. It is instrumental in designing models that are robust against adversaries. Recent works have proposed novel techniques to counter the adversaries, most often sacrificing natural accuracy. Most suggest training with an adversarial version of the inputs, constantly moving away from the original distribution. The focus of our work is to use abstract certification to extract a subset of inputs for (hence we call it 'soft') adversarial training. We propose a training framework that can retain natural accuracy without sacrificing robustness in a constrained setting. Our framework specifically targets moderately critical applications which require a reasonable balance between robustness and accuracy. The results testify to the idea of soft adversarial training for the defense against adversarial attacks. At last, we propose the scope of future work for further improvement of this framework.
翻訳日:2022-06-12 12:50:59 公開日:2022-06-04
# (参考訳) 正規化とデータ拡張によるロバスト・不変表現の学習に向けて

Toward Learning Robust and Invariant Representations with Alignment Regularization and Data Augmentation ( http://arxiv.org/abs/2206.01909v1 )

ライセンス: CC BY 4.0
Haohan Wang, Zeyi Huang, Xindi Wu, Eric P. Xing(参考訳) データ拡張は、分散シフトの既知のクラス(例えば、画像の回転)に頑健な機械学習モデルを開発するための効果的な技術であることが証明されており、アライメント正規化は、データ拡張と一緒によく使用される技術であり、データ拡張に使用されるシフトに不変な表現をモデルが学習するのに役立つ。 本稿では,アライメント規則化の選択肢の増大に動機づけられ,ロバスト性と不変性という次元に沿って,いくつかの人気のある設計手法の性能評価を行い,新しいテスト手順を提案する。 合成実験の結果は, 2乗標準正規化の利点について述べる。 さらに,現実的と考えられる仮定の下で,アライメント正則化の挙動を解析し,実証的研究を補完する。 最後に,この単純な手法(正方形l2ノルムアライメント正規化を用いたworst-caseデータ拡張)をテストし,この手法の利点が特別に設計された手法よりも優れていることを示す。 また、TensorFlowとPyTorchの両方でソフトウェアパッケージをリリースし、https://github.com/jyanln/AlignReg.comで数行のメソッドを使用できるようにしました。

Data augmentation has been proven to be an effective technique for developing machine learning models that are robust to known classes of distributional shifts (e.g., rotations of images), and alignment regularization is a technique often used together with data augmentation to further help the model learn representations invariant to the shifts used to augment the data. In this paper, motivated by a proliferation of options of alignment regularizations, we seek to evaluate the performances of several popular design choices along the dimensions of robustness and invariance, for which we introduce a new test procedure. Our synthetic experiment results speak to the benefits of squared l2 norm regularization. Further, we also formally analyze the behavior of alignment regularization to complement our empirical study under assumptions we consider realistic. Finally, we test this simple technique we identify (worst-case data augmentation with squared l2 norm alignment regularization) and show that the benefits of this method outrun those of the specially designed methods. We also release a software package in both TensorFlow and PyTorch for users to use the method with a couple of lines at https://github.com/jyanln/AlignReg.
翻訳日:2022-06-12 12:42:52 公開日:2022-06-04
# (参考訳) NeMF:キネマティックアニメーションのための神経運動場

NeMF: Neural Motion Fields for Kinematic Animation ( http://arxiv.org/abs/2206.03287v1 )

ライセンス: CC BY-SA 4.0
Chengan He, Jun Saito, James Zachary, Holly Rushmeier, Yi Zhou(参考訳) 運動の時空間空間を学習するために暗黙的な神経表現を提示する。 動きを離散的な逐次的なサンプルとして表現する以前の研究とは異なり、時間とともに連続的な関数として巨大な動き空間を表現することを提案する。 具体的には、ニューラルネットワークを用いて、時間座標 $t$ とランダムベクトル $z$ で条件付けられた生成モデルとして設計された、様々な動きのセットでこの関数を学習する。 その後、モデルが変動オートエンコーダ(VAE)としてトレーニングされ、動きエンコーダが潜伏空間をサンプリングする。 我々は,その汎用性を証明するために,多種多様な人間の動作データセットと四重組データセットを用いてモデルをトレーニングし,最終的にタスク非依存の問題を解決する前に汎用的な動作として展開し,動作補間,相互接続,再ナビゲートなどの異なる動作生成および編集アプリケーションにおいてその優位性を示す。

We present an implicit neural representation to learn the spatio-temporal space of kinematic motions. Unlike previous work that represents motion as discrete sequential samples, we propose to express the vast motion space as a continuous function over time, hence the name Neural Motion Fields (NeMF). Specifically, we use a neural network to learn this function for miscellaneous sets of motions, which is designed to be a generative model conditioned on a temporal coordinate $t$ and a random vector $z$ for controlling the style. The model is then trained as a Variational Autoencoder (VAE) with motion encoders to sample the latent space. We train our model with diverse human motion dataset and quadruped dataset to prove its versatility, and finally deploy it as a generic motion prior to solve task-agnostic problems and show its superiority in different motion generation and editing applications, such as motion interpolation, in-betweening, and re-navigating.
翻訳日:2022-06-12 12:14:49 公開日:2022-06-04
# (参考訳) カリキュラム学習のためのEpochal Difficult Captionsを用いた自動音声キャプション

Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning ( http://arxiv.org/abs/2206.01918v1 )

ライセンス: CC BY 4.0
Andrew Koh, Soham Tiwari, Chng Eng Siong(参考訳) 本稿では,自動音声キャプションタスクにおける任意のモデルのトレーニングを補完するアルゴリズム,Epochal Difficult Captionsを提案する。 Epochal Difficult Captionsは、AACモデルのエンコーダをトレーニングするために以前の作業で使用したキーワード推定タスクのエレガントな進化である。 Epochal Difficult Captionsは、カリキュラムと現在のエポックの機能として決定される難易度に基づいて、ターゲットキャプションを変更する。 Epochal Difficult Captionsは任意のモデルアーキテクチャで使用することができ、トレーニング時間を短縮しない軽量機能である。 実験の結果を3つのシステムで検証し,Epochal Difficult Captionsの使用が常に性能を向上させることを示す。

In this paper, we propose an algorithm, Epochal Difficult Captions, to supplement the training of any model for the Automated Audio Captioning task. Epochal Difficult Captions is an elegant evolution to the keyword estimation task that previous work have used to train the encoder of the AAC model. Epochal Difficult Captions modifies the target captions based on a curriculum and a difficulty level determined as a function of current epoch. Epochal Difficult Captions can be used with any model architecture and is a lightweight function that does not increase training time. We test our results on three systems and show that using Epochal Difficult Captions consistently improves performance
翻訳日:2022-06-12 11:56:51 公開日:2022-06-04
# (参考訳) 精度限界での分類 --データ曖昧性の問題に直面する

Classification at the Accuracy Limit -- Facing the Problem of Data Ambiguity ( http://arxiv.org/abs/2206.01922v1 )

ライセンス: CC BY 4.0
Claus Metzner, Achim Schilling, Maximilian Traxdorf, Konstantin Tziridis, Holger Schulze, Patrick Krauss(参考訳) データ分類は、データを分析して分類するプロセスであり、自然情報処理システムや人工情報処理システムの基本的な計算問題である。 理想的には、分類器モデルの性能は曖昧なデータセットを用いて評価され、入力データベクトルへのカテゴリラベルの'正しい'割り当ては意図しない。 しかし、実世界の問題では、実際に発生するデータベクトルのかなりの割合は、すべてのカテゴリの間または外部の境界ゾーンに置かれるので、完全な分類は原則的に達成できない。 データカテゴリの重複から生じる分類精度の理論的限界を導出する。 統計特性を調整可能なサロゲートデータ生成モデルを用いることで、パーセプトロンやベイズモデルのような全く異なる原理に基づく十分強力な分類器が、この普遍的精度の限界で全て機能することを示す。 注目すべきは、これらの変換が可逆であり、入力データの情報内容が劇的に減少しても、データに非線形変換を適用することにより、精度の限界は影響されないことである。 睡眠中のMNISTとヒト脳波記録を用いて、教師なしおよび教師なしのトレーニングによって生成された新しいデータ埋め込みを比較した。 下位プロパゲーションで訓練された分類器の最終層では, カテゴリーが適切に分離されているだけでなく, 教師なし次元の縮小後にも, より小さい程度に分離されていることがわかった。 これは、手書きの数字や睡眠段階など、人間の定義したカテゴリーを「自然の種類」とみなすことができることを示唆している。

Data classification, the process of analyzing data and organizing it into categories, is a fundamental computing problem of natural and artificial information processing systems. Ideally, the performance of classifier models would be evaluated using unambiguous data sets, where the 'correct' assignment of category labels to the input data vectors is unequivocal. In real-world problems, however, a significant fraction of actually occurring data vectors will be located in a boundary zone between or outside of all categories, so that perfect classification cannot even in principle be achieved. We derive the theoretical limit for classification accuracy that arises from the overlap of data categories. By using a surrogate data generation model with adjustable statistical properties, we show that sufficiently powerful classifiers based on completely different principles, such as perceptrons and Bayesian models, all perform at this universal accuracy limit. Remarkably, the accuracy limit is not affected by applying non-linear transformations to the data, even if these transformations are non-reversible and drastically reduce the information content of the input data. We compare emerging data embeddings produced by supervised and unsupervised training, using MNIST and human EEG recordings during sleep. We find that categories are not only well separated in the final layers of classifiers trained with back-propagation, but to a smaller degree also after unsupervised dimensionality reduction. This suggests that human-defined categories, such as hand-written digits or sleep stages, can indeed be considered as 'natural kinds'.
翻訳日:2022-06-12 11:47:44 公開日:2022-06-04
# (参考訳) 観測データから因果推論のためのアンセストラル・インスツルメンタル・変数の発見

Discovering Ancestral Instrumental Variables for Causal Inference from Observational Data ( http://arxiv.org/abs/2206.01931v1 )

ライセンス: CC0 1.0
Debo Cheng (1), Jiuyong Li (1), Lin Liu (1), Kui Yu (2), Thuc Duy Lee (1), Jixue Liu (1) ((1) School of Information Technology and Mathematical Sciences, University of South Australia (2) School of Computer Science and Information Engineering, Hefei University of Technology)(参考訳) 機器変数(IV)は、治療と結果の間に潜在的共同創設者が存在する場合でも、観察データから興味の結果に対する治療の因果効果を推定するための強力なアプローチである。 しかし、既存のIV法は、IVが選択され、ドメイン知識で正当化されることを要求する。 無効なivはバイアス付き見積もりにつながる可能性がある。 したがって、有効なivの発見はiv法の適用に不可欠である。 本稿では,データから有効なIVを発見するためのデータ駆動アルゴリズムについて,軽度の仮定で検討・設計する。 我々は,aiv の候補 ancestral ivs (aivs) の探索を支援する部分的祖先グラフ (pags) に基づく理論を開発し,それぞれの aiv について条件セットの同定を行う。 この理論に基づき,データから一対のivsを検出するためのデータ駆動アルゴリズムを提案する。 合成および実世界のデータセットに関する実験により、開発したIV発見アルゴリズムは、最先端のIVに基づく因果効果推定器と比較して正確な因果効果の推定を推定することを示した。

Instrumental variable (IV) is a powerful approach to inferring the causal effect of a treatment on an outcome of interest from observational data even when there exist latent confounders between the treatment and the outcome. However, existing IV methods require that an IV is selected and justified with domain knowledge. An invalid IV may lead to biased estimates. Hence, discovering a valid IV is critical to the applications of IV methods. In this paper, we study and design a data-driven algorithm to discover valid IVs from data under mild assumptions. We develop the theory based on partial ancestral graphs (PAGs) to support the search for a set of candidate Ancestral IVs (AIVs), and for each possible AIV, the identification of its conditioning set. Based on the theory, we propose a data-driven algorithm to discover a pair of IVs from data. The experiments on synthetic and real-world datasets show that the developed IV discovery algorithm estimates accurate estimates of causal effects in comparison with the state-of-the-art IV based causal effect estimators.
翻訳日:2022-06-12 11:17:02 公開日:2022-06-04
# (参考訳) 自由生活環境におけるインテークモニタリング -概要と教訓-

Intake Monitoring in Free-Living Conditions: Overview and Lessons we Have Learned ( http://arxiv.org/abs/2206.02784v1 )

ライセンス: CC BY 4.0
Christos Diou, Konstantinos Kyritsis, Vasileios Papapanagiotou and Ioannis Sarafis(参考訳) 過去10年間の人工知能と機械学習アルゴリズムの進歩は、食事エピソードの測定と食事中の食事行動の測定の両方を含む、食事の客観的測定のための新しい方法の開発を可能にした。 これにより、ビデオ記録や退屈な手作業のアノテーションを必要とせずに、実験室外での食事行動の研究が可能になる。 本稿では,スマートウォッチを用いた intake monitoring に関する最近の研究の概要と,耳内マイクロホンを用いた手法について述べる。 また,本手法の評価結果を実世界の挑戦的なデータセットで提示する。 さらに,摂食行動研究の進展,食事モニタリングの改善,エビデンスに基づく健康政策の策定等を目的とした,摂食モニタリングツールの利用事例について検討した。 我々の目標は 研究者や利用者に 摂取監視方法を知らせることです (i)市販デバイスに基づく新規手法の開発 (ii)有効性を期待するもの、及び (iii)これらの方法が、研究や実用化においてどのように用いられるか。

The progress in artificial intelligence and machine learning algorithms over the past decade has enabled the development of new methods for the objective measurement of eating, including both the measurement of eating episodes as well as the measurement of in-meal eating behavior. These allow the study of eating behavior outside the laboratory in free-living conditions, without the need for video recordings and laborious manual annotations. In this paper, we present a high-level overview of our recent work on intake monitoring using a smartwatch, as well as methods using an in-ear microphone. We also present evaluation results of these methods in challenging, real-world datasets. Furthermore, we discuss use-cases of such intake monitoring tools for advancing research in eating behavior, for improving dietary monitoring, as well as for developing evidence-based health policies. Our goal is to inform researchers and users of intake monitoring methods regarding (i) the development of new methods based on commercially available devices, (ii) what to expect in terms of effectiveness, and (iii) how these methods can be used in research as well as in practical applications.
翻訳日:2022-06-12 10:53:44 公開日:2022-06-04
# (参考訳) 固有応答によるサンプリングノイズとラベルノイズを用いたロバストメタラーニング

Robust Meta-learning with Sampling Noise and Label Noise via Eigen-Reptile ( http://arxiv.org/abs/2206.01944v1 )

ライセンス: CC BY 4.0
Dong Chen, Lingfei Wu, Siliang Tang, Xiao Yun, Bo Long, Yueting Zhuang(参考訳) 近年,FSL問題に対処するためのメタ学習技術への関心が高まっている。 しかし、Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向にあり、クリーンデータセットのサンプリングノイズとして識別できる。 さらに、ノイズの多いラベルでデータを扱う場合、メタリアナーは破損したデータセットのラベルノイズに非常に敏感になる可能性がある。 これら2つの課題に対処するために,メタパラメータを過去のタスク固有のパラメータの主方向で更新し,サンプリングやラベルノイズを緩和する固有レプティル(er)を提案する。 具体的には、主方向を高速に計算し、計算された行列のスケールはパラメータの数ではなく勾配ステップの数に関係している。 さらに,多くの雑音ラベルの存在下での固有表現のより正確な主方向を得るため,内省的自己ペース学習(ispl)を提案する。 提案したEigen-ReptileとISPLの音質と効果を理論的,実験的に実証した。 特に, 異なる課題に対する実験により, 提案手法は, 雑音ラベルの有無に関わらず, 他の勾配法と比較して, 高い性能を発揮できることがわかった。 提案手法のコードとデータは研究目的のhttps://github.com/anfeather/eigen-reptileに対して提供される。

Recent years have seen a surge of interest in meta-learning techniques for tackling the few-shot learning (FSL) problem. However, the meta-learner is prone to overfitting since there are only a few available samples, which can be identified as sampling noise on a clean dataset. Moreover, when handling the data with noisy labels, the meta-learner could be extremely sensitive to label noise on a corrupted dataset. To address these two challenges, we present Eigen-Reptile (ER) that updates the meta-parameters with the main direction of historical task-specific parameters to alleviate sampling and label noise. Specifically, the main direction is computed in a fast way, where the scale of the calculated matrix is related to the number of gradient steps instead of the number of parameters. Furthermore, to obtain a more accurate main direction for Eigen-Reptile in the presence of many noisy labels, we further propose Introspective Self-paced Learning (ISPL). We have theoretically and experimentally demonstrated the soundness and effectiveness of the proposed Eigen-Reptile and ISPL. Particularly, our experiments on different tasks show that the proposed method is able to outperform or achieve highly competitive performance compared with other gradient-based methods with or without noisy labels. The code and data for the proposed method are provided for research purposes https://github.com/Anfeather/Eigen-Reptile.
翻訳日:2022-06-12 10:26:43 公開日:2022-06-04
# (参考訳) 未来の人工知能ツールと医学の展望

Future Artificial Intelligence tools and perspectives in medicine ( http://arxiv.org/abs/2206.03289v1 )

ライセンス: CC BY 4.0
Ahmad Chaddad, Yousef Katib, Lama Hassan(参考訳) レビューの目的:人工知能(AI)は医学的応用、特にコンピュータ支援診断のための臨床支援ツールとして人気を博している。 これらのツールは典型的には医療データ(画像、分子データ、臨床変数など)に使用され、統計学的および機械学習手法を用いてモデルの性能を測定する。 本稿では,臨床解析に用いる最新の放射線パイプラインについて概説した。 最近の発見:現在、がんの管理は人工知能の恩恵を受けており、主に、さらなるリスクとコストをもたらす生検分析を避けるコンピュータ支援診断に関連している。 ほとんどのAIツールは、非侵襲的に取得された画像データにおいて予測モデルに洗練された放射線分析として知られるイメージング機能に基づいている。 本稿では,臨床応用のためのAIベースの放射線治療ツールの進歩について概説する。 深層学習技術に基づく新しい放射線学アプローチを説明することで、新しい放射線モデル(深層放射線分析)が深層畳み込みニューラルネットワークの恩恵を受け、限られたデータセットに適用できるかを説明することができる。 まとめ: 放射線アルゴリズムを検討するためには, 放射線モデルに深層学習を取り入れ, 各種がんの検証手順を追加することを推奨する。

Purpose of review: Artificial intelligence (AI) has become popular in medical applications, specifically as a clinical support tool for computer-aided diagnosis. These tools are typically employed on medical data (i.e., image, molecular data, clinical variables, etc.) and used the statistical and machine learning methods to measure the model performance. In this review, we summarized and discussed the most recent radiomic pipeline used for clinical analysis. Recent findings:Currently, limited management of cancers benefits from artificial intelligence, mostly related to a computer-aided diagnosis that avoids a biopsy analysis that presents additional risks and costs. Most AI tools are based on imaging features, known as radiomic analysis that can be refined into predictive models in non-invasively acquired imaging data. This review explores the progress of AI-based radiomic tools for clinical applications with a brief description of necessary technical steps. Explaining new radiomic approaches based on deep learning techniques will explain how the new radiomic models (deep radiomic analysis) can benefit from deep convolutional neural networks and be applied on limited data sets. Summary: To consider the radiomic algorithms, further investigations are recommended to involve deep learning in radiomic models with additional validation steps on various cancer types.
翻訳日:2022-06-12 10:02:25 公開日:2022-06-04
# (参考訳) 中性子照射下でのxilinx深層学習装置の評価

Evaluation of Xilinx Deep Learning Processing Unit under Neutron Irradiation ( http://arxiv.org/abs/2206.01981v1 )

ライセンス: CC BY 4.0
D. Agiakatsikas, N. Foutris, A. Sari, V. Vlagkoulis, I. Souvatzoglou, M. Psarakis, M. Luj\'an, M. Kastriotou, C. Cazzaniga(参考訳) 本稿では,Xilinx Deep-Learning Processing Unit (DPU) の中性子照射による信頼性について検討する。 Xilinx Ultrascale+ MPSoC上でresnet50モデルを実行するDPUの精度に対するシングルイベントエフェクト(SEE)の影響を分析する。

This paper studies the dependability of the Xilinx Deep-Learning Processing Unit (DPU) under neutron irradiation. It analyses the impact of Single Event Effects (SEEs) on the accuracy of the DPU running the resnet50 model on a Xilinx Ultrascale+ MPSoC.
翻訳日:2022-06-12 09:50:02 公開日:2022-06-04
# (参考訳) 時系列解析のための一般化ワッサースタイン埋め込みの測地特性

Geodesic Properties of a Generalized Wasserstein Embedding for Time Series Analysis ( http://arxiv.org/abs/2206.01984v1 )

ライセンス: CC BY 4.0
Shiying Li, Abu Hasnat Mohammad Rubaiyat, Gustavo K. Rohde(参考訳) 輸送に基づくメトリクスと関連する埋め込み(変換)は、最近非線形構造や変動が存在する信号クラスをモデル化するために使われてきた。 本稿では,一般化ワッサーシュタイン計量を用いた時系列データの測地特性と,その埋め込み空間における符号付き累積分布変換に関連する幾何学について検討する。 さらに,このような幾何学的特徴を理解することで,特定の時系列分類器に対する解釈性が向上し,より頑健な分類器への着想となることを示す。

Transport-based metrics and related embeddings (transforms) have recently been used to model signal classes where nonlinear structures or variations are present. In this paper, we study the geodesic properties of time series data with a generalized Wasserstein metric and the geometry related to their signed cumulative distribution transforms in the embedding space. Moreover, we show how understanding such geometric characteristics can provide added interpretability to certain time series classifiers, and be an inspiration for more robust classifiers.
翻訳日:2022-06-12 09:27:49 公開日:2022-06-04
# (参考訳) ロシア医学文献における非典型的語彙略語識別

Atypical lexical abbreviations identification in Russian medical texts ( http://arxiv.org/abs/2206.01987v1 )

ライセンス: CC BY-SA 4.0
Anna Berdichevskaia (NUST "MISiS")(参考訳) 短縮は、最初の句の最初の文字から短縮語を構築することを目的とした単語形成の方法である。 暗黙の略語はしばしば未準備の読者にとって理解の難しさを引き起こす。 本稿では,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。 ROC AUCスコア0.926とF1スコア0.706は、ベースラインと比較して競争力がある。 パイプラインに加えて、私たちはまず、必要なタスクに関連する知識のロシアデータセットを確立します。

Abbreviation is a method of word formation that aims to construct the shortened term from the first letters of the initial phrase. Implicit abbreviations frequently cause the comprehension difficulties for unprepared readers. In this paper, we propose an efficient ML-based algorithm which allows to identify the abbreviations in Russian texts. The method achieves ROC AUC score 0.926 and F1 score 0.706 which are confirmed as competitive in comparison with the baselines. Along with the pipeline, we also establish first to our knowledge Russian dataset that is relevant for the desired task.
翻訳日:2022-06-12 08:43:10 公開日:2022-06-04
# (参考訳) 組み合わせ因果バンディット

Combinatorial Causal Bandits ( http://arxiv.org/abs/2206.01995v1 )

ライセンス: CC BY 4.0
Shi Feng and Wei Chen(参考訳) 組み合わせ因果バンドイット(CCB)では、学習エージェントが各ラウンドの最大$K$変数を選択して介入し、観測変数からフィードバックを収集し、目標変数$Y$に対する期待された後悔を最小限に抑える。 因果包帯に関する以前の研究とは異なり、CCBは指数関数的に大きな作用空間を扱う必要がある。 因果モデルの簡潔なパラメトリック表現を伴う二項一般化線形モデル(bglms)の文脈下で研究を行う。 マルコフ的 BGLM に対するアルゴリズム BGLM-OFU (すなわち隠れ変数なし) を最大推定法に基づいて提案し,このアルゴリズムが,時間的地平線が$T$であるような後悔の$O(\sqrt{T}\log T)を達成可能であることを示す。 隠れ変数を持つ線形モデルの特別な場合については、元のモデルをマルコフモデルに変換するのにdo計算のような因果推論手法を適用し、bglm-ofuアルゴリズムと線形回帰に基づく他のアルゴリズムがこれらの線形モデルを隠れ変数で解くことを示す。 私たちのノベルティには (a) 複合的介入行動空間を考慮したもの (b)隠された変数を含む一般的な因果モデルを考える。 (c)一般化線形帯域幅やオンライン影響最大化などの多様な研究の技法の統合と適応 (d)先行研究で用いられるすべての介入の下で親のY$の共分散を知るなど非現実的な仮定に頼らないこと。

In combinatorial causal bandits (CCB), the learning agent chooses at most $K$ variables in each round to intervene, collects feedback from the observed variables, with the goal of minimizing expected regret on the target variable $Y$. Different from all prior studies on causal bandits, CCB needs to deal with exponentially large action space. We study under the context of binary generalized linear models (BGLMs) with a succinct parametric representation of the causal models. We present the algorithm BGLM-OFU for Markovian BGLMs (i.e. no hidden variables) based on the maximum likelihood estimation method, and show that it achieves $O(\sqrt{T}\log T)$ regret, where $T$ is the time horizon. For the special case of linear models with hidden variables, we apply causal inference techniques such as the do-calculus to convert the original model into a Markovian model, and then show that our BGLM-OFU algorithm and another algorithm based on the linear regression both solve such linear models with hidden variables. Our novelty includes (a) considering the combinatorial intervention action space, (b) considering general causal models including ones with hidden variables, (c) integrating and adapting techniques from diverse studies such as generalized linear bandits and online influence maximization, and (d) not relying on unrealistic assumptions such as knowing the joint distribution of the parents of $Y$ under all interventions used in some prior studies.
翻訳日:2022-06-12 07:48:20 公開日:2022-06-04
# (参考訳) CAINNFlow: 異常検出とローカライゼーションタスクのための畳み込みブロック注意モジュールと可逆ニューラルネットワークフロー

CAINNFlow: Convolutional block Attention modules and Invertible Neural Networks Flow for anomaly detection and localization tasks ( http://arxiv.org/abs/2206.01992v1 )

ライセンス: CC BY 4.0
Ruiqing Yan, Fan Zhang, Mengyuan Huang, Wu Liu, Dongyu Hu, Jinfeng Li, Qiang Liu, Jingrong Jiang, Qianjin Guo, Linghan Zheng(参考訳) 物体の異常検出は, 産業プロセスにおいて重要であるが, 多数の欠陥サンプルの取得が困難であり, 実生活における予測不可能な種類の異常が特に重要である。 既存の教師なし異常検出およびローカライズ手法の中で、NFベースのスキームはより良い結果を得た。 しかし、NFの2つのサブネット(複素関数)si(ui)とti(ui)は通常多層パーセプトロンであり、入力された視覚的特徴を2次元平坦化から1次元に絞り込み、特徴写像における空間的位置関係を破壊し、空間構造情報を失う。 本研究では, 空間構造情報の保持と抽出を効果的に行うため, 3*3完全畳み込みに組み込んだCBAMを交互に組み込んだ複素関数モデルを構築し, 正規化フローモデルにおける空間構造情報の保持と抽出を効果的に行う。 CAINNFlowは、MVTec ADの異常検出において、CNNとTransformerのバックボーンネットワークを特徴抽出器として、CAINNFlowが高度な精度と推論効率を達成することを示し、CAINNFlowは98.76\%の画素レベルのAUCを達成している。

Detection of object anomalies is crucial in industrial processes, but unsupervised anomaly detection and localization is particularly important due to the difficulty of obtaining a large number of defective samples and the unpredictable types of anomalies in real life. Among the existing unsupervised anomaly detection and localization methods, the NF-based scheme has achieved better results. However, the two subnets (complex functions) si(ui) and ti(ui) in NF are usually multilayer perceptrons, which need to squeeze the input visual features from 2D flattening to 1D, destroying the spatial location relationship in the feature map and losing the spatial structure information. In order to retain and effectively extract spatial structure information, we design in this study a complex function model with alternating CBAM embedded in a stacked 3*3 full convolution, which is able to retain and effectively extract spatial structure information in the normalized flow model. Extensive experimental results on the MVTec AD dataset show that CAINNFlow achieves advanced levels of accuracy and inference efficiency based on CNN and Transformer backbone networks as feature extractors, and CAINNFlow achieves a pixel-level AUC of 98.76\% for anomaly detection in MVTec AD.
翻訳日:2022-06-12 06:57:25 公開日:2022-06-04
# (参考訳) オフポリシー評価とオフライン強化学習のためのハイブリッド値推定

Hybrid Value Estimation for Off-policy Evaluation and Offline Reinforcement Learning ( http://arxiv.org/abs/2206.02000v1 )

ライセンス: CC BY 4.0
Xue-Kun Jin, Xu-Hui Liu, Shengyi Jiang, Yang Yu(参考訳) 値関数推定は強化学習において必須のサブルーチンであり、オフライン環境ではより困難になる。 本稿では,オフラインデータからの値推定と学習モデルとのバランスをとることにより,バイアスと分散をトレードオフする値推定誤差を低減するハイブリッド値推定(hve)を提案する。 理論的解析により、HVEは直接法よりも優れた誤差境界を持つことが明らかになった。 HVEは、非政治評価とオフライン強化学習の両方で活用することができる。 そこで我々は,Off-policy HVE (OPHVE) とModel-based Offline HVE (MOHVE) の2つの具体的なアルゴリズムを提供する。 MuJoCo タスクに関する経験的評価は理論的な主張を裏付ける。 OPHVEは、推定効率を測定する3つの指標すべてにおいて、他の非政治評価手法よりも優れており、MOHVEは最先端のオフライン強化学習アルゴリズムで、より良いあるいは同等のパフォーマンスを達成する。 hveが固定データからの強化学習に関するさらなる研究に光を当てられることを願っている。

Value function estimation is an indispensable subroutine in reinforcement learning, which becomes more challenging in the offline setting. In this paper, we propose Hybrid Value Estimation (HVE) to reduce value estimation error, which trades off bias and variance by balancing between the value estimation from offline data and the learned model. Theoretical analysis discloses that HVE enjoys a better error bound than the direct methods. HVE can be leveraged in both off-policy evaluation and offline reinforcement learning settings. We, therefore, provide two concrete algorithms Off-policy HVE (OPHVE) and Model-based Offline HVE (MOHVE), respectively. Empirical evaluations on MuJoCo tasks corroborate the theoretical claim. OPHVE outperforms other off-policy evaluation methods in all three metrics measuring the estimation effectiveness, while MOHVE achieves better or comparable performance with state-of-the-art offline reinforcement learning algorithms. We hope that HVE could shed some light on further research on reinforcement learning from fixed data.
翻訳日:2022-06-11 15:51:15 公開日:2022-06-04
# (参考訳) 低ビット幅ニューラルネットワークの組合せ最適化

Combinatorial optimization for low bit-width neural networks ( http://arxiv.org/abs/2206.02006v1 )

ライセンス: CC BY 4.0
Han Zhou, Aida Ashrafi and Matthew B. Blaschko(参考訳) 低ビット幅ニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されてきた。 既存のアプローチでは、2段階の列車・コンプレッサー設定における勾配に基づく最適化や、トレーニング中に勾配を定量化する組み合わせ最適化に重点を置いている。 このようなスキームでは、トレーニング段階で高性能なハードウェアが必要であり、通常、量子化された重みとは別に、同等の精度の重みを格納する。 本稿では,二元重み付きリスク最小化問題における直接組合せ最適化の手法について検討する。 単層および多層ニューラルネットワークの場合の近似アルゴリズムを用いる。 線形モデルでは、$\mathcal{o}(nd)$ 時間複雑性を持ち、ここで $n$ はサンプルサイズ、$d$ はデータ次元である。 グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。

Low-bit width neural networks have been extensively explored for deployment on edge devices to reduce computational resources. Existing approaches have focused on gradient-based optimization in a two-stage train-and-compress setting or as a combined optimization where gradients are quantized during training. Such schemes require high-performance hardware during the training phase and usually store an equivalent number of full-precision weights apart from the quantized weights. In this paper, we explore methods of direct combinatorial optimization in the problem of risk minimization with binary weights, which can be made equivalent to a non-monotone submodular maximization under certain conditions. We employ an approximation algorithm for the cases with single and multilayer neural networks. For linear models, it has $\mathcal{O}(nd)$ time complexity where $n$ is the sample size and $d$ is the data dimension. We show that a combination of greedy coordinate descent and this novel approach can attain competitive accuracy on binary classification tasks.
翻訳日:2022-06-11 15:23:56 公開日:2022-06-04
# (参考訳) 変圧器を用いた自然言語処理のアクタリカル応用:アクタリカルコンテキストにおけるテキスト特徴の活用を事例として

Actuarial Applications of Natural Language Processing Using Transformers: Case Studies for Using Text Features in an Actuarial Context ( http://arxiv.org/abs/2206.02014v1 )

ライセンス: CC BY 4.0
Andreas Troxler (AT Analytics) and J\"urg Schelldorfer (Swiss Re)(参考訳) このチュートリアルでは、テキストデータをアクチュアリ分類と回帰タスクに組み込むワークフローをデモする。 主な焦点はトランスフォーマーモデルを用いた手法である。 英語とドイツ語で利用可能な平均400ワードの自動車事故記述のデータセットと、短い不動産保険請求記述のデータセットを使用して、これらのテクニックを実証する。 ケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。 彼らはまた、モデルの出力を解釈する方法を示し、モデルのドメインや特定の予測タスクに微調整することで、モデルの性能を評価し、改善する。 最後に、このチュートリアルはラベル付きデータが少ない状況下で分類タスクを扱うための実践的なアプローチを提供する。 先行処理や微調整を最小限に抑えた自然言語処理(nlp)モデルの言語理解能力を用いて,実践的応用におけるトランスファー学習の能力を明確に示す。

This tutorial demonstrates workflows to incorporate text data into actuarial classification and regression tasks. The main focus is on methods employing transformer-based models. A dataset of car accident descriptions with an average length of 400 words, available in English and German, and a dataset with short property insurance claims descriptions are used to demonstrate these techniques. The case studies tackle challenges related to a multi-lingual setting and long input sequences. They also show ways to interpret model output, to assess and improve model performance, by fine-tuning the models to the domain of application or to a specific prediction task. Finally, the tutorial provides practical approaches to handle classification tasks in situations with no or only few labeled data. The results achieved by using the language-understanding skills of off-the-shelf natural language processing (NLP) models with only minimal pre-processing and fine-tuning clearly demonstrate the power of transfer learning for practical applications.
翻訳日:2022-06-11 15:09:18 公開日:2022-06-04
# (参考訳) ガイド付きDeep Metric Learning

Guided Deep Metric Learning ( http://arxiv.org/abs/2206.02029v1 )

ライセンス: CC BY 4.0
Jorge Gonzalez-Zapata, Ivan Reyes-Amezcua, Daniel Flores-Araiza, Mauricio Mendez-Ruiz, Gilberto Ochoa-Ruiz and Andres Mendez-Vazquez(参考訳) ディープメトリック学習(dml)の手法は、視覚類似性学習に関係していることが証明されている。 しかし、それらはしばしば不適切なサンプル選択戦略を用いて訓練されたり、データの分散シフトに起因するデータセットの難しさのために一般化特性を欠くことがある。 これらは、基礎となるデータ多様体を学習しようとする際の大きな欠点である。 したがって、基礎多様体の一般化と表現を得るためのより良い方法を開発する必要がある。 本稿では,よりコンパクトなクラスタ学習を目的とした新しいアーキテクチャである Guided Deep Metric Learning をDMLに導入し,DMLの分散シフト下での一般化を向上する手法を提案する。 この斬新なアーキテクチャは、2つの独立したモデルから成り立っている: 多点マスターモデルは、数点学習(英語版)(fsl)の視点から着想を得て、オフラインの知識蒸留スキームの下でトレーニング中に学生モデルの決定境界を誘導または規則化するラベル付きデータからの事前知識に基づいて、減少仮説空間を生成する。 提案手法は,Musgraveらによって提案されたガイドラインを用いて,最大40%の改善(Recall@1, CIFAR10)を達成し,より公平で現実的な比較を行うことができることを示した。

Deep Metric Learning (DML) methods have been proven relevant for visual similarity learning. However, they sometimes lack generalization properties because they are trained often using an inappropriate sample selection strategy or due to the difficulty of the dataset caused by a distributional shift in the data. These represent a significant drawback when attempting to learn the underlying data manifold. Therefore, there is a pressing need to develop better ways of obtaining generalization and representation of the underlying manifold. In this paper, we propose a novel approach to DML that we call Guided Deep Metric Learning, a novel architecture oriented to learning more compact clusters, improving generalization under distributional shifts in DML. This novel architecture consists of two independent models: A multi-branch master model, inspired from a Few-Shot Learning (FSL) perspective, generates a reduced hypothesis space based on prior knowledge from labeled data, which guides or regularizes the decision boundary of a student model during training under an offline knowledge distillation scheme. Experiments have shown that the proposed method is capable of a better manifold generalization and representation to up to 40% improvement (Recall@1, CIFAR10), using guidelines suggested by Musgrave et al. to perform a more fair and realistic comparison, which is currently absent in the literature
翻訳日:2022-06-11 15:08:04 公開日:2022-06-04
# (参考訳) Zeroth-Order SciML: ディープラーニングによる科学ソフトウェアの非侵襲的な統合

Zeroth-Order SciML: Non-intrusive Integration of Scientific Software with Deep Learning ( http://arxiv.org/abs/2206.02785v1 )

ライセンス: CC BY 4.0
Ioannis Tsaknakis, Bhavya Kailkhura, Sijia Liu, Donald Loveland, James Diffenderfer, Anna Maria Hiszpanski, Mingyi Hong(参考訳) 深層学習(DL)を用いて科学ワークフローを加速または改善することは、そうでなければ不可能な発見をもたらす。 残念なことに、DLモデルは大量のデータ要求のために複雑な科学領域で限られた成功を収めた。 本研究では,学術知識源(SKS)をDL学習プロセスに統合することにより,この問題を克服することを提案する。 既存の知識統合アプローチは、一階のDLトレーニングパラダイムと互換性のある異なる知識ソースを使用することに限定されます。 対照的に,提案手法では,知識ソースをブラックボックスとして扱うことで,事実上あらゆる知識ソースを統合することができる。 SKS結合DLのエンドツーエンドのトレーニングを可能にするため、ゼロ階最適化(ZOO)に基づく勾配のないトレーニングスキームを提案する。 2つの実世界の物質科学応用におけるZOOトレーニングスキームの性能評価を行った。 提案手法は,dl訓練と科学的知識を効果的に統合でき,データ制限型科学応用において純粋データ駆動モデルよりも優れることを示す。 また,提案手法の限界についても論じ,将来的な方向性を示す。

Using deep learning (DL) to accelerate and/or improve scientific workflows can yield discoveries that are otherwise impossible. Unfortunately, DL models have yielded limited success in complex scientific domains due to large data requirements. In this work, we propose to overcome this issue by integrating the abundance of scientific knowledge sources (SKS) with the DL training process. Existing knowledge integration approaches are limited to using differentiable knowledge source to be compatible with first-order DL training paradigm. In contrast, our proposed approach treats knowledge source as a black-box in turn allowing to integrate virtually any knowledge source. To enable an end-to-end training of SKS-coupled-DL, we propose to use zeroth-order optimization (ZOO) based gradient-free training schemes, which is non-intrusive, i.e., does not require making any changes to the SKS. We evaluate the performance of our ZOO training scheme on two real-world material science applications. We show that proposed scheme is able to effectively integrate scientific knowledge with DL training and is able to outperform purely data-driven model for data-limited scientific applications. We also discuss some limitations of the proposed method and mention potentially worthwhile future directions.
翻訳日:2022-06-11 14:55:26 公開日:2022-06-04
# (参考訳) 価値を超える - CHECKLISTによる計画ベースRLの推論テスト

Beyond Value: CHECKLIST for Testing Inferences in Planning-Based RL ( http://arxiv.org/abs/2206.02039v1 )

ライセンス: CC BY-SA 4.0
Kin-Ho Lam, Delyar Tabatabai, Jed Irvine, Donald Bertucci, Anita Ruangrotsakun, Minsuk Kahng, Alan Fern(参考訳) 強化学習(RL)エージェントは、テストシナリオの分布よりも期待値を通じて一般的に評価される。 残念ながら、この評価手法は、試験分布を超えて展開後の一般化の限られた証拠を提供する。 本稿では,最近のCheckListテスト手法を自然言語処理から計画ベースRLまで拡張することで,この制限に対処する。 具体的には、学習した遷移モデルと値関数を用いてオンライン木探索による決定を行うRLエージェントのテストを検討する。 キーとなる考え方は、ツリー検索中のエージェントの推論を探索し評価するためのCheckListアプローチを通じて、将来のパフォーマンスの評価を改善することである。 このアプローチは、潜在的な推論欠陥を特定し、期待される推論不変性を検証するためのインターフェースと一般的なクエリルールメカニズムを提供する。 本稿では,複雑なリアルタイム戦略ゲームを行うように訓練されたエージェントを評価するアプローチを用いて,知識のあるAI研究者によるユーザスタディを提案する。 提案手法は, エージェントの推論における既知の欠陥を識別する上で有効であることを示す。 さらに、我々の分析は、AIの専門家がこの種のテストアプローチをどのように使うかについての洞察を提供する。

Reinforcement learning (RL) agents are commonly evaluated via their expected value over a distribution of test scenarios. Unfortunately, this evaluation approach provides limited evidence for post-deployment generalization beyond the test distribution. In this paper, we address this limitation by extending the recent CheckList testing methodology from natural language processing to planning-based RL. Specifically, we consider testing RL agents that make decisions via online tree search using a learned transition model and value function. The key idea is to improve the assessment of future performance via a CheckList approach for exploring and assessing the agent's inferences during tree search. The approach provides the user with an interface and general query-rule mechanism for identifying potential inference flaws and validating expected inference invariances. We present a user study involving knowledgeable AI researchers using the approach to evaluate an agent trained to play a complex real-time strategy game. The results show the approach is effective in allowing users to identify previously-unknown flaws in the agent's reasoning. In addition, our analysis provides insight into how AI experts use this type of testing approach, which may help improve future instantiations.
翻訳日:2022-06-11 14:44:16 公開日:2022-06-04
# (参考訳) 測地線距離空間におけるmin-max最適化の一階アルゴリズム

First-Order Algorithms for Min-Max Optimization in Geodesic Metric Spaces ( http://arxiv.org/abs/2206.02041v1 )

ライセンス: CC BY 4.0
Michael I. Jordan, Tianyi Lin, Emmanouil-Vasileios Vlatakis-Gkaragkounis(参考訳) 最適輸送からロバスト次元還元まで、リーマン多様体上のmin-max最適化問題に多くの機械学習応用を投入することができる。 多くの min-max アルゴリズムはユークリッド設定で解析されているが、これらの結果をリーマンのケースに変換することは明らかである。 Zhang et al. 2022] 最近、測地線凸凸凸リーマン問題は常に鞍点解を許すことが示されている。 この結果から着想を得て、リーマン空間と最適ユークリッド空間凸凸アルゴリズムのパフォーマンスギャップが必要とされるかどうかを考察する。 我々は、リーマン補正超勾配法 (rceg) が、ユークリッド結果と一致する測地強凸凸対の場合の線形速度で最後の石英収束を達成することを負に答える。 また,rceg および riemanian gradient ascent descend (rgda) が多様体の曲率に依存する因子まで近似収束率を達成する確率的あるいは非スムースな場合にも拡張した。

From optimal transport to robust dimensionality reduction, a plethora of machine learning applications can be cast into the min-max optimization problems over Riemannian manifolds. Though many min-max algorithms have been analyzed in the Euclidean setting, it has proved elusive to translate these results to the Riemannian case. Zhang et al. [2022] have recently shown that geodesic convex concave Riemannian problems always admit saddle-point solutions. Inspired by this result, we study whether a performance gap between Riemannian and optimal Euclidean space convex-concave algorithms is necessary. We answer this question in the negative-we prove that the Riemannian corrected extragradient (RCEG) method achieves last-iterate convergence at a linear rate in the geodesically strongly-convex-concave case, matching the Euclidean result. Our results also extend to the stochastic or non-smooth case where RCEG and Riemanian gradient ascent descent (RGDA) achieve near-optimal convergence rates up to factors depending on curvature of the manifold.
翻訳日:2022-06-11 14:43:26 公開日:2022-06-04
# (参考訳) UAV支援多言語連携学習

UAV-Aided Multi-Community Federated Learning ( http://arxiv.org/abs/2206.02043v1 )

ライセンス: CC BY 4.0
Mohamad Mestoukirdi, Omid Esrafilian, David Gesbert, Qianrui Li(参考訳) 本研究では,複数の異なるコミュニティが存在する連合学習(fl)環境において,無人航空機(uav)のオンライン軌道設計の問題点について検討する。 この環境では、各コミュニティに属する空間分布デバイスが、UAVが提供する無線リンクを介して、コミュニティモデルのトレーニングに協力的に貢献する。 したがって、uavは、各コミュニティ内のデバイス間の送信と学習スケジュールを調整し、すべてのタスクの学習プロセスを加速するモバイルオーケストレータとして機能する。 異なるタスクのトレーニングパフォーマンスの指標として,ヒューリスティックメトリックを提案する。 この指標に基づき、凸最適化技術とグラフ理論を用いることで、UAV軌道と機器のスケジューリングを協調的に最適化できる代理目的を定義する。 シミュレーションでは、他の手作業による静的およびモバイルなUAVデプロイメントベースラインと比較して、ソリューションのアウトパフォーマンスが示されている。

In this work, we investigate the problem of an online trajectory design for an Unmanned Aerial Vehicle (UAV) in a Federated Learning (FL) setting where several different communities exist, each defined by a unique task to be learned. In this setting, spatially distributed devices belonging to each community collaboratively contribute towards training their community model via wireless links provided by the UAV. Accordingly, the UAV acts as a mobile orchestrator coordinating the transmissions and the learning schedule among the devices in each community, intending to accelerate the learning process of all tasks. We propose a heuristic metric as a proxy for the training performance of the different tasks. Capitalizing on this metric, a surrogate objective is defined which enables us to jointly optimize the UAV trajectory and the scheduling of the devices by employing convex optimization techniques and graph theory. The simulations illustrate the out-performance of our solution when compared to other handpicked static and mobile UAV deployment baselines.
翻訳日:2022-06-11 14:42:18 公開日:2022-06-04
# (参考訳) 話者固有のリップ・トゥ・音声生成の学習

Learning Speaker-specific Lip-to-Speech Generation ( http://arxiv.org/abs/2206.02050v1 )

ライセンス: CC BY 4.0
Munender Varshney, Ravindra Yadav, Vinay P. Namboodiri, Rajesh M Hegde(参考訳) 唇の動きを理解し、スピーチを推論することは、一般人にとっては難しいことで悪名高い。 正確な唇読みのタスクは、話者の様々な手がかりと、その文脈や環境設定から助けを得る。 各話者は異なるアクセントと話し方を持ち、視覚的特徴と音声的特徴から推測することができる。 本研究の目的は, 音声と個々の話者の唇の動きの順序との関係を, 制約のない大語彙で理解することである。 自動エンコーダ設定のトランスフォーマタに先立ってフレームシーケンスをモデル化し,音声とビデオの両方の時間的特性を利用するジョイント埋め込みを学習した。 入力された唇の動きと同期して音声を生成するためにデコーダを誘導するディープメトリック学習を用いて,時間同期を学習する。 したがって、予測後部は、発話スタイルで生成された音声を与える。 我々は, グリッドおよびlip2wav化学講義データセットを用いて, 自然環境下での唇運動から単一話者の自然音声生成タスクを評価するためのモデルを構築した。 また, 各種定性的, 定量的な測定値を用いた広範囲な評価により, 提案手法はLip2Wav Chemistry データセット(制約のない条件下での大規模語彙)をほぼすべての評価指標に対して良好なマージンで上回り, GRID データセットの最先端をわずかに上回ることがわかった。

Understanding the lip movement and inferring the speech from it is notoriously difficult for the common person. The task of accurate lip-reading gets help from various cues of the speaker and its contextual or environmental setting. Every speaker has a different accent and speaking style, which can be inferred from their visual and speech features. This work aims to understand the correlation/mapping between speech and the sequence of lip movement of individual speakers in an unconstrained and large vocabulary. We model the frame sequence as a prior to the transformer in an auto-encoder setting and learned a joint embedding that exploits temporal properties of both audio and video. We learn temporal synchronization using deep metric learning, which guides the decoder to generate speech in sync with input lip movements. The predictive posterior thus gives us the generated speech in speaker speaking style. We have trained our model on the Grid and Lip2Wav Chemistry lecture dataset to evaluate single speaker natural speech generation tasks from lip movement in an unconstrained natural setting. Extensive evaluation using various qualitative and quantitative metrics with human evaluation also shows that our method outperforms the Lip2Wav Chemistry dataset(large vocabulary in an unconstrained setting) by a good margin across almost all evaluation metrics and marginally outperforms the state-of-the-art on GRID dataset.
翻訳日:2022-06-11 14:27:39 公開日:2022-06-04
# (参考訳) パーソナライゼーションのハーム:予測におけるグループ属性の利用を再考する

When Personalization Harms: Reconsidering the Use of Group Attributes in Prediction ( http://arxiv.org/abs/2206.02058v1 )

ライセンス: CC BY 4.0
Vinith M. Suriyakumar, Marzyeh Ghassemi, Berk Ustun(参考訳) 機械学習におけるパーソナライズに対する標準的なアプローチは、性別、年齢、血液型といったグループ属性を持つモデルをトレーニングすることである。 本稿では,この個人化アプローチが,個人データを提供するすべてのグループのパフォーマンス向上に失敗していることを示す。 モデルがグループメンバーシップに基づいて予測を割り当てるアプリケーションにおいて、この効果がどう影響するかを論じる。 予測においてグループ属性の公正な使用を保証するため,集団選好保証を提案する。 モデル開発とデプロイメントの失敗により、パーソナライズに対する一般的なアプローチが公正な使用にどう影響するかを特徴付けます。 臨床予測モデルにおけるパーソナライゼーションの包括的実証研究を行う。 本研究は,公正な使用違反の発生率を浮き彫りにし,被害を軽減するための行動可能な介入を示し,個人データを提供するすべてのグループに対してパーソナライゼーションの利益を測定する必要性を強調する。

The standard approach to personalization in machine learning consists of training a model with group attributes like sex, age group, and blood type. In this work, we show that this approach to personalization fails to improve performance for all groups who provide personal data. We discuss how this effect inflicts harm in applications where models assign predictions on the basis of group membership. We propose collective preference guarantees to ensure the fair use of group attributes in prediction. We characterize how common approaches to personalization violate fair use due to failures in model development and deployment. We conduct a comprehensive empirical study of personalization in clinical prediction models. Our results highlight the prevalence of fair use violations, demonstrate actionable interventions to mitigate harm and underscore the need to measure the gains of personalization for all groups who provide personal data.
翻訳日:2022-06-11 14:07:04 公開日:2022-06-04
# (参考訳) 故障対応ニューラルコードランカ

Fault-Aware Neural Code Rankers ( http://arxiv.org/abs/2206.03865v1 )

ライセンス: CC BY 4.0
Jeevana Priya Inala, Chenglong Wang, Mei Yang, Andres Codas, Mark Encarnaci\'on, Shuvendu K Lahiri, Madanlal Musuvathi, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)は、様々なプログラミングタスクのためのコードを生成する素晴らしい能力を示している。 多くの場合、LSMは多数の試行を与えられたときにタスクの正しいプログラムを生成することができる。 その結果、最近の傾向は、モデルを用いてプログラムを大規模にサンプリングし、少数の既知の単体テストでプログラムの実行に基づいてプログラムをフィルタリング/ランク付けし、1つの候補解を選択することである。 しかし、これらの手法はユニットテストが与えられ、生成したプログラムを安全に実行(ファイル操作のような危険な操作を任意に行う)することができると仮定する。 上記の2つの仮定は、現実のソフトウェア開発では実用的でない。 本稿では,サンプルプログラムの実行を伴わずにプログラムの正確性を予測可能な,フォールトアウェア型ニューラルネットワークランカを提案する。 フォールトアウェアランカは、コンパイル/実行エラータイプ(indexerrorやtypeerrorなど)の正確な予測など、さまざまな種類の実行情報を予測するように訓練される。 我々は,APPS, HumanEval, MBPPデータセット上のコード生成モデル(Codex, GPT-Neo, GPT-Jなど)のパス@1精度を大幅に向上できることを示す。

Large language models (LLMs) have demonstrated an impressive ability to generate code for various programming tasks. In many instances, LLMs can generate a correct program for a task when given numerous trials. Consequently, a recent trend is to do large scale sampling of programs using a model and then filtering/ranking the programs based on the program execution on a small number of known unit tests to select one candidate solution. However, these approaches assume that the unit tests are given and assume the ability to safely execute the generated programs (which can do arbitrary dangerous operations such as file manipulations). Both of the above assumptions are impractical in real-world software development. In this paper, we propose fault-aware neural code rankers that can predict the correctness of a sampled program without executing it. The fault-aware rankers are trained to predict different kinds of execution information such as predicting the exact compile/runtime error type (e.g., an IndexError or a TypeError). We show that our fault-aware rankers can significantly increase the pass@1 accuracy of various code generation models (including Codex, GPT-Neo, GPT-J) on APPS, HumanEval and MBPP datasets.
翻訳日:2022-06-11 13:41:29 公開日:2022-06-04
# (参考訳) セットベース人工指紋を用いた生成モデルのロバスト表現学習

Learning Robust Representations Of Generative Models Using Set-Based Artificial Fingerprints ( http://arxiv.org/abs/2206.02067v1 )

ライセンス: CC BY 4.0
Hae Jin Song, Wael AbdAlmageed(参考訳) 近年の深層生成モデルの発展に伴い, 合成データの同定や生成過程の比較は, 視覚的誤報や情報源の帰属など, 様々な理由で必須課題となっている。 既存の手法はしばしばサンプル分布を通してモデル間の距離を近似する。 本稿では,生成モデルに残されている残余アーティファクトを,ソースモデルを特定するユニークな信号としてエンコードする表現を学習することにより,指紋生成モデルの問題にアプローチする。 これらのユニークな痕跡(すなわち「美術指紋」)を生成モデルの表現とみなし、ソース属性の識別的タスクと、基礎となるモデル間の類似性を定義する教師なしタスクの両方において有用性を示す。 まず,ganの指紋に関する既存の研究を4種類の生成モデル(vaes,flow,gans, score-based model)に拡張し,その存在と帰属性を示す。 次に,セットエンコーディングとコントラストトレーニングに基づく新しい学習手法を提案することにより,指紋の安定性と帰属性を向上させる。 我々のセットエンコーダは、個々の画像を操作する既存の方法とは異なり、画像の \textit{set} から指紋を学ぶ。 最新の指紋法とアブレーション研究との比較により,安定性と帰属性が向上した。 さらに,モデル間の暗黙的類似性を学ぶために,コントラストトレーニングを用いる。 標準階層クラスタリングアルゴリズムにおいて,このメトリクスを用いて生成モデルの潜在族を探索する。

With recent progress in deep generative models, the problem of identifying synthetic data and comparing their underlying generative processes has become an imperative task for various reasons, including fighting visual misinformation and source attribution. Existing methods often approximate the distance between the models via their sample distributions. In this paper, we approach the problem of fingerprinting generative models by learning representations that encode the residual artifacts left by the generative models as unique signals that identify the source models. We consider these unique traces (a.k.a. "artificial fingerprints") as representations of generative models, and demonstrate their usefulness in both the discriminative task of source attribution and the unsupervised task of defining a similarity between the underlying models. We first extend the existing studies on fingerprints of GANs to four representative classes of generative models (VAEs, Flows, GANs and score-based models), and demonstrate their existence and attributability. We then improve the stability and attributability of the fingerprints by proposing a new learning method based on set-encoding and contrastive training. Our set-encoder, unlike existing methods that operate on individual images, learns fingerprints from a \textit{set} of images. We demonstrate improvements in the stability and attributability through comparisons to state-of-the-art fingerprint methods and ablation studies. Further, our method employs contrastive training to learn an implicit similarity between models. We discover latent families of generative models using this metric in a standard hierarchical clustering algorithm.
翻訳日:2022-06-11 13:20:40 公開日:2022-06-04
# (参考訳) 深部画像の復元と拡張の優先順位について、皆が知る必要がある:調査

All One Needs to Know about Priors for Deep Image Restoration and Enhancement: A Survey ( http://arxiv.org/abs/2206.02070v1 )

ライセンス: CC BY 4.0
Yunfan Lu, Yiqi Lin, Hao Wu, Yunhao Luo, Xu Zheng, Lin Wang(参考訳) 画像の復元と改善は、ノイズ、ぼかし、分解などの劣化を取り除くことによって画質を改善するプロセスである。 深層学習(DL)は近年,画像修復と拡張に応用されている。 その不適切な性質のため、深層ニューラルネットワーク(dnn)のトレーニングを容易にするために、多くの先行研究がなされている。 しかし, 先行研究の重要性は, 研究コミュニティにおいて, 体系的に研究され, 分析されていない。 そこで本研究では,近年の深部画像復元・拡張の進展を包括的に概観する最初の研究として機能する。 Our work covers five primary contents: (1) A theoretical analysis of priors for deep image restoration and enhancement; (2) A hierarchical and structural taxonomy of priors commonly used in the DL-based methods; (3) An insightful discussion on each prior regarding its principle, potential, and applications; (4) A summary of crucial problems by highlighting the potential future directions to spark more research in the community; (5) An open-source repository that provides a taxonomy of all mentioned works and code links.

Image restoration and enhancement is a process of improving the image quality by removing degradations, such as noise, blur, and resolution degradation. Deep learning (DL) has recently been applied to image restoration and enhancement. Due to its ill-posed property, plenty of works have explored priors to facilitate training deep neural networks (DNNs). However, the importance of priors has not been systematically studied and analyzed by far in the research community. Therefore, this paper serves as the first study that provides a comprehensive overview of recent advancements of priors for deep image restoration and enhancement. Our work covers five primary contents: (1) A theoretical analysis of priors for deep image restoration and enhancement; (2) A hierarchical and structural taxonomy of priors commonly used in the DL-based methods; (3) An insightful discussion on each prior regarding its principle, potential, and applications; (4) A summary of crucial problems by highlighting the potential future directions to spark more research in the community; (5) An open-source repository that provides a taxonomy of all mentioned works and code links.
翻訳日:2022-06-11 13:04:00 公開日:2022-06-04
# 低出力神経形EMGジェスチャー分類

Low Power Neuromorphic EMG Gesture Classification ( http://arxiv.org/abs/2206.02061v1 )

ライセンス: Link先を確認
Sai Sukruth Bezugam, Ahmed Shaban, Manan Suri(参考訳) EMG(Electromyograph)信号に基づくジェスチャー認識は、スマートウェアラブルやバイオメディカル神経補綴制御などの応用に不可欠である。 Spiking Neural Networks(SNN)は、スパイク/イベント駆動の時空間ダイナミクスにより、低消費電力でリアルタイムなEMGジェスチャー認識を約束している。 文献では、EMGジェスチャー分類のためのニューロモルフィックハードウェア実装(フルチップ/ボード/システムスケール)のデモが限られている。 さらに、ほとんどの文献はLIF(Leaky Integrate and Fire)ニューロンに基づいた原始的なSNNを利用する。 本研究では,1)ニューロモルフィック・リカレントスパイキングニューラルネットワーク(RSNN)を用いたEMG信号に基づくジェスチャー認識の低消費電力,高精度な実演を行う。 特に,特殊な2重指数適応閾値(dexat)ニューロンを用いた多時間再帰神経形態システムを提案する。 このネットワークは最先端の分類精度(90%)を実現し、roshambo emgデータセットで報告されているものよりも約53%少ないニューロンを用いている。 2)ニューロモルフィックシステムにおける実数値EMGデータの効率的な処理のための新しいマルチチャネルスパイクエンコーダ方式 3)intelの専用ニューロモルフィックloihiチップに複雑な適応ニューロンを実装するための一意なマルチコンパートメント手法を示す。 (4)Loihi(Nahuku 32)のRSNN実装は,バッチサイズ50のGPUと比較して,983X/19Xのエネルギー/レイテンシの大幅なメリットを実現している。

EMG (Electromyograph) signal based gesture recognition can prove vital for applications such as smart wearables and bio-medical neuro-prosthetic control. Spiking Neural Networks (SNNs) are promising for low-power, real-time EMG gesture recognition, owing to their inherent spike/event driven spatio-temporal dynamics. In literature, there are limited demonstrations of neuromorphic hardware implementation (at full chip/board/system scale) for EMG gesture classification. Moreover, most literature attempts exploit primitive SNNs based on LIF (Leaky Integrate and Fire) neurons. In this work, we address the aforementioned gaps with following key contributions: (1) Low-power, high accuracy demonstration of EMG-signal based gesture recognition using neuromorphic Recurrent Spiking Neural Networks (RSNN). In particular, we propose a multi-time scale recurrent neuromorphic system based on special double-exponential adaptive threshold (DEXAT) neurons. Our network achieves state-of-the-art classification accuracy (90%) while using ~53% lesser neurons than best reported prior art on Roshambo EMG dataset. (2) A new multi-channel spike encoder scheme for efficient processing of real-valued EMG data on neuromorphic systems. (3) Unique multi-compartment methodology to implement complex adaptive neurons on Intel's dedicated neuromorphic Loihi chip is shown. (4) RSNN implementation on Loihi (Nahuku 32) achieves significant energy/latency benefits of ~983X/19X compared to GPU for batch size as 50.
翻訳日:2022-06-08 16:54:38 公開日:2022-06-04
# モデルを決定する: 強化学習のための価値等価サンプリング

Deciding What to Model: Value-Equivalent Sampling for Reinforcement Learning ( http://arxiv.org/abs/2206.02072v1 )

ライセンス: Link先を確認
Dilip Arumugam and Benjamin Van Roy(参考訳) quintessential modelベースの強化学習エージェントは、環境の真の基礎となるモデルに関する見積もりや事前の信念を反復的に洗練します。 機能近似を用いたモデルベース強化学習における近年の実証的成功は、環境の様々な側面を無視しつつも、効果的な行動計画を促進するサロゲートを好んで、真のモデルを考案している。 最近、値同値原理として定式化されたこのアルゴリズム手法は、非常に複雑な環境と相互作用する単純で計算力に縛られたエージェントを考慮に入れる実世界の強化学習要求として、おそらく避けられない。 本研究では,エージェントの制約が,真に等価なモデルを特定することを完全に妨げる可能性があり,有界な部分最適性のみを伴いながら,学習に十分簡単なモデルを特定することのトレードオフを即座に生じさせるシナリオについて考察する。 この問題に対処するために,エージェントが真モデルの代わりにターゲットにできる環境のほぼ等価で損失の多い圧縮を,レート歪み理論を用いて反復的に計算するアルゴリズムを導入する。 有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。 重要なことに、我々の後悔の限界は2つの可能な形式のうちの1つで表され、所望の準最適ギャップを達成する最も単純なモデルを見つけるための性能保証を提供する。

The quintessential model-based reinforcement-learning agent iteratively refines its estimates or prior beliefs about the true underlying model of the environment. Recent empirical successes in model-based reinforcement learning with function approximation, however, eschew the true model in favor of a surrogate that, while ignoring various facets of the environment, still facilitates effective planning over behaviors. Recently formalized as the value equivalence principle, this algorithmic technique is perhaps unavoidable as real-world reinforcement learning demands consideration of a simple, computationally-bounded agent interacting with an overwhelmingly complex environment, whose underlying dynamics likely exceed the agent's capacity for representation. In this work, we consider the scenario where agent limitations may entirely preclude identifying an exactly value-equivalent model, immediately giving rise to a trade-off between identifying a model that is simple enough to learn while only incurring bounded sub-optimality. To address this problem, we introduce an algorithm that, using rate-distortion theory, iteratively computes an approximately-value-equivalent, lossy compression of the environment which an agent may feasibly target in lieu of the true model. We prove an information-theoretic, Bayesian regret bound for our algorithm that holds for any finite-horizon, episodic sequential decision-making problem. Crucially, our regret bound can be expressed in one of two possible forms, providing a performance guarantee for finding either the simplest model that achieves a desired sub-optimality gap or, alternatively, the best model given a limit on agent capacity.
翻訳日:2022-06-07 18:30:01 公開日:2022-06-04
# 安定保証をもつ未知非線形系のニューラルリアプノフ制御

Neural Lyapunov Control of Unknown Nonlinear Systems with Stability Guarantees ( http://arxiv.org/abs/2206.01913v1 )

ライセンス: Link先を確認
Ruikun Zhou, Thanin Quartz, Hans De Sterck, Jun Liu(参考訳) 正式な保証付き動的システムの制御を学ぶことは、依然として困難な課題である。 本稿では,ニューラルコントローラを用いて未知の非線形システムを安定させ,ニューラルリアプノフ関数を学習し,閉ループシステムのアトラクション領域(roa)を証明する学習フレームワークを提案する。 アルゴリズム構造は、2つのニューラルネットワークと満足度変調理論(SMT)ソルバから構成される。 最初のニューラルネットワークは、未知のダイナミクスを学ぶ責任がある。 第2のニューラルネットワークは、有効なリアプノフ関数と、安定可能な非線形制御器を特定することを目的としている。 SMTソルバは、候補のリャプノフ函数が実際にリャプノフ条件を満たすことを検証する。 未知の非線形システムに対する閉ループ安定性の観点から,提案手法の理論的保証を提供する。 数値実験によるアプローチの有効性について述べる。

Learning for control of dynamical systems with formal guarantees remains a challenging task. This paper proposes a learning framework to simultaneously stabilize an unknown nonlinear system with a neural controller and learn a neural Lyapunov function to certify a region of attraction (ROA) for the closed-loop system. The algorithmic structure consists of two neural networks and a satisfiability modulo theories (SMT) solver. The first neural network is responsible for learning the unknown dynamics. The second neural network aims to identify a valid Lyapunov function and a provably stabilizing nonlinear controller. The SMT solver then verifies that the candidate Lyapunov function indeed satisfies the Lyapunov conditions. We provide theoretical guarantees of the proposed learning framework in terms of the closed-loop stability for the unknown nonlinear system. We illustrate the effectiveness of the approach with a set of numerical experiments.
翻訳日:2022-06-07 18:25:31 公開日:2022-06-04
# ニューラルネットワークを用いた部分微分方程式に対するモンテカルロ変分法

Variational Monte Carlo Approach to Partial Differential Equations with Neural Networks ( http://arxiv.org/abs/2206.01927v1 )

ライセンス: Link先を確認
Moritz Reh, Martin G\"arttner(参考訳) 偏微分方程式の正確な数値解法は、応用シナリオに応じて特殊解法を用いることで、幅広い自然現象をモデル化できる解析における中心的な課題である。 本稿では,高次元確率分布の進化を規定する偏微分方程式の変分的解法を考案する。 我々のアプローチは自然に非有界連続領域に作用し、その変動パラメータを通して全確率密度関数を符号化し、その密度のダイナミクスを最適に反映するために進化中に動的に適応する。 検討したベンチマークケースでは,従来の計算手法では到達不能なレジームにおける解析解と同様に,数値解との優れた一致が観察される。

The accurate numerical solution of partial differential equations is a central task in numerical analysis allowing to model a wide range of natural phenomena by employing specialized solvers depending on the scenario of application. Here, we develop a variational approach for solving partial differential equations governing the evolution of high dimensional probability distributions. Our approach naturally works on the unbounded continuous domain and encodes the full probability density function through its variational parameters, which are adapted dynamically during the evolution to optimally reflect the dynamics of the density. For the considered benchmark cases we observe excellent agreement with numerical solutions as well as analytical solutions in regimes inaccessible to traditional computational approaches.
翻訳日:2022-06-07 18:25:19 公開日:2022-06-04
# コンピュータトモグラフィーとX線画像によるコロナウイルス病予測のための深部放射線分析

Deep Radiomic Analysis for Predicting Coronavirus Disease 2019 in Computerized Tomography and X-ray Images ( http://arxiv.org/abs/2206.01903v1 )

ライセンス: Link先を確認
Ahmad Chaddad, Lama Hassan, Christian Desrosiers(参考訳) 本稿では,ガウス混合モデルを用いて畳み込みニューラルネットワークから学習した特徴の分布を符号化する。 これらのパラメトリックな特徴は、GMM-CNNと呼ばれ、Coronavirus Disease 2019患者の胸部CTとX線スキャンに由来する。 提案するgmm-cnn機能をランダム林に基づくロバスト分類器の入力として使用し,covid-19と他の肺炎との鑑別を行った。 テスト画像の標準CNN分類と比較して,GMM-CNNの利点を評価する。 GMM-CNNは、ランダムな森林分類器(80 %のトレーニング用サンプル、20 %の試験用サンプル)を用いて、2 つの混合成分を符号化し、標準的な CNN 分類(p\,$<$\,0.05)よりもはるかに優れた性能を示した。 具体的には、96.00\,--,96.70\%の範囲と、99.29\,--,99.45\%の範囲において、計算トモグラフィーとX線画像の両方からGMM-CNN特徴を合成して得られる最高の性能を達成した。 以上の結果から,GMM-CNNは胸部CTおよびX線検査で新型コロナウイルスの予測を改善できる可能性が示唆された。

This paper proposes to encode the distribution of features learned from a convolutional neural network using a Gaussian Mixture Model. These parametric features, called GMM-CNN, are derived from chest computed tomography and X-ray scans of patients with Coronavirus Disease 2019. We use the proposed GMM-CNN features as input to a robust classifier based on random forests to differentiate between COVID-19 and other pneumonia cases. Our experiments assess the advantage of GMM-CNN features compared to standard CNN classification on test images. Using a random forest classifier (80\% samples for training; 20\% samples for testing), GMM-CNN features encoded with two mixture components provided a significantly better performance than standard CNN classification (p\,$<$\,0.05). Specifically, our method achieved an accuracy in the range of 96.00\,--\,96.70\% and an area under the ROC curve in the range of 99.29\,--\,99.45\%, with the best performance obtained by combining GMM-CNN features from both computed tomography and X-ray images. Our results suggest that the proposed GMM-CNN features could improve the prediction of COVID-19 in chest computed tomography and X-ray scans.
翻訳日:2022-06-07 18:04:27 公開日:2022-06-04
# l^2$物理インフォームド損失は、常に物理インフォームドニューラルネットワークのトレーニングに適しているか?

Is $L^2$ Physics-Informed Loss Always Suitable for Training Physics-Informed Neural Network? ( http://arxiv.org/abs/2206.02016v1 )

ライセンス: Link先を確認
Chuwei Wang, Shanda Li, Di He, Liwei Wang(参考訳) 物理学に変形したニューラルネットワーク(pinn)アプローチは、深層学習を用いて偏微分方程式を解く新しい有望な方法である。 L^2$物理インフォームド・ロスは物理インフォームド・ニューラルネットワークのトレーニングにおけるデファクト標準である。 本稿では,学習した解の損失関数と近似品質の関係を調査することによって,この共通的な実践に挑戦する。 特に、偏微分方程式の文献における安定性の概念を利用して、損失がゼロに近づくにつれて学習した解の漸近的挙動を研究する。 この概念を用いて、最適制御における高次元非線形PDEの重要なクラスであるハミルトン・ヤコビ・ベルマン(HJB)方程式を研究し、一般の$L^p$物理インフォームドロスに対して、HJB方程式の広いクラスが安定であることを証明する。 したがって、一般的に用いられる$L^2$損失はこれらの方程式でPINNを訓練するのに適さないが、$L^{\infty}$損失の方がよい選択である。 理論的知見に基づいて,HJB方程式に対する$L^{\infty}$損失を最小限に抑える新しいPINNトレーニングアルゴリズムを開発した。 提案アルゴリズムの有効性を実験により実証した。

The Physics-Informed Neural Network (PINN) approach is a new and promising way to solve partial differential equations using deep learning. The $L^2$ Physics-Informed Loss is the de-facto standard in training Physics-Informed Neural Networks. In this paper, we challenge this common practice by investigating the relationship between the loss function and the approximation quality of the learned solution. In particular, we leverage the concept of stability in the literature of partial differential equation to study the asymptotic behavior of the learned solution as the loss approaches zero. With this concept, we study an important class of high-dimensional non-linear PDEs in optimal control, the Hamilton-Jacobi-Bellman(HJB) Equation, and prove that for general $L^p$ Physics-Informed Loss, a wide class of HJB equation is stable only if $p$ is sufficiently large. Therefore, the commonly used $L^2$ loss is not suitable for training PINN on those equations, while $L^{\infty}$ loss is a better choice. Based on the theoretical insight, we develop a novel PINN training algorithm to minimize the $L^{\infty}$ loss for HJB equations which is in a similar spirit to adversarial training. The effectiveness of the proposed algorithm is empirically demonstrated through experiments.
翻訳日:2022-06-07 18:00:14 公開日:2022-06-04
# モデルベース強化学習におけるレートゆがみ理論と値同値の関係

Between Rate-Distortion Theory & Value Equivalence in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2206.02025v1 )

ライセンス: Link先を確認
Dilip Arumugam and Benjamin Van Roy(参考訳) quintessential modelベースの強化学習エージェントは、環境の真の基礎となるモデルに関する見積もりや事前の信念を反復的に洗練します。 機能近似を用いたモデルベース強化学習における近年の実証的成功は、環境の様々な側面を無視しつつも、効果的な行動計画を促進するサロゲートを好んで、真のモデルを考案している。 近年、値同値原理として定式化されたこのアルゴリズムは、非常に複雑な環境と相互作用する単純で計算に拘束されたエージェントを考慮した実世界の強化学習を必要とするため、おそらく避けられない。 本研究では,環境の複雑さと限られたエージェント能力の組み合わせが,真に等価なモデルを特定することを妨げるという極端なシナリオを享受する。 これを踏まえ、近似値等価性の概念を導入し、エージェントが近い最適動作を回復する可能性のある環境の単純で有用な近似を漸進的に合成するアルゴリズムを導入する。 重要なことは、この損失のある環境圧縮問題の情報理論的性質を認識し、値の等価性がトラクタビリティを他の難解な逐次決定問題にもたらすかを数学的に正確にするために、レート歪曲理論の適切なツールを使用する。

The quintessential model-based reinforcement-learning agent iteratively refines its estimates or prior beliefs about the true underlying model of the environment. Recent empirical successes in model-based reinforcement learning with function approximation, however, eschew the true model in favor of a surrogate that, while ignoring various facets of the environment, still facilitates effective planning over behaviors. Recently formalized as the value equivalence principle, this algorithmic technique is perhaps unavoidable as real-world reinforcement learning demands consideration of a simple, computationally-bounded agent interacting with an overwhelmingly complex environment. In this work, we entertain an extreme scenario wherein some combination of immense environment complexity and limited agent capacity entirely precludes identifying an exactly value-equivalent model. In light of this, we embrace a notion of approximate value equivalence and introduce an algorithm for incrementally synthesizing simple and useful approximations of the environment from which an agent might still recover near-optimal behavior. Crucially, we recognize the information-theoretic nature of this lossy environment compression problem and use the appropriate tools of rate-distortion theory to make mathematically precise how value equivalence can lend tractability to otherwise intractable sequential decision-making problems.
翻訳日:2022-06-07 17:59:48 公開日:2022-06-04
# 条件確率最適化のための有限分散をもつ非バイアス勾配推定器の構成

Constructing unbiased gradient estimators with finite variance for conditional stochastic optimization ( http://arxiv.org/abs/2206.01991v1 )

ライセンス: Link先を確認
Takashi Goda, Wataru Kitade(参考訳) 条件付き確率最適化問題に対する確率勾配降下法について検討し, 最小化の目的を, 1つの確率変数に対する外的期待値と他の確率変数に対する内的条件付き期待値とのパラメトリックネステッド期待値によって与える。 このようなパラメトリックなネスト期待の勾配は再びネスト期待として表現され、標準のネストされたモンテカルロ推定器が偏りなくなってしまう。 本稿では,マルチレベルモンテカルロ勾配推定器が偏りがなく,有限分散と有限期待計算コストを持つ条件下で,パラメトリック(非負)期待に対する確率的最適化による標準理論を直接適用できることを示す。 また,有限分散とコストを持つ非バイアス勾配推定器を構築できる特別な場合についても考察する。

We study stochastic gradient descent for solving conditional stochastic optimization problems, in which an objective to be minimized is given by a parametric nested expectation with an outer expectation taken with respect to one random variable and an inner conditional expectation with respect to the other random variable. The gradient of such a parametric nested expectation is again expressed as a nested expectation, which makes it hard for the standard nested Monte Carlo estimator to be unbiased. In this paper, we show under some conditions that a multilevel Monte Carlo gradient estimator is unbiased and has finite variance and finite expected computational cost, so that the standard theory from stochastic optimization for a parametric (non-nested) expectation directly applies. We also discuss a special case for which yet another unbiased gradient estimator with finite variance and cost can be constructed.
翻訳日:2022-06-07 17:39:38 公開日:2022-06-04
# 異種無線ネットワークにおける分散機械学習のためのハイブリッドアーキテクチャ

Hybrid Architectures for Distributed Machine Learning in Heterogeneous Wireless Networks ( http://arxiv.org/abs/2206.01906v1 )

ライセンス: Link先を確認
Zhipeng Cheng, Xuwei Fan, Minghui Liwang, Minghui Min, Xianbin Wang, Xiaojiang Du(参考訳) データプライバシの懸念は、マシンラーニング(ML)アーキテクチャを集中型から分散型に転換し、最もポピュラーな2つのプライバシ保護MLパラダイムとして、フェデレーションラーニング(FL)とスプリットラーニング(SL)につながった。 しかしながら、さまざまなネットワーク条件(デバイス間(d2d)やセル通信など)と異種クライアント(ヘテロジニアスな計算/通信/エネルギー能力など)を備えた従来のflまたはsl単独の実装は、アーキテクチャのスケーラビリティの低下やトレーニング時間の長い問題に直面する可能性がある。 本稿では,D2D対応ヘテロジニアス無線ネットワークにおけるFLとSLの利点を組み合わせることで,ハイブリッドスプリットFL(HSFL)とハイブリッドフェデレーションSL(HFSL)の2つの新しいハイブリッド分散MLアーキテクチャを提案する。 具体的には、HSFLとHFSLの性能比較と利点を概ね分析する。 今後の研究の参考として、オープンな研究の方向性を示す。 最後に,非独立かつ同一分散環境下での3つのデータセットを考察し,提案するアーキテクチャの実現可能性を検証することにより,従来のflおよびslと比較して通信/計算コストとトレーニング時間を著しく削減する。

The ever-growing data privacy concerns have transformed machine learning (ML) architectures from centralized to distributed, leading to federated learning (FL) and split learning (SL) as the two most popular privacy-preserving ML paradigms. However, implementing either conventional FL or SL alone with diverse network conditions (e.g., device-to-device (D2D) and cellular communications) and heterogeneous clients (e.g., heterogeneous computation/communication/energy capabilities) may face significant challenges, particularly poor architecture scalability and long training time. To this end, this article proposes two novel hybrid distributed ML architectures, namely, hybrid split FL (HSFL) and hybrid federated SL (HFSL), by combining the advantages of both FL and SL in D2D-enabled heterogeneous wireless networks. Specifically, the performance comparison and advantages of HSFL and HFSL are analyzed generally. Promising open research directions are presented to offer commendable reference for future research. Finally, primary simulations are conducted upon considering three datasets under non-independent and identically distributed settings, to verify the feasibility of our proposed architectures, which can significantly reduce communication/computation cost and training time, as compared with conventional FL and SL.
翻訳日:2022-06-07 17:37:34 公開日:2022-06-04
# グラフニューラルネットワークとGNNExplainerによる脳結合性の調査

Investigating Brain Connectivity with Graph Neural Networks and GNNExplainer ( http://arxiv.org/abs/2206.01930v1 )

ライセンス: Link先を確認
Maksim Zhdanov, Saskia Steinmann and Nico Hoffmann(参考訳) 機能的接続は現代の神経科学において重要な役割を担っている。 モダリティは、複数の病理の背後にあるメカニズムを含む、脳の機能的および構造的側面に光を放つ。 そのような病理の1つは統合失調症であり、しばしば聴覚の幻覚が続く。 後者は、音声処理中に機能的接続を観測することでよく研究される。 本研究は,統合失調症患者の聴覚的幻覚と健康管理の3つのグループを対象とした,ディープラーニングによる音声聴取作業における機能的接続性について,より深く検討した。 本稿では,脳波データをグラフ領域の信号として表現するグラフニューラルネットワークに基づくフレームワークを提案する。 フレームワークによって 1)脳波記録に基づく脳心疾患の予測 2)各グループにおける聞き取り状態と休息状態とを区別する。 3) タスク依存接続の特徴を認識する。 実験結果から,提案モデルでは上記のグループを最先端の性能で区別できることがわかった。 さらに、研究者に各グループの機能的接続に関する有意義な情報を提供し、現在のドメイン知識に基づいて検証した。

Functional connectivity plays an essential role in modern neuroscience. The modality sheds light on the brain's functional and structural aspects, including mechanisms behind multiple pathologies. One such pathology is schizophrenia which is often followed by auditory verbal hallucinations. The latter is commonly studied by observing functional connectivity during speech processing. In this work, we have made a step toward an in-depth examination of functional connectivity during a dichotic listening task via deep learning for three groups of people: schizophrenia patients with and without auditory verbal hallucinations and healthy controls. We propose a graph neural network-based framework within which we represent EEG data as signals in the graph domain. The framework allows one to 1) predict a brain mental disorder based on EEG recording, 2) differentiate the listening state from the resting state for each group and 3) recognize characteristic task-depending connectivity. Experimental results show that the proposed model can differentiate between the above groups with state-of-the-art performance. Besides, it provides a researcher with meaningful information regarding each group's functional connectivity, which we validated on the current domain knowledge.
翻訳日:2022-06-07 17:36:55 公開日:2022-06-04
# 変動型オートエンコーダを用いた神経画像データの学習生成因子

Learning Generative Factors of Neuroimaging Data with Variational auto-encoders ( http://arxiv.org/abs/2206.01939v1 )

ライセンス: Link先を確認
Maksim Zhdanov, Saskia Steinmann and Nico Hoffmann(参考訳) ニューロイメージング技術は、興味のある現象に関する高いレベルの知識を抽出するのが難しい、高次元の確率的なデータを生成する。 生成モデリングの枠組みを応用することでこの問題に対処する。 1)複数の病理を分類する。 2)これらの病理の神経学的メカニズムをデータ駆動的に回復し, 3)神経画像データの堅牢な表現を学ぶ。 統合失調症(統合失調症)を聴覚幻覚で識別する手法の適用性について検討した。 我々はさらに,現在のドメイン知識と整合する疾患関連メカニズムを学習するフレームワークの能力を実証する。 また,提案フレームワークをいくつかのベンチマーク手法と比較し,その利点を示す。

Neuroimaging techniques produce high-dimensional, stochastic data from which it might be challenging to extract high-level knowledge about the phenomena of interest. We address this challenge by applying the framework of generative modelling to 1) classify multiple pathologies, 2) recover neurological mechanisms of those pathologies in a data-driven manner and 3) learn robust representations of neuroimaging data. We illustrate the applicability of the proposed approach to identifying schizophrenia, either followed or not by auditory verbal hallucinations. We further demonstrate the ability of the framework to learn disease-related mechanisms that are consistent with current domain knowledge. We also compare the proposed framework with several benchmark approaches and indicate its advantages.
翻訳日:2022-06-07 17:36:36 公開日:2022-06-04
# 自然言語の形式的仕様

Formal Specifications from Natural Language ( http://arxiv.org/abs/2206.01962v1 )

ライセンス: Link先を確認
Christopher Hahn, Frederik Schmitt, Julia J. Tillman, Niklas Metzger, Julian Siber, Bernd Finkbeiner(参考訳) 自然言語を複雑な意味論を持つ形式的仕様に翻訳する言語モデルの能力について検討する。 特に、構造化英語文とそれに対応する形式表現からなる3つのデータセット上で、オフザシェルフ言語モデルを微調整する。 1) ソフトウェア検証及び定理証明に一般的に使用される一階述語論理(FOL) 2) 産業用ハードウェア仕様言語の基礎となる線形時間時相論理(LTL) 3)正規表現(regex)は、プログラミングや検索で頻繁に使用される。 これらの多種多様なドメインにおいて、言語モデルは、アクセスが容易で、安価で微調整が可能で、ドメイン固有の推論を特に必要とせずに、各最先端技術に対して競争力を発揮する。 さらに、言語モデルにはユニークなセールスポイントがあることを示し、自然言語に関する事前学習された知識(例えば、未知の変数名への一般化)から一般化能力の恩恵を受ける。

We study the ability of language models to translate natural language into formal specifications with complex semantics. In particular, we fine-tune off-the-shelf language models on three datasets consisting of structured English sentences and their corresponding formal representation: 1) First-order logic (FOL), commonly used in software verification and theorem proving; 2) linear-time temporal logic (LTL), which forms the basis for industrial hardware specification languages; and 3) regular expressions (regex), frequently used in programming and search. Our experiments show that, in these diverse domains, the language models achieve competitive performance to the respective state-of-the-art with the benefits of being easy to access, cheap to fine-tune, and without a particular need for domain-specific reasoning. Additionally, we show that the language models have a unique selling point: they benefit from their generalization capabilities from pre-trained knowledge on natural language, e.g., to generalize to unseen variable names.
翻訳日:2022-06-07 17:36:26 公開日:2022-06-04
# MILP用ヒューリスティック分岐境界解法の設計と実装

Design and Implementation of an Heuristic-Enhanced Branch-and-Bound Solver for MILP ( http://arxiv.org/abs/2206.01857v1 )

ライセンス: Link先を確認
Warley Almeida Silva, Federico Bobbio, Flore Caye, Defeng Liu, Justine Pepin, Carl Perreault-Lafleur, William St-Arnaud(参考訳) 本稿では,MIPコンペティション2022のために開発されたMixed Integer Programs(MIP)について述べる。 コンペティションのルールによって確立された計算時間に10分を割って考えると、本手法は実現可能な解を見つけ、分岐境界アルゴリズムにより改善することに焦点を当てる。 コンペティションの別のルールは、最大8スレッドの使用を可能にする。 各スレッドは、実現可能な解を見つけるために、ハイパーパラメータによって調整された異なる基本ヒューリスティックを与える。 すべてのスレッドで、実現可能なソリューションが見つかると停止し、ローカル検索ヒューリスティックを組み込んだブランチ・アンド・バウンドメソッドを使用して、既存のソリューションを改善する。 私たちが実装したダイビングヒューリスティックの3つの変種は、トレーニングデータセットの10インスタンスに対して実現可能なソリューションを見つけることができました。 これらのヒューリスティックスは、我々が実施したヒューリスティックの中で最高のパフォーマンスである。 我々のブランチ・アンド・バウンドアルゴリズムはトレーニングデータセットのごく一部で有効であり、Divingヒューリスティックスでは解けないインスタンスに対して、既存の実現可能な解を見つけることができる。 全体として,計算能力の広範な実装を行う場合,学習データセットの19問題のうち11問題を時間制限内で解くことができる。 mipコンペティションへの私たちの応募は、"outstanding student submit"を授与されました。

We present a solver for Mixed Integer Programs (MIP) developed for the MIP competition 2022. Given the 10 minutes bound on the computational time established by the rules of the competition, our method focuses on finding a feasible solution and improves it through a Branch-and-Bound algorithm. Another rule of the competition allows the use of up to 8 threads. Each thread is given a different primal heuristic, which has been tuned by hyper-parameters, to find a feasible solution. In every thread, once a feasible solution is found, we stop and we use a Branch-and-Bound method, embedded with local search heuristics, to ameliorate the incumbent solution. The three variants of the Diving heuristic that we implemented manage to find a feasible solution for 10 instances of the training data set. These heuristics are the best performing among the heuristics that we implemented. Our Branch-and-Bound algorithm is effective on a small portion of the training data set, and it manages to find an incumbent feasible solution for an instance that we could not solve with the Diving heuristics. Overall, our combined methods, when implemented with extensive computational power, can solve 11 of the 19 problems of the training data set within the time limit. Our submission to the MIP competition was awarded the "Outstanding Student Submission" honorable mention.
翻訳日:2022-06-07 17:20:22 公開日:2022-06-04
# Poisson2Sparse:1枚の画像から自己監督されたPoisson

Poisson2Sparse: Self-Supervised Poisson Denoising From a Single Image ( http://arxiv.org/abs/2206.01856v1 )

ライセンス: Link先を確認
Calvin-Khang Ta, Abhishek Aich, Akash Gupta, Amit K. Roy-Chowdhury(参考訳) 画像強調手法はしばしばノイズが信号独立であると仮定し、劣化モデルをゼロ平均加法的ガウス雑音として近似する。 しかし、この仮定は、センサベースのノイズ源が信号強度に比例し、ノイズがポアソン過程としてより良く表現されるバイオメディカルイメージングシステムには当てはまらない。 本研究では,スパルシリティと辞書学習に基づくアプローチを探求し,ノイズをポアソンプロセスとして近似し,クリーンな地中データを必要としない単画像の自己教師付き学習手法を提案する。 具体的には,ネットワークの重み付けに対してスパーシティを強制するリカレントニューラルネットワークを用いて,画像分割のための従来の反復最適化アルゴリズムを近似する。 スパース表現は下層のイメージに基づいているため、画像パッチ内のスプリアス成分(ノイズ)を抑えることができ、ネットワーク構造を介してタスクを復調するための暗黙の正規化を導入することができる。 2つのバイオイメージングデータセットを用いた実験により,PSNRおよびSSIMの観点から,本手法が最先端のアプローチより優れていることが示された。 定性的な結果から、標準量的メトリクスのパフォーマンス向上に加えて、他の比較アプローチよりもはるかに微妙な詳細を回復できることが示されています。

Image enhancement approaches often assume that the noise is signal independent, and approximate the degradation model as zero-mean additive Gaussian noise. However, this assumption does not hold for biomedical imaging systems where sensor-based sources of noise are proportional to signal strengths, and the noise is better represented as a Poisson process. In this work, we explore a sparsity and dictionary learning-based approach and present a novel self-supervised learning method for single-image denoising where the noise is approximated as a Poisson process, requiring no clean ground-truth data. Specifically, we approximate traditional iterative optimization algorithms for image denoising with a recurrent neural network which enforces sparsity with respect to the weights of the network. Since the sparse representations are based on the underlying image, it is able to suppress the spurious components (noise) in the image patches, thereby introducing implicit regularization for denoising task through the network structure. Experiments on two bio-imaging datasets demonstrate that our method outperforms the state-of-the-art approaches in terms of PSNR and SSIM. Our qualitative results demonstrate that, in addition to higher performance on standard quantitative metrics, we are able to recover much more subtle details than other compared approaches.
翻訳日:2022-06-07 17:12:30 公開日:2022-06-04
# APES:スプライトシートからの人工部品抽出

APES: Articulated Part Extraction from Sprite Sheets ( http://arxiv.org/abs/2206.02015v1 )

ライセンス: Link先を確認
Zhan Xu, Matthew Fisher, Yang Zhou, Deepali Aneja, Rushikesh Dudhat, Li Yi, Evangelos Kalogerakis(参考訳) リグジット人形は、2dキャラクタアニメーションを作成する最も一般的な表現の1つです。 これらの人形を作成するには、文字を独立して動く部分に分割する必要がある。 本研究では,人形制作に先立ってアーティストが絵を描くキャラクターの挿絵であるスプライトシートに表示された,少数の人物ポーズから,そのような構音部分を自動的に識別する手法を提案する。 本手法は, 所定のポーズを最もよく再現するために再組み立て可能な頭部, 胴部, 四肢などの関節部を推定する訓練を行う。 私たちのプロジェクトページ https://zhan-xu.github.io/parts/ にはコードとデータが含まれています。

Rigged puppets are one of the most prevalent representations to create 2D character animations. Creating these puppets requires partitioning characters into independently moving parts. In this work, we present a method to automatically identify such articulated parts from a small set of character poses shown in a sprite sheet, which is an illustration of the character that artists often draw before puppet creation. Our method is trained to infer articulated parts, e.g. head, torso and limbs, that can be re-assembled to best reconstruct the given poses. Our results demonstrate significantly better performance than alternatives qualitatively and quantitatively.Our project page https://zhan-xu.github.io/parts/ includes our code and data.
翻訳日:2022-06-07 17:12:08 公開日:2022-06-04
# メッシュフリー逆障害物散乱のための入射神経表現法

Implicit Neural Representation for Mesh-Free Inverse Obstacle Scattering ( http://arxiv.org/abs/2206.02027v1 )

ライセンス: Link先を確認
Tin Vla\v{s}i\'c, Hieu Nguyen, Ivan Dokmani\'c(参考訳) 多層パーセプトロンのレベルセットとしての形状のインプシット表現は、最近、形状解析、圧縮、再構成タスクで栄えている。 本稿では,メッシュフリーで逆障害物散乱問題を解決する暗黙のニューラルネットワーク表現に基づくフレームワークを提案する。 少数のネットワークパラメータによって暗黙的に決定される符号付き距離関数のゼロレベル集合として障害物形状を効率的に表現する。 直接散乱問題を解決するために,暗黙境界積分法を実装した。 管状近傍の格子点を境界上に投影してpde解を計算し、マーチングキューブのような表面点の格子サイズ依存抽出法の代わりにpde解を計算する。 暗黙表現は最適化過程における形状摂動を便利に扱う。 形状を更新するために、PyTorchの自動微分を用いて損失関数w.r.t.をネットワークパラメータとしてバックプロパゲートし、形状微分の複雑でエラーを起こしやすい手動導出を避ける。 提案フレームワークは,メモリ非効率なグリッドベース手法と比較して,逆散乱問題を少ないパラメータでより抽出し,高品質な再構成結果を出力する。

Implicit representation of shapes as level sets of multilayer perceptrons has recently flourished in different shape analysis, compression, and reconstruction tasks. In this paper, we introduce an implicit neural representation-based framework for solving the inverse obstacle scattering problem in a mesh-free fashion. We efficiently express the obstacle shape as the zero-level set of a signed distance function which is implicitly determined by a small number of network parameters. To solve the direct scattering problem, we implement the implicit boundary integral method. It uses projections of the grid points in the tubular neighborhood onto the boundary to compute the PDE solution instead of a grid-size-dependent extraction method of surface points such as Marching Cubes. The implicit representation conveniently handles the shape perturbation in the optimization process. To update the shape, we use PyTorch's automatic differentiation to backpropagate the loss function w.r.t. the network parameters, allowing us to avoid complex and error-prone manual derivation of the shape derivative. The proposed framework makes the inverse scattering problem more tractable with fewer parameters to optimize in comparison to the memory-inefficient grid-based approaches and outputs high-quality reconstruction results.
翻訳日:2022-06-07 17:11:56 公開日:2022-06-04
# 時間差強化学習のための適応木バックアップアルゴリズム

Adaptive Tree Backup Algorithms for Temporal-Difference Reinforcement Learning ( http://arxiv.org/abs/2206.01896v1 )

ライセンス: Link先を確認
Brett Daley and Isaac Chan(参考訳) Q($\sigma$)は、最近提案された時間差学習手法で、期待されるバックアップからの学習とサンプルバックアップの間の補間を行う。 補間パラメータ $\sigma \in [0,1]$ の中間値は実際より良くなることが示されているので、これらの改善を達成するために$\sigma$関数はバイアス分散トレードオフパラメータであると考えられている。 我々の研究では、この概念を否定し、$\sigma=0$ の選択はバイアスを増加させずに分散を最小化することを示した。 これは、$\sigma$が完全に理解されていない学習に他の効果を持たなければならないことを示している。 代案として、我々は新しいトレードオフの存在を仮定する: より大きな$\sigma$-valuesは、より高い統計的分散を犠牲にして、値関数の初期化の貧弱さを克服するのに役立つ。 エージェントが経験を積むにつれて重み付きバックアップが進化する適応木バックアップ(adaptive tree backup, atb)法を提案する。 提案実験により, 適応戦略は, 固定あるいは時間アニールの$\sigma$-valuesに依存するよりも有効であることを示す。

Q($\sigma$) is a recently proposed temporal-difference learning method that interpolates between learning from expected backups and sampled backups. It has been shown that intermediate values for the interpolation parameter $\sigma \in [0,1]$ perform better in practice, and therefore it is commonly believed that $\sigma$ functions as a bias-variance trade-off parameter to achieve these improvements. In our work, we disprove this notion, showing that the choice of $\sigma=0$ minimizes variance without increasing bias. This indicates that $\sigma$ must have some other effect on learning that is not fully understood. As an alternative, we hypothesize the existence of a new trade-off: larger $\sigma$-values help overcome poor initializations of the value function, at the expense of higher statistical variance. To automatically balance these considerations, we propose Adaptive Tree Backup (ATB) methods, whose weighted backups evolve as the agent gains experience. Our experiments demonstrate that adaptive strategies can be more effective than relying on fixed or time-annealed $\sigma$-values.
翻訳日:2022-06-07 17:05:03 公開日:2022-06-04
# MACC: 深層強化学習によるクロス層マルチエージェント混雑制御

MACC: Cross-Layer Multi-Agent Congestion Control with Deep Reinforcement Learning ( http://arxiv.org/abs/2206.01972v1 )

ライセンス: Link先を確認
Jianing Bai, Tianhao Zhang, Guangming Xie(参考訳) ネットワーク容量を効率的に活用するコアネットワークタスクである渋滞制御(CC)は、5G、Internet-of-Things、UANなど様々なインターネット通信アプリケーションで広く利用されている。 AQM(Active Queue Management)アルゴリズムやTCP(Transmission Control Protocol)の混雑制御機構など,ネットワーク層とトランスポート層の両方でCCアルゴリズムが提案されている。 しかし、動的AQM/TCPシステムをモデル化し、異なる通信シナリオ下で優れた性能を得るために2つのアルゴリズムを協調することは困難である。 本稿では,マルチエージェント強化学習に基づくクロス層渋滞制御アルゴリズムの性能と,MACC(Multi-agent Congestion Control)と呼ばれる2つのエージェントの協調性能について検討する。 我々はns3にmaccを実装します。 シミュレーションの結果,提案手法は,スループットや遅延などの観点から,他の混雑制御の組み合わせよりも優れていることがわかった。 マルチエージェント深層学習に基づくネットワークプロトコルが通信管理に効率的であることを証明するだけでなく、ニューラルネットワーク領域が機械学習アルゴリズムの新しい遊び場として利用できることを検証する。

Congestion Control (CC), as the core networking task to efficiently utilize network capacity, received great attention and widely used in various Internet communication applications such as 5G, Internet-of-Things, UAN, and more. Various CC algorithms have been proposed both on network and transport layers such as Active Queue Management (AQM) algorithm and Transmission Control Protocol (TCP) congestion control mechanism. But it is hard to model dynamic AQM/TCP system and cooperate two algorithms to obtain excellent performance under different communication scenarios. In this paper, we explore the performance of multi-agent reinforcement learning-based cross-layer congestion control algorithms and present cooperation performance of two agents, known as MACC (Multi-agent Congestion Control). We implement MACC in NS3. The simulation results show that our scheme outperforms other congestion control combination in terms of throughput and delay, etc. Not only does it proves that networking protocols based on multi-agent deep reinforcement learning is efficient for communication managing, but also verifies that networking area can be used as new playground for machine learning algorithms.
翻訳日:2022-06-07 16:58:19 公開日:2022-06-04
# ソフトエラーに対するCNNの高速かつ高精度な誤差シミュレーション

Fast and Accurate Error Simulation for CNNs against Soft Errors ( http://arxiv.org/abs/2206.02051v1 )

ライセンス: Link先を確認
Cristiana Bolchini and Luca Cassano and Antonio Miele and Alessandro Toschi(参考訳) 安全/ミッションクリティカルなアプリケーションにAIベースの計算を採用するという大きな探求は、トレーニングやチューニングだけでなく、欠陥、特にソフトエラーによるハードウェアに影響を及ぼすアプリケーションの堅牢性を評価する方法への関心を動機付けている。 アーキテクチャレベルのフォールトインジェクションとアプリケーションレベルの機能的エラーシミュレーションだ。 本稿では、詳細な故障注入キャンペーンから抽出した検証済みエラーモデルのセットを利用した誤差シミュレーションエンジンを用いて、畳み込みニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。 これらのエラーモデルは、故障によって引き起こされるcnnオペレータの出力の腐敗パターンに基づいて定義され、障害注入とエラーシミュレーションの間のギャップを橋渡しし、両方のアプローチの利点を生かしている。 本手法を機能的エラーシミュレーションw.r.t.フォールトインジェクションの精度をsassifiと比較し,エラーシミュレーション戦略の高速化の観点からtensorfiと比較した。 実験結果から,本手法は断層効果w.r.t.sassifiの99\%の精度と,誤差モデルのみを実装した44倍から63倍のw.r.t.tensorfiの速度向上を達成した。

The great quest for adopting AI-based computation for safety-/mission-critical applications motivates the interest towards methods for assessing the robustness of the application w.r.t. not only its training/tuning but also errors due to faults, in particular soft errors, affecting the underlying hardware. Two strategies exist: architecture-level fault injection and application-level functional error simulation. We present a framework for the reliability analysis of Convolutional Neural Networks (CNNs) via an error simulation engine that exploits a set of validated error models extracted from a detailed fault injection campaign. These error models are defined based on the corruption patterns of the output of the CNN operators induced by faults and bridge the gap between fault injection and error simulation, exploiting the advantages of both approaches. We compared our methodology against SASSIFI for the accuracy of functional error simulation w.r.t. fault injection, and against TensorFI in terms of speedup for the error simulation strategy. Experimental results show that our methodology achieves about 99\% accuracy of the fault effects w.r.t. SASSIFI, and a speedup ranging from 44x up to 63x w.r.t. TensorFI, that only implements a limited set of error models.
翻訳日:2022-06-07 16:57:57 公開日:2022-06-04
# 増分ビルドインファー近似パラダイムを用いたMPE推論

MPE inference using an Incremental Build-Infer-Approximate Paradigm ( http://arxiv.org/abs/2206.01954v1 )

ライセンス: Link先を確認
Shivani Bathla and Vinita Vasudevan(参考訳) ベイジアンネットワークで最も可能性の高い説明(MPE)の具体的な推論はNP完全であることが知られている。 本稿では,インクリメンタル・ビルド・インファー近似(ibia)フレームワークに基づく近似mpe推定アルゴリズムを提案する。 この枠組みを用いてベイジアンネットワークと対応するmax-calibrated cliqueツリーの順序付きパーティション集合を得る。 我々は,最終分割における最大信念が,MPE割り当ての確率を推定することを示した。 本稿では,代入が得られた変数のサブセットが反復毎に増加することを保証した復号のための反復アルゴリズムを提案する。 収束の問題はなく、解決策の探索も行いません。 単発アルゴリズムであるにもかかわらず、テストに使用される117のベンチマークのうち100のうち、有効な割り当てを得る。 私たちのソリューションの精度は、ベンチマークの大部分でブランチとバウンド検索に匹敵し、競合する実行時間を持つ。

Exact inference of the most probable explanation (MPE) in Bayesian networks is known to be NP-complete. In this paper, we propose an algorithm for approximate MPE inference that is based on the incremental build-infer-approximate (IBIA) framework. We use this framework to obtain an ordered set of partitions of the Bayesian network and the corresponding max-calibrated clique trees. We show that the maximum belief in the last partition gives an estimate of the probability of the MPE assignment. We propose an iterative algorithm for decoding, in which the subset of variables for which an assignment is obtained is guaranteed to increase in every iteration. There are no issues of convergence, and we do not perform a search for solutions. Even though it is a single shot algorithm, we obtain valid assignments in 100 out of the 117 benchmarks used for testing. The accuracy of our solution is comparable to a branch and bound search in majority of the benchmarks, with competitive run times.
翻訳日:2022-06-07 16:27:41 公開日:2022-06-04
# 直観幾何学の表現としての対称性

Symmetry as a Representation of Intuitive Geometry? ( http://arxiv.org/abs/2206.02019v1 )

ライセンス: Link先を確認
Wangcheng Xu, Snejana Shegheva and Ashok Goel(参考訳) 幾何学的パターンの認識は人間の知性の重要な側面であると考えられる。 幾何学的パターン認識は、直感的な幾何学的概念に基づくDehaeneの奇数ワンアウトコア幾何(CG)テスト(Dehaene et al., 2006)など、多くの知能テストで使用されている。 初期の研究は、デヘネのテストの対称性に基づく認知モデルを開発し、人間に匹敵する性能を示した。 本研究では,幾何学的直観における対称性の役割をさらに検討し,CGテストの2-Alternative Forced Choice (2-AFC) 変動に対する認知モデルを構築した(Marupudi & Varma 2021)。 デヘインの試験とは対照的に、2-afcは複数の例の一般化に基づく認知モデルの空間をほとんど残していない。 我々の対称性に基づくモデルは、2-afcテストで人間平均に匹敵する精度を達成し、直感的な幾何学の重要な部分を捉えているように見える。

Recognition of geometrical patterns seems to be an important aspect of human intelligence. Geometric pattern recognition is used in many intelligence tests, including Dehaene's odd-one-out test of Core Geometry (CG)) based on intuitive geometrical concepts (Dehaene et al., 2006). Earlier work has developed a symmetry-based cognitive model of Dehaene's test and demonstrated performance comparable to that of humans. In this work, we further investigate the role of symmetry in geometrical intuition and build a cognitive model for the 2-Alternative Forced Choice (2-AFC) variation of the CG test (Marupudi & Varma 2021). In contrast to Dehaene's test, 2-AFC leaves almost no space for cognitive models based on generalization over multiple examples. Our symmetry-based model achieves an accuracy comparable to the human average on the 2-AFC test and appears to capture an essential part of intuitive geometry.
翻訳日:2022-06-07 16:27:26 公開日:2022-06-04
# 相互注意型ネットワークを用いたリカレント画像登録

Recurrent Image Registration using Mutual Attention based Network ( http://arxiv.org/abs/2206.01863v1 )

ライセンス: Link先を確認
Jian-Qing Zheng, Ziyang Wang, Baoru Huang, Ngee Han Lim, Tonia Vincent, Bartlomiej W. Papiez(参考訳) 画像登録は、異なる画像間の空間的変換を推定する医療画像の重要課題である。 これまで多くの研究は、多段階の登録に学習に基づく方法を使って3d画像の登録を行い、パフォーマンスを向上させてきた。 しかし、多段階アプローチの性能は、複雑な動きが1つの空間スケールで起こらない受容場の大きさによって制限される。 これらの制約を克服するために,再帰的ネットワークアーキテクチャと相互注意機構を組み合わせた新たな登録ネットワークを提案する。 従来の深層学習法と比較して, 再帰的構造に基づくネットワークは, 肺CT(CT)データセットにおいて, 92\%, 平均表面距離3.8mm) において高い精度を達成し, 様々な大きさの9臓器 (55\%, 平均表面距離7.8mm) の腹部CTデータセットにおいて最も正確な結果の1つである。 また,3つの再帰的ネットワークを加えることで,推定時間を大幅に増加させることなく,最先端の結果が得られることを示した。

Image registration is an important task in medical imaging which estimates the spatial transformation between different images. Many previous studies have used learning-based methods for multi-stage registration to perform 3D image registration to improve performance. The performance of the multi-stage approach, however, is limited by the size of the receptive field where complex motion does not occur at a single spatial scale. We propose a new registration network combining recursive network architecture and mutual attention mechanism to overcome these limitations. Compared with the previous deep learning methods, our network based on the recursive structure achieves the highest accuracy in lung Computed Tomography (CT) data set (Dice score of 92\% and average surface distance of 3.8mm for lungs) and one of the most accurate results in abdominal CT data set with 9 organs of various sizes (Dice score of 55\% and average surface distance of 7.8mm). We also showed that adding 3 recursive networks is sufficient to achieve the state-of-the-art results without a significant increase in the inference time.
翻訳日:2022-06-07 16:25:33 公開日:2022-06-04
# spgnet:低次元空間における空間投影誘導3次元人間のポーズ推定

SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low Dimensional Space ( http://arxiv.org/abs/2206.01867v1 )

ライセンス: Link先を確認
Zihan Wang, Ruimin Chen, Mengxuan Liu, Guanfang Dong and Anup Basu(参考訳) 本研究では,多次元再投影を教師あり学習に混合した3次元ポーズ推定法を提案する。 この方法では,2D-to-3Dリフトネットワークは3次元人間のポーズのグローバルな位置と座標を予測する。 次に,推定した3Dポーズを空間的調整とともに2Dキーポイントに再投影する。 損失関数は、推定3dポーズと3dポーズグラウンド真理を比較し、入力2dポーズと再投影2dポーズを比較する。 さらに, 予測対象の骨長を一定に制限する運動学的制約を提案する。 データセットのヒューマン3.6mの推定結果に基づいて,本手法は定性的および定量的に多くの最先端手法を上回る。

We propose a method SPGNet for 3D human pose estimation that mixes multi-dimensional re-projection into supervised learning. In this method, the 2D-to-3D-lifting network predicts the global position and coordinates of the 3D human pose. Then, we re-project the estimated 3D pose back to the 2D key points along with spatial adjustments. The loss functions compare the estimated 3D pose with the 3D pose ground truth, and re-projected 2D pose with the input 2D pose. In addition, we propose a kinematic constraint to restrict the predicted target with constant human bone length. Based on the estimation results for the dataset Human3.6M, our approach outperforms many state-of-the-art methods both qualitatively and quantitatively.
翻訳日:2022-06-07 16:25:13 公開日:2022-06-04
# 顔認識の精度をデモグラフィックで見る: 問題に光を当てる

Face Recognition Accuracy Across Demographics: Shining a Light Into the Problem ( http://arxiv.org/abs/2206.01881v1 )

ライセンス: Link先を確認
Haiyu Wu, V\'itor Albiero, K. S. Krishnapriya, Michael C. King, Kevin W. Bowyer(参考訳) 一対の顔画像における皮膚領域の明るさレベルが、顔の認識精度に与える影響を調査するのは、これが初めてである。 両画像が平均的な顔の皮膚の明るさを持つ画像対は, 人口統計学やマッチング学において, 一致の精度が最も高いことが判明した。 顔の皮膚の明るさが暗すぎるか暗すぎるかの2つの画像対は、偽一致率(FMR)が増大している。 顔の皮膚の明るさが強く異なる画像対は、FMRを減少させ、偽非マッチング速度(FNMR)を増大させた。 顔皮膚領域の明るさ変化を捉える輝度情報メトリクスを用いて、マッチング精度の変動は、顔皮膚領域で利用可能な情報のレベルと相関することを示す。 画像取得が制御される運用シナリオでは,照明を調整した画像を取得することで,狭い範囲で顔の明るさが得られるようにすることを提案する。

This is the first work that we are aware of to explore how the level of brightness of the skin region in a pair of face images impacts face recognition accuracy. Image pairs with both images having mean face skin brightness in an upper-middle range of brightness are found to have the highest matching accuracy across demographics and matchers. Image pairs with both images having mean face skin brightness that is too dark or too light are found to have an increased false match rate (FMR). Image pairs with strongly different face skin brightness are found to have decreased FMR and increased false non-match rate (FNMR). Using a brightness information metric that captures the variation in brightness in the face skin region, the variation in matching accuracy is shown to correlate with the level of information available in the face skin region. For operational scenarios where image acquisition is controlled, we propose acquiring images with lighting adjusted to yield face skin brightness in a narrow range.
翻訳日:2022-06-07 16:25:02 公開日:2022-06-04
# チューブレットトークンからの映像ベースヒューマンオブジェクトインタラクション検出

Video-based Human-Object Interaction Detection from Tubelet Tokens ( http://arxiv.org/abs/2206.01908v1 )

ライセンス: Link先を確認
Danyang Tu and Wei Sun and Xiongkuo Min and Guangtao Zhai and Wei Shen(参考訳) 本稿では,ビデオベースヒューマン・オブジェクト・インタラクション(v-hoi)検出のための高抽象化時空間表現として機能する,チューブレットトークンを学習可能なtutorという新しい視覚トランスフォーマを提案する。 tubeletトークンは,意味的に関連したパッチトークンを空間的および時間的領域に沿って凝集・リンクすることで,ビデオを構造化する。 1) コンパクト性: 各塊状トークンは,他者からの冗長な空間依存を減らすための選択的注意機構によって学習される。 2)表現性:各チューブレットトークンは、アグロメレーションとリンクのおかげで、フレーム間のセマンティックインスタンス、すなわちオブジェクトまたは人間と整合することができる。 TUTORの有効性と効率は広範な実験によって検証される。 その結果,VidHOIでは相対的なmAPゲインが16.14 %,CAD-120では2ポイント,CAD-120では4 \times$のスピードアップが得られた。

We present a novel vision Transformer, named TUTOR, which is able to learn tubelet tokens, served as highly-abstracted spatiotemporal representations, for video-based human-object interaction (V-HOI) detection. The tubelet tokens structurize videos by agglomerating and linking semantically-related patch tokens along spatial and temporal domains, which enjoy two benefits: 1) Compactness: each tubelet token is learned by a selective attention mechanism to reduce redundant spatial dependencies from others; 2) Expressiveness: each tubelet token is enabled to align with a semantic instance, i.e., an object or a human, across frames, thanks to agglomeration and linking. The effectiveness and efficiency of TUTOR are verified by extensive experiments. Results shows our method outperforms existing works by large margins, with a relative mAP gain of $16.14\%$ on VidHOI and a 2 points gain on CAD-120 as well as a $4 \times$ speedup.
翻訳日:2022-06-07 16:24:44 公開日:2022-06-04
# Nerfels: カメラポーズ推定を改善するためのレンダリング可能なニューラルコード

Nerfels: Renderable Neural Codes for Improved Camera Pose Estimation ( http://arxiv.org/abs/2206.01916v1 )

ライセンス: Link先を確認
Gil Avraham, Julian Straub, Tianwei Shen, Tsun-Yi Yang, Hugo Germain, Chris Sweeney, Vasileios Balntas, David Novotny, Daniel DeTone, Richard Newcombe(参考訳) 本稿では,従来のキーポイント方式のカメラポーズ最適化と,可逆的なニューラルレンダリング機構を組み合わせたフレームワークを提案する。 提案する3次元シーン表現Nerfelsは局所的に密度が高いが,世界規模では疎い。 シーン全体に対してモデルにオーバーフィットする既存の非可逆的ニューラルネットワークとは対照的に、シーンに依存しないローカルな3Dパッチをレンダリング可能なコードで表現するための特徴駆動型アプローチを採用しています。 局所的な特徴が検出されるシーンのみをモデル化することで、ニューラルネットワークレンダラーの最適化可能なコードコンディショニング機構を介して、シーン内の未認識のローカル領域に効果的に一般化し、スパースな3dマップ表現のメモリフットプリントを維持できる。 我々のモデルは,既存の手作りで学習済みのローカル特徴ポーズ推定装置に組み込むことができ,カメラベースラインの広いシナリオに対してScanNetを評価する際に,性能が向上する。

This paper presents a framework that combines traditional keypoint-based camera pose optimization with an invertible neural rendering mechanism. Our proposed 3D scene representation, Nerfels, is locally dense yet globally sparse. As opposed to existing invertible neural rendering systems which overfit a model to the entire scene, we adopt a feature-driven approach for representing scene-agnostic, local 3D patches with renderable codes. By modelling a scene only where local features are detected, our framework effectively generalizes to unseen local regions in the scene via an optimizable code conditioning mechanism in the neural renderer, all while maintaining the low memory footprint of a sparse 3D map representation. Our model can be incorporated to existing state-of-the-art hand-crafted and learned local feature pose estimators, yielding improved performance when evaluating on ScanNet for wide camera baseline scenarios.
翻訳日:2022-06-07 16:24:26 公開日:2022-06-04
# Pixelからオブジェクトへ: 視覚的質問応答のためのキュービックビジュアルアテンション

From Pixels to Objects: Cubic Visual Attention for Visual Question Answering ( http://arxiv.org/abs/2206.01923v1 )

ライセンス: Link先を確認
Jingkuan Song, Pengpeng Zeng, Lianli Gao, Heng Tao Shen(参考訳) 近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域を選択的にターゲットすることで大きな成功を収めている。 既存の視覚注意モデルは一般的に平面的であり、画像の最後のconv層特徴マップの異なるチャネルは同じ重みを持つ。 これはCNNの特徴が自然に空間的かつチャネル的であるため、注意機構と矛盾する。 また、視覚注意モデルは通常ピクセルレベルで実行されるため、領域の不連続な問題を引き起こす可能性がある。 本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービックビジュアルアテンション(CVA)モデルを提案する。 具体的には、ピクセルに参加する代わりに、まずオブジェクトプロポーザルネットワークを利用して、オブジェクト候補のセットを生成し、関連するconv機能を抽出します。 そして,この質問を利用して,同層特徴写像に基づくチャネルアテンションと空間アテンションの計算を行う。 最後に、参加者の視覚的特徴と質問を組み合わせて答えを推測する。 我々は、COCO-QA、VQA、Visual7Wを含む3つの公開画像QAデータセットに対して提案したCVAの性能を評価する。 実験の結果,提案手法は最先端技術よりも優れていた。

Recently, attention-based Visual Question Answering (VQA) has achieved great success by utilizing question to selectively target different visual areas that are related to the answer. Existing visual attention models are generally planar, i.e., different channels of the last conv-layer feature map of an image share the same weight. This conflicts with the attention mechanism because CNN features are naturally spatial and channel-wise. Also, visual attention models are usually conducted on pixel-level, which may cause region discontinuous problems. In this paper, we propose a Cubic Visual Attention (CVA) model by successfully applying a novel channel and spatial attention on object regions to improve VQA task. Specifically, instead of attending to pixels, we first take advantage of the object proposal networks to generate a set of object candidates and extract their associated conv features. Then, we utilize the question to guide channel attention and spatial attention calculation based on the con-layer feature map. Finally, the attended visual features and the question are combined to infer the answer. We assess the performance of our proposed CVA on three public image QA datasets, including COCO-QA, VQA and Visual7W. Experimental results show that our proposed method significantly outperforms the state-of-the-arts.
翻訳日:2022-06-07 16:24:08 公開日:2022-06-04
# 中心クラスタリングネットワークを用いた狭めペンにおける豚の排卵抵抗性インスタンスセグメンテーション

Occlusion-Resistant Instance Segmentation of Piglets in Farrowing Pens Using Center Clustering Network ( http://arxiv.org/abs/2206.01942v1 )

ライセンス: Link先を確認
Endai Huang, Axiu Mao, Yongjian Wu, Haiming Gan, Maria Camila Ceballos, Thomas D. Parsons, Junhui Hou, Kai Liu(参考訳) コンピュータビジョンは、動物の行動、健康、福祉を監視する新しいアプローチの開発を可能にする。 インスタンスセグメンテーション(インスタンスセグメンテーション)は、コンピュータビジョンにおける個々の動物を検知するための高精度な方法である。 この方法は、ビデオや画像から、微妙なインタラクティブな振る舞いを調べるなど、動物の詳細な分析に使用できる。 しかし、既存のディープラーニングベースのインスタンスセグメンテーション手法は、主に公開データセットに基づいて開発されており、重いオクルージョンの問題をほとんど排除している。 本稿では,cclusnet-insegと呼ばれるセグメント化のための新しい咬合抵抗型センタークラスタリングネットワークを提案する。 具体的には、cclusnet-insegは各ピクセルを使用してオブジェクトセンタを予測し、これらのセンタを追跡し、クラスタリング結果に基づいてマスクを形成する。これは、セグメンテーションとセンタオフセットベクトルマップのためのネットワーク、ノイズ(dbscan)アルゴリズムを用いたアプリケーションの密度ベースの空間クラスタリング、center-to-mask(c2m)とretain-centers-to-mask(rc2m)アルゴリズム、およびpseudo-occlusion generator(pog)で構成される。 6本のペンから収集した6本の動画から4600枚の画像を抽出し、その方法の訓練と検証を行った。 CClusnet-Insegは平均平均mAPが83.6で、それぞれ81.2と74.7のmAP値を持つYOLACT++とMask R-CNNを上回っている。 本手法のコアモジュールの長所と有効性を示すため,包括的アブレーション研究を行う。 さらに,動物モニタリングのためのマルチオブジェクト追跡にcclusnet-insegを適用し,結束アウトプットである予測対象センタを物体の位置のオクルージョン耐性表現として用いることができた。

Computer vision enables the development of new approaches to monitor the behavior, health, and welfare of animals. Instance segmentation is a high-precision method in computer vision for detecting individual animals of interest. This method can be used for in-depth analysis of animals, such as examining their subtle interactive behaviors, from videos and images. However, existing deep-learning-based instance segmentation methods have been mostly developed based on public datasets, which largely omit heavy occlusion problems; therefore, these methods have limitations in real-world applications involving object occlusions, such as farrowing pen systems used on pig farms in which the farrowing crates often impede the sow and piglets. In this paper, we propose a novel occlusion-resistant Center Clustering Network for instance segmentation, dubbed as CClusnet-Inseg. Specifically, CClusnet-Inseg uses each pixel to predict object centers and trace these centers to form masks based on clustering results, which consists of a network for segmentation and center offset vector map, Density-Based Spatial Clustering of Applications with Noise (DBSCAN) algorithm, Centers-to-Mask (C2M) and Remain-Centers-to-Mask (RC2M) algorithms, and a pseudo-occlusion generator (POG). In all, 4,600 images were extracted from six videos collected from six farrowing pens to train and validate our method. CClusnet-Inseg achieves a mean average precision (mAP) of 83.6; it outperformed YOLACT++ and Mask R-CNN, which had mAP values of 81.2 and 74.7, respectively. We conduct comprehensive ablation studies to demonstrate the advantages and effectiveness of core modules of our method. In addition, we apply CClusnet-Inseg to multi-object tracking for animal monitoring, and the predicted object center that is a conjunct output could serve as an occlusion-resistant representation of the location of an object.
翻訳日:2022-06-07 16:23:49 公開日:2022-06-04
# 眼科報告用クロスモーダル・クリニカルグラフ変換器

Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation ( http://arxiv.org/abs/2206.01988v1 )

ライセンス: Link先を確認
Mingjie Li, Wenjia Cai, Karin Verspoor, Shirui Pan, Xiaodan Liang, Xiaojun Chang(参考訳) データ駆動型ニューラルネットワークによる眼科報告の自動生成は臨床実践において大きな可能性を秘めている。 レポートを書く際、眼科医は以前の臨床知識と推測する。 この知識は、以前の医療報告生成手法では無視されている。 専門知識を取り入れたモデルを実現するため,眼科報告生成(ORG)のためのクロスモーダルな臨床グラフトランスフォーマ (CGT) を提案する。 しかし、2つの主要な共通知識ノイズ(kn)問題はモデルの有効性に影響する可能性がある。 1) umlのような既存の一般的な生物医学的知識ベースは、報告書の特定の文脈や言語に意味を持たず、知識注入の有用性を制限できる。 2) 知識の多さは,視覚特徴をその正しい意味から逸脱させる可能性がある。 これらの限界を克服するために,自然言語処理に基づく自動情報抽出スキームを設計,ドメイン内トレーニングレポートから直接臨床実体と関係を得る。 眼科画像のセットを与えられたCGTは、まず臨床グラフからサブグラフを復元し、回復したトリプルを視覚的特徴に注入する。 次に、知識の影響を制限するために、符号化手順中に可視行列を用いる。 最後に、レポートはTransformerデコーダを介してエンコードされたクロスモーダル機能によって予測される。 大規模FFA-IRベンチマークの大規模な実験により、提案したCGTは従来のベンチマーク手法より優れ、最先端の性能を達成できることが示された。

Automatic generation of ophthalmic reports using data-driven neural networks has great potential in clinical practice. When writing a report, ophthalmologists make inferences with prior clinical knowledge. This knowledge has been neglected in prior medical report generation methods. To endow models with the capability of incorporating expert knowledge, we propose a Cross-modal clinical Graph Transformer (CGT) for ophthalmic report generation (ORG), in which clinical relation triples are injected into the visual features as prior knowledge to drive the decoding procedure. However, two major common Knowledge Noise (KN) issues may affect models' effectiveness. 1) Existing general biomedical knowledge bases such as the UMLS may not align meaningfully to the specific context and language of the report, limiting their utility for knowledge injection. 2) Incorporating too much knowledge may divert the visual features from their correct meaning. To overcome these limitations, we design an automatic information extraction scheme based on natural language processing to obtain clinical entities and relations directly from in-domain training reports. Given a set of ophthalmic images, our CGT first restores a sub-graph from the clinical graph and injects the restored triples into visual features. Then visible matrix is employed during the encoding procedure to limit the impact of knowledge. Finally, reports are predicted by the encoded cross-modal features via a Transformer decoder. Extensive experiments on the large-scale FFA-IR benchmark demonstrate that the proposed CGT is able to outperform previous benchmark methods and achieve state-of-the-art performances.
翻訳日:2022-06-07 16:23:05 公開日:2022-06-04
# バンドフィードバックによる混雑ゲームにおける学習

Learning in Congestion Games with Bandit Feedback ( http://arxiv.org/abs/2206.01880v1 )

ライセンス: Link先を確認
Qiwen Cui, Zhihan Xiong, Maryam Fazel, Simon S. Du(参考訳) nash平衡の学習はマルチエージェントシステムにおける中心的な問題である。 本稿では,理論構造が良質なゲーム群と広い実世界のアプリケーション群であるゆがみゲームについて検討する。 まず,(半)帯域フィードバックによる混雑ゲームに対する不確実性原理に直面する楽観性に基づく集中型アルゴリズムを提案し,有限サンプル保証を得る。 次に,Frank-Wolfe法とG-Optimal設計を組み合わせた分散アルゴリズムを提案する。 混雑ゲームの構造を生かして, 両アルゴリズムのサンプル複雑性は, プレイヤー数と施設数に多項式的にのみ依存するが, 動作集合のサイズには依存せず, 施設数で指数関数的に大きいことを示す。 さらに,新しい問題クラスであるマルコフ混雑ゲームを定義し,混雑ゲームにおける非定常性をモデル化する。 本稿では,マルコフ混雑ゲームに対する一元的アルゴリズムを提案する。サンプル複雑性は,すべての関連する問題パラメータに多項式依存性のみを持つが,アクションセットのサイズには依存しない。

Learning Nash equilibria is a central problem in multi-agent systems. In this paper, we investigate congestion games, a class of games with benign theoretical structure and broad real-world applications. We first propose a centralized algorithm based on the optimism in the face of uncertainty principle for congestion games with (semi-)bandit feedback, and obtain finite-sample guarantees. Then we propose a decentralized algorithm via a novel combination of the Frank-Wolfe method and G-optimal design. By exploiting the structure of the congestion game, we show the sample complexity of both algorithms depends only polynomially on the number of players and the number of facilities, but not the size of the action set, which can be exponentially large in terms of the number of facilities. We further define a new problem class, Markov congestion games, which allows us to model the non-stationarity in congestion games. We propose a centralized algorithm for Markov congestion games, whose sample complexity again has only polynomial dependence on all relevant problem parameters, but not the size of the action set.
翻訳日:2022-06-07 15:27:34 公開日:2022-06-04
# ニューラルネットワークによるマルチスケール問題の均質化

A Neural Network Approach for Homogenization of Multiscale Problems ( http://arxiv.org/abs/2206.02032v1 )

ライセンス: Link先を確認
Jihun Han and Yoonsang Lee(参考訳) マルチスケール問題の均質化に対するニューラルネットワークに基づくアプローチを提案する。 提案手法は,多スケールpde溶液のマクロな記述を見つけるためにブラウンウォーカーを組み込んだトレーニング損失の導出のない定式化を用いる。 マルチスケール問題に対する他のネットワークベースアプローチと比較して,提案手法は手作りニューラルネットワークアーキテクチャの設計や,均質化係数を計算するためのセル問題とは無関係である。 ブラウニアン・ウォーカーの探検地区は、全体の学習軌道に影響する。 ニューラルネットワークを用いて局所的均一性および大域的均一性解の挙動を捕捉するマイクロステップとマクロタイムステップの境界を決定する。 境界は,提案手法の計算コストが,標準周期問題に対するマイクロスケール周期構造とは無関係であることを示す。 線形および非線形な多スケール問題と周期的およびランダムな場係数の組による提案手法の有効性とロバスト性を検証した。

We propose a neural network-based approach to the homogenization of multiscale problems. The proposed method uses a derivative-free formulation of a training loss, which incorporates Brownian walkers to find the macroscopic description of a multiscale PDE solution. Compared with other network-based approaches for multiscale problems, the proposed method is free from the design of hand-crafted neural network architecture and the cell problem to calculate the homogenization coefficient. The exploration neighborhood of the Brownian walkers affects the overall learning trajectory. We determine the bounds of micro- and macro-time steps that capture the local heterogeneous and global homogeneous solution behaviors, respectively, through a neural network. The bounds imply that the computational cost of the proposed method is independent of the microscale periodic structure for the standard periodic problems. We validate the efficiency and robustness of the proposed method through a suite of linear and nonlinear multiscale problems with periodic and random field coefficients.
翻訳日:2022-06-07 15:27:17 公開日:2022-06-04
# MetaNOR:メタマテリアルモデリングのためのメタラーレント非局所演算子回帰アプローチ

MetaNOR: A Meta-Learnt Nonlocal Operator Regression Approach for Metamaterial Modeling ( http://arxiv.org/abs/2206.02040v1 )

ライセンス: Link先を確認
Lu Zhang, Huaiqian You, Yue Yu(参考訳) 非局所演算子回帰に基づく移動学習演算子のためのメタ学習手法であるMetaNORを提案する。 全体的な目標は、新しい未知の物質学習タスクを、異なるミクロ構造で効率的にサロゲートモデルを提供することである。 このアルゴリズムは,(1)既存のタスクから共通非局所カーネル表現を学習すること,(2)学習知識を伝達すること,(2)未知のタスクのサロゲート演算子を異なる材料で高速に学習すること,という2つのフェーズから構成される。 1次元メタマテリアル内の波動伝播のモデル化にmetanorを応用し,新しい材料のサンプリング効率を大幅に改善した。

We propose MetaNOR, a meta-learnt approach for transfer-learning operators based on the nonlocal operator regression. The overall goal is to efficiently provide surrogate models for new and unknown material-learning tasks with different microstructures. The algorithm consists of two phases: (1) learning a common nonlocal kernel representation from existing tasks; (2) transferring the learned knowledge and rapidly learning surrogate operators for unseen tasks with a different material, where only a few test samples are required. We apply MetaNOR to model the wave propagation within 1D metamaterials, showing substantial improvements on the sampling efficiency for new materials.
翻訳日:2022-06-07 15:25:05 公開日:2022-06-04
# オーバーフィット三層ニューラルタンジェントカーネルモデルの一般化力について

On the Generalization Power of the Overfitted Three-Layer Neural Tangent Kernel Model ( http://arxiv.org/abs/2206.02047v1 )

ライセンス: Link先を確認
Peizhong Ju, Xiaojun Lin, Ness B. Shroff(参考訳) 本稿では,オーバーパラメータ3層ntkモデルの一般化性能について検討する。 特定の基底構造関数(「学習可能な集合」と呼ぶ)に対して、過度に適合した3層NTKの試験誤差は、2つの隠れた層のニューロンの数で減少する式によって上界であることが示される。 隠蔽層が1つしかない2層NTKとは異なり、3層NTKは2つの隠蔽層間の相互作用を含む。 我々の上界は、2つの隠蔽層の間に、テストエラーが第2の隠蔽層(出力に近い)のニューロン数に対して、第1の隠蔽層(入力に近い)のニューロン数よりも速く降下していることを明らかにする。 また、学習可能な3層NTKの偏りのない集合は、ニューロンに様々な偏りがある2層NTKモデルよりも小さくないことを示す。 しかし,実際の一般化性能の観点からは,特に入力次元が大きい場合において,3層ntkは2層ntkよりもバイアス選択に対する感受性が低いことが示唆された。

In this paper, we study the generalization performance of overparameterized 3-layer NTK models. We show that, for a specific set of ground-truth functions (which we refer to as the "learnable set"), the test error of the overfitted 3-layer NTK is upper bounded by an expression that decreases with the number of neurons of the two hidden layers. Different from 2-layer NTK where there exists only one hidden-layer, the 3-layer NTK involves interactions between two hidden-layers. Our upper bound reveals that, between the two hidden-layers, the test error descends faster with respect to the number of neurons in the second hidden-layer (the one closer to the output) than with respect to that in the first hidden-layer (the one closer to the input). We also show that the learnable set of 3-layer NTK without bias is no smaller than that of 2-layer NTK models with various choices of bias in the neurons. However, in terms of the actual generalization performance, our results suggest that 3-layer NTK is much less sensitive to the choices of bias than 2-layer NTK, especially when the input dimension is large.
翻訳日:2022-06-07 15:24:53 公開日:2022-06-04
# 敬礼攻撃:不可避なブラックボックス攻撃をめざして

Saliency Attack: Towards Imperceptible Black-box Adversarial Attack ( http://arxiv.org/abs/2206.01898v1 )

ライセンス: Link先を確認
Zeyu Dai, Shengcai Liu, Ke Tang, Qing Li(参考訳) ディープニューラルネットワークは、攻撃者がモデル出力にのみアクセス可能なブラックボックス設定であっても、敵の例に対して脆弱である。 近年,クエリ効率の高いブラックボックス攻撃が考案されている。 しかし、このようなパフォーマンスは、しばしば攻撃不能の妥協を伴うため、これらのアプローチの実践的使用を妨げる。 本稿では,この摂動を小さな極小領域に制限し,認識できない敵の例を生成することを提案する。 このアプローチは、既存のブラックボックス攻撃の多くと容易に対応でき、攻撃成功率の低下を少なくして、そのインセプティビリティを大幅に改善することができる。 さらに,本手法では,サルエント領域の摂動を洗練し,さらに優れた受動性を実現することを目的とした,新たなブラックボックス攻撃であるサルエンシー攻撃を提案する。 広汎な実験では、最先端のブラックボックス攻撃と比較して、最も顕著な歪み(MAD)、$L_0$、$L_2$距離など、はるかに優れた非受容性スコアが得られ、また、MAD上の人間のような閾値で判断される成功率も著しく向上した。 重要なことに、我々のアプローチによって生じる摂動はある程度解釈できる。 最後に、検出ベースの異なる防御に頑健であることが示される。

Deep neural networks are vulnerable to adversarial examples, even in the black-box setting where the attacker is only accessible to the model output. Recent studies have devised effective black-box attacks with high query efficiency. However, such performance is often accompanied by compromises in attack imperceptibility, hindering the practical use of these approaches. In this paper, we propose to restrict the perturbations to a small salient region to generate adversarial examples that can hardly be perceived. This approach is readily compatible with many existing black-box attacks and can significantly improve their imperceptibility with little degradation in attack success rate. Further, we propose the Saliency Attack, a new black-box attack aiming to refine the perturbations in the salient region to achieve even better imperceptibility. Extensive experiments show that compared to the state-of-the-art black-box attacks, our approach achieves much better imperceptibility scores, including most apparent distortion (MAD), $L_0$ and $L_2$ distances, and also obtains significantly higher success rates judged by a human-like threshold on MAD. Importantly, the perturbations generated by our approach are interpretable to some extent. Finally, it is also demonstrated to be robust to different detection-based defenses.
翻訳日:2022-06-07 15:19:37 公開日:2022-06-04
# 患者パスのモデル化とマイニング : スコープによる検討

Modelling and Mining of Patient Pathways: A Scoping Review ( http://arxiv.org/abs/2206.01980v1 )

ライセンス: Link先を確認
Caroline de Oliveira Costa Souza Rosa, Marcia Ito, Alex Borges Vieira, Antonio Tadeu Azevedo Gomes(参考訳) 医療システムにおいて患者が行う訪問と処置のシーケンスは、患者の経路または軌道としても知られ、採用される臨床治療および医療サービスに関する重要な情報を明らかにすることができる。 電子健康データの可用性が高まり、多数の患者の経路を評価することが可能となった。 しかし、これらの経路をどのように合成するか、データからどのようにマイニングするかについてもいくつかの課題が生まれ、新しい研究分野が育まれた。 本研究の目的は,この新たな研究分野を調査し,表現モデル,マイニング手法,分析方法,ケーススタディの例を強調することである。

The sequence of visits and procedures performed by the patient in the health system, also known as the patient's pathway or trajectory, can reveal important information about the clinical treatment adopted and the health service provided. The rise of electronic health data availability made it possible to assess the pathways of a large number of patients. Nevertheless, some challenges also arose concerning how to synthesize these pathways and how to mine them from the data, fostering a new field of research. The objective of this review is to survey this new field of research, highlighting representation models, mining techniques, methods of analysis, and examples of case studies.
翻訳日:2022-06-07 15:16:05 公開日:2022-06-04
# 機械学習における適応勾配最適化のための制御論的枠組み

A Control Theoretic Framework for Adaptive Gradient Optimizers in Machine Learning ( http://arxiv.org/abs/2206.02034v1 )

ライセンス: Link先を確認
Kushal Chakrabarti and Nikhil Chopra(参考訳) 適応勾配法は、ディープニューラルネットワークの最適化に人気となり、最近の例にはAdaGradやAdamなどがある。 アダムは通常より早く収束するが、例えばAdaBeliefアルゴリズムのようなアダムの変分は、古典的確率勾配法と比較してアダムの弱一般化能力を高めるために提案されている。 本稿では,非凸最適化問題の解法として適応勾配法を提案する。 まず,アダグラード,adam,adabeliefなどの適応オプティマイザのより簡単な収束証明を提示できる状態空間フレームワークで適応勾配法をモデル化した。 次に、古典制御理論からの伝達関数のパラダイムを用いて、AdamSSMという新しい変種を提案する。 我々は、二乗勾配から第二モーメント推定への伝達関数に適切な極対を加える。 我々は提案したAdamSSMアルゴリズムの収束性を証明する。 CNNアーキテクチャを用いた画像分類とLSTMアーキテクチャを用いた言語モデリングのベンチマーク機械学習タスクへの応用により、AdamSSMアルゴリズムは、最近の適応勾配法よりも一般化精度と高速収束のギャップを向上することを示した。

Adaptive gradient methods have become popular in optimizing deep neural networks; recent examples include AdaGrad and Adam. Although Adam usually converges faster, variations of Adam, for instance, the AdaBelief algorithm, have been proposed to enhance Adam's poor generalization ability compared to the classical stochastic gradient method. This paper develops a generic framework for adaptive gradient methods that solve non-convex optimization problems. We first model the adaptive gradient methods in a state-space framework, which allows us to present simpler convergence proofs of adaptive optimizers such as AdaGrad, Adam, and AdaBelief. We then utilize the transfer function paradigm from classical control theory to propose a new variant of Adam, coined AdamSSM. We add an appropriate pole-zero pair in the transfer function from squared gradients to the second moment estimate. We prove the convergence of the proposed AdamSSM algorithm. Applications on benchmark machine learning tasks of image classification using CNN architectures and language modeling using LSTM architecture demonstrate that the AdamSSM algorithm improves the gap between generalization accuracy and faster convergence than the recent adaptive gradient methods.
翻訳日:2022-06-07 15:15:32 公開日:2022-06-04
# MSR:自己指導型学習ロバストな攻撃的強化

MSR: Making Self-supervised learning Robust to Aggressive Augmentations ( http://arxiv.org/abs/2206.01999v1 )

ライセンス: Link先を確認
Yingbin Bai, Erkun Yang, Zhaoqing Wang, Yuxuan Du, Bo Han, Cheng Deng, Dadong Wang, Tongliang Liu(参考訳) 最近の自己教師あり学習法は、画像の異なる拡張ビューを対比して視覚的表現を学ぶ。 教師付き学習と比較して、トレーニングペアの多様性をさらに改善するために、より積極的な強化が導入されている。 しかし、アグレッシブな拡張は画像の構造を歪ませ、同じ画像の強化ビューが同じ意味を共有できないという深刻なセマンティックシフト問題を引き起こす可能性があるため、転送性能は低下する。 この問題に対処するため,弱いペアと攻撃的なペアの役割のバランスをとることによって,意味変化の影響に対処する新たなSSLパラダイムを提案する。 具体的には、意味論的に矛盾するペアは少数であり、ノイズペアとして扱う。 ディープニューラルネットワーク(DNN)は、ノイズ(マイノリティ)の例に過度に適合する前に、DNNがまずクリーン(マジョリティ)の例を記憶する重要な記憶効果を持つ。 そこで本研究では,早期にデータペアを積極的に拡張するために,比較的大きな重みを設定した。 トレーニングが進むにつれて、モデルはノイズの多いペアに過剰適合し始めます。 したがって、積極的に強化されたペアの重量を徐々に減らしていく。 そこで本手法は,積極的な拡張を取り入れ,セマンティックシフト問題を中和する。 実験の結果,BYOLよりも2.5%向上したResNet-50で,ImageNet-1Kで73.1%の精度を実現した。 さらに、学習した表現が様々な下流タスクにうまく伝達できることを示す実験も行われた。

Most recent self-supervised learning methods learn visual representation by contrasting different augmented views of images. Compared with supervised learning, more aggressive augmentations have been introduced to further improve the diversity of training pairs. However, aggressive augmentations may distort images' structures leading to a severe semantic shift problem that augmented views of the same image may not share the same semantics, thus degrading the transfer performance. To address this problem, we propose a new SSL paradigm, which counteracts the impact of semantic shift by balancing the role of weak and aggressively augmented pairs. Specifically, semantically inconsistent pairs are of minority and we treat them as noisy pairs. Note that deep neural networks (DNNs) have a crucial memorization effect that DNNs tend to first memorize clean (majority) examples before overfitting to noisy (minority) examples. Therefore, we set a relatively large weight for aggressively augmented data pairs at the early learning stage. With the training going on, the model begins to overfit noisy pairs. Accordingly, we gradually reduce the weights of aggressively augmented pairs. In doing so, our method can better embrace the aggressive augmentations and neutralize the semantic shift problem. Experiments show that our model achieves 73.1% top-1 accuracy on ImageNet-1K with ResNet-50 for 200 epochs, which is a 2.5% improvement over BYOL. Moreover, experiments also demonstrate that the learned representations can transfer well for various downstream tasks.
翻訳日:2022-06-07 14:44:16 公開日:2022-06-04
# CVNets: コンピュータビジョンのための高性能ライブラリ

CVNets: High Performance Library for Computer Vision ( http://arxiv.org/abs/2206.02002v1 )

ライセンス: Link先を確認
Sachin Mehta and Farzad Abdolhosseini and Mohammad Rastegari(参考訳) 我々は、分類、検出、セグメンテーションを含む視覚認識タスクのためのディープニューラルネットワークをトレーニングするための高性能なオープンソースライブラリCVNetsを紹介する。 CVNetsは、データローディング、データ変換、新しいデータサンプリング方法、および、以前の研究と同等またはより良いパフォーマンスを持ついくつかの標準ネットワークの実装を含む、画像とビデオの理解ツールをサポートしている。 ソースコードは \url{https://github.com/apple/ml-cvnets} で利用可能です。

We introduce CVNets, a high-performance open-source library for training deep neural networks for visual recognition tasks, including classification, detection, and segmentation. CVNets supports image and video understanding tools, including data loading, data transformations, novel data sampling methods, and implementations of several standard networks with similar or better performance than previous studies. Our source code is available at: \url{https://github.com/apple/ml-cvnets}.
翻訳日:2022-06-07 14:43:50 公開日:2022-06-04
# CLIPのオープン性を再考する

Rethinking the Openness of CLIP ( http://arxiv.org/abs/2206.01986v1 )

ライセンス: Link先を確認
Shuhuai Ren, Lei Li, Xuancheng Ren, Guangxiang Zhao, Xu Sun(参考訳) コントラスト言語-画像事前学習(CLIP)は、制約のない現実世界の視覚概念を包含する自然言語の全体的利用により、マッチングスタイルでオープン語彙画像分類を実現する大きな可能性を示している。 しかし、理論上はどんな語彙にもオープンであるが実際の精度は異なるため、CLIPのようなモデルのオープン性の評価と解析も困難である。 オープン性に関する従来の研究の不十分さに対処するため,語彙展開を通じてオープン性を評価することにより,モデルが新しい視覚概念に対処する能力を本質的に近似する拡張性を定義する。 拡張性に基づく評価の結果,CLIP様モデルはほとんどオープンではなく,語彙が異なる程度に拡大するにつれて性能が低下することがわかった。 さらに分析したところ、CLIPのようなモデルが、新しい視覚概念のイメージとテキストの特徴の一般的な類似性を捉えないためではなく、競合するテキストの特徴の混同のため、語彙に関して安定していないことが判明した。 そこで本研究では,テキスト特徴の識別性を高めることにより,特徴空間の観点からクリップのオープン性を向上させることを提案する。 本手法は,事前学習コーパスから関連するテキストを抽出して推論のプロンプトを強化し,微調整することなくクリップの拡張性と安定性を高める。

Contrastive Language-Image Pre-training (CLIP) has demonstrated great potential in realizing open-vocabulary image classification in a matching style, because of its holistic use of natural language supervision that covers unconstrained real-world visual concepts. However, it is, in turn, also difficult to evaluate and analyze the openness of CLIP-like models, since they are in theory open to any vocabulary but the actual accuracy varies. To address the insufficiency of conventional studies on openness, we resort to an incremental view and define the extensibility, which essentially approximates the model's ability to deal with new visual concepts, by evaluating openness through vocabulary expansions. Our evaluation based on extensibility shows that CLIP-like models are hardly truly open and their performances degrade as the vocabulary expands to different degrees. Further analysis reveals that the over-estimation of openness is not because CLIP-like models fail to capture the general similarity of image and text features of novel visual concepts, but because of the confusion among competing text features, that is, they are not stable with respect to the vocabulary. In light of this, we propose to improve the openness of CLIP from the perspective of feature space by enforcing the distinguishability of text features. Our method retrieves relevant texts from the pre-training corpus to enhance prompts for inference, which boosts the extensibility and stability of CLIP even without fine-tuning.
翻訳日:2022-06-07 14:18:05 公開日:2022-06-04
# c$^3$fusion : 大腸内視鏡下深部スラムに対するコントラスト型大腸癒合術

C$^3$Fusion: Consistent Contrastive Colon Fusion, Towards Deep SLAM in Colonoscopy ( http://arxiv.org/abs/2206.01961v1 )

ライセンス: Link先を確認
Erez Posner and Adi Zholkover and Netanel Frank and Moshe Bouhnik(参考訳) 光内視鏡(OC)による3D大腸再建による非検査面の検出は未解決の問題である。 この課題は、高反射性低テクスチャー表面、劇的な照明変化、頻繁な追跡損失を特徴とする光学的大腸内視鏡データの性質から生じる。 近年の手法では,(1)フレーム・ツー・フレーム(あるいはフレーム・ツー・モデル)の予測が多くのトラッキング障害を引き起こし,(2)スキャン品質を犠牲にしてポイントベース表現に頼っている。 本稿では,これらの課題を終末まで解決し,定量的かつ定性的かつ堅牢な3次元大腸再建を実現するための新しい再構築フレームワークを提案する。 我々のSLAMアプローチは、対照的な深い特徴と深い一貫した深度マップに基づいて対応し、グローバルに最適化されたポーズを推定し、頻繁なトラッキング障害から回復し、グローバルな一貫した3Dモデルを推定できる。 人工大腸内視鏡と実大腸内視鏡の併用実験を行い,高品質な結果と関連する基準値との比較を行った。

3D colon reconstruction from Optical Colonoscopy (OC) to detect non-examined surfaces remains an unsolved problem. The challenges arise from the nature of optical colonoscopy data, characterized by highly reflective low-texture surfaces, drastic illumination changes and frequent tracking loss. Recent methods demonstrate compelling results, but suffer from: (1) frangible frame-to-frame (or frame-to-model) pose estimation resulting in many tracking failures; or (2) rely on point-based representations at the cost of scan quality. In this paper, we propose a novel reconstruction framework that addresses these issues end to end, which result in both quantitatively and qualitatively accurate and robust 3D colon reconstruction. Our SLAM approach, which employs correspondences based on contrastive deep features, and deep consistent depth maps, estimates globally optimized poses, is able to recover from frequent tracking failures, and estimates a global consistent 3D model; all within a single framework. We perform an extensive experimental evaluation on multiple synthetic and real colonoscopy videos, showing high-quality results and comparisons against relevant baselines.
翻訳日:2022-06-07 14:17:15 公開日:2022-06-04
# 複雑なマルチエージェントシナリオにおける反事実的治療結果の推定

Estimating counterfactual treatment outcomes over time in complex multi-agent scenarios ( http://arxiv.org/abs/2206.01900v1 )

ライセンス: Link先を確認
Keisuke Fujii, Koh Takeuchi, Atsushi Kuribayashi, Naoya Takeishi, Yoshinobu Kawahara, Kazuya Takeda(参考訳) マルチエージェントシステムにおける介入の評価(例えば、人間が自律運転システムに介入し、プレーヤーが良いショットのためにチームメイトに渡すべき時)は、様々な工学および科学分野において困難である。 対人的長期予測を用いた個別治療効果(ite)の推定は,これらの介入を評価するのに有用である。 しかし、従来のフレームワークのほとんどは、マルチエージェント関係の時間変化のある複雑な構造や、共変量の反事実予測を考慮しなかった。 これは時として ite の誤った評価と解釈問題につながることがある。 本稿では,マルチエージェントシステムにおける解釈可能かつ反事実的リカレントネットワークを提案し,介入の効果を推定する。 本モデルは,多エージェント共変量と結果の長期予測に基づく ite 推定フレームワークのための,グラフ変動リカレントニューラルネットワークと理論ベース計算を活用し,介入が効果的である状況下での検証を可能にする。 自動走行車と生体エージェントのシミュレーションモデルについて, 提案手法は, 正則共変量における推定誤差の低減と, ベースラインよりも効果的な処理タイミングを達成できたことを示す。 さらに,実際のバスケットボールデータを用いて現実的な対実予測を行い,ショットシナリオにおける対実パスを評価した。

Evaluation of intervention in a multi-agent system, e.g., when humans should intervene in autonomous driving systems and when a player should pass to teammates for a good shot, is challenging in various engineering and scientific fields. Estimating the individual treatment effect (ITE) using counterfactual long-term prediction is practical to evaluate such interventions. However, most of the conventional frameworks did not consider the time-varying complex structure of multi-agent relationships and covariate counterfactual prediction. This may sometimes lead to erroneous assessments of ITE and interpretation problems. Here we propose an interpretable, counterfactual recurrent network in multi-agent systems to estimate the effect of the intervention. Our model leverages graph variational recurrent neural networks and theory-based computation with domain knowledge for the ITE estimation framework based on long-term prediction of multi-agent covariates and outcomes, which can confirm under the circumstances under which the intervention is effective. On simulated models of an automated vehicle and biological agents with time-varying confounders, we show that our methods achieved lower estimation errors in counterfactual covariates and the most effective treatment timing than the baselines. Furthermore, using real basketball data, our methods performed realistic counterfactual predictions and evaluated the counterfactual passes in shot scenarios.
翻訳日:2022-06-07 14:14:21 公開日:2022-06-04
# 事前学習型言語モデルのためのインスタンスワイズプロンプトチューニング

Instance-wise Prompt Tuning for Pretrained Language Models ( http://arxiv.org/abs/2206.01958v1 )

ライセンス: Link先を確認
Yuezihan Jiang, Hao Yang, Junyang Lin, Hanyu Zhao, An Yang, Chang Zhou, Hongxia Yang, Zhi Yang, Bin Cui(参考訳) Prompt Learningは最近、事前学習タスクとさまざまな下流タスクのギャップを埋めることで大きな人気を集めている。 プレトレーニング言語モデル(PLM)を凍結し、下流タスクのタスク関連パラメータ(prompt)を調整するだけで、巨大モデルのチューニングコストを大幅に削減する。 これの鍵となるのは、プロンプトに関係のあるタスク固有の知識でPLMに問い合わせることである。 本稿では,タスク中のすべての入力データに対する無差別なプロンプトが,入力データから内在的な知識を無視する既存の方法の大きな限界を明らかにする。 我々は、入力データインスタンスから知識をプロンプトに注入する最初のプロンプト学習パラダイムであるインスタンスワイズプロンプトチューニング(ipt)を導入し、plmによりリッチで具体的なコンテキスト情報を提供する。 モデルの品質やコスト効率といったさまざまな問題に対処しながら、インスタンスワイズプロンプトを生成するための一連の戦略を考案します。 複数のタスクやリソース設定を通じて、IPTはタスクベースのプロンプト学習法を著しく上回り、調整されたパラメータのわずか0.5%から1.5%で従来の微調整に匹敵するパフォーマンスを実現している。

Prompt Learning has recently gained great popularity in bridging the gap between pretraining tasks and various downstream tasks. It freezes Pretrained Language Models (PLMs) and only tunes a few task-related parameters (prompts) for downstream tasks, greatly reducing the cost of tuning giant models. The key enabler of this is the idea of querying PLMs with task-specific knowledge implicated in prompts. This paper reveals a major limitation of existing methods that the indiscriminate prompts for all input data in a task ignore the intrinsic knowledge from input data, resulting in sub-optimal performance. We introduce Instance-wise Prompt Tuning (IPT), the first prompt learning paradigm that injects knowledge from the input data instances to the prompts, thereby providing PLMs with richer and more concrete context information. We devise a series of strategies to produce instance-wise prompts, addressing various concerns like model quality and cost-efficiency. Across multiple tasks and resource settings, IPT significantly outperforms task-based prompt learning methods, and achieves comparable performance to conventional finetuning with only 0.5% - 1.5% of tuned parameters.
翻訳日:2022-06-07 14:11:10 公開日:2022-06-04
# 高凝集度単結晶シリコン表面におけるナノ粒子のsem画像の重畳分割・合成画像認識法

A Superimposed Divide-and-Conquer Image Recognition Method for SEM Images of Nanoparticles on The Surface of Monocrystalline silicon with High Aggregation Degree ( http://arxiv.org/abs/2206.01884v1 )

ライセンス: Link先を確認
Ruiling Xiao, Jiayang Niu(参考訳) シリコン結晶のSEM像におけるナノ粒子の粒径と分布情報は、一般に手動で計算される。 自動機械認識の実現は材料科学において重要である。 本稿では,シリコンナノ粒子SEM画像の自動認識と情報統計を実現するために,重ね合わせ分割画像認識法を提案する。 特に, シリコン結晶粒径の複雑かつ高度に凝集した特性については, モルフォロジー処理に基づく正確な認識ステップと輪郭統計法が提供される。 異なるsem撮影条件下での単結晶シリコン表面ナノ粒子像の認識のための技術基準値を有する。 さらに、認識精度とアルゴリズム効率の点で他の手法よりも優れています。

The nanoparticle size and distribution information in the SEM images of silicon crystals are generally counted by manual methods. The realization of automatic machine recognition is significant in materials science. This paper proposed a superposition partitioning image recognition method to realize automatic recognition and information statistics of silicon crystal nanoparticle SEM images. Especially for the complex and highly aggregated characteristics of silicon crystal particle size, an accurate recognition step and contour statistics method based on morphological processing are given. This method has technical reference value for the recognition of Monocrystalline silicon surface nanoparticle images under different SEM shooting conditions. Besides, it outperforms other methods in terms of recognition accuracy and algorithm efficiency.
翻訳日:2022-06-07 14:07:37 公開日:2022-06-04
# スパイクゲーティングフロー:オンラインジェスチャー認識のための階層構造に基づくスパイクニューラルネットワーク

The Spike Gating Flow: A Hierarchical Structure Based Spiking Neural Network for Online Gesture Recognition ( http://arxiv.org/abs/2206.01910v1 )

ライセンス: Link先を確認
Zihao Zhao, Yanhong Wang, Qiaosha Zou, Tie Xu, Fangbo Tao, Jiansong Zhang, Xiaoan Wang, C.-J. Richard Shi, Junwen Luo and Yuan Xie(参考訳) アクション認識は、ロボットビジョンや自動車といった新興産業分野におけるゲームチェンジャーになる可能性があるため、人工知能にとってエキサイティングな研究手段である。 しかし、現在のディープラーニングは、計算コストと非効率的な学習のために、そのようなアプリケーションにとって大きな課題に直面している。 そこで我々は,spyking gating flow (sgf) という,オンライン行動学習のための新しい脳インスパイトスパイキングニューラルネットワーク (snn) システムを開発した。 開発システムは複数のSGFユニットから構成され、階層的に組み立てられる。 1つのSGFユニットは、特徴抽出層、イベント駆動層、ヒストグラムベースのトレーニング層という3つの層を含む。 開発したシステム機能を示すために,標準的な動的視覚センサ(DVS)ジェスチャー分類をベンチマークとして採用する。 その結果,Deep Learning (DL) に匹敵する87.5%の精度を達成できるが,より少ないトレーニング/推論データ数比1.5:1で達成できることが示唆された。 そして、学習プロセス中に1つのトレーニングエポックしか必要ありません。 一方、我々の知る限りでは、これは非バックプロパゲーションアルゴリズムに基づくSNNの中で最も正確である。 最後に,開発したネットワークの数少ない学習パラダイムを結論づける。 1)階層構造に基づくネットワーク設計は,人間の事前知識を含む。 2)コンテンツに基づくグローバルな動的特徴検出のためのSNN。

Action recognition is an exciting research avenue for artificial intelligence since it may be a game changer in the emerging industrial fields such as robotic visions and automobiles. However, current deep learning faces major challenges for such applications because of the huge computational cost and the inefficient learning. Hence, we develop a novel brain-inspired Spiking Neural Network (SNN) based system titled Spiking Gating Flow (SGF) for online action learning. The developed system consists of multiple SGF units which assembled in a hierarchical manner. A single SGF unit involves three layers: a feature extraction layer, an event-driven layer and a histogram-based training layer. To demonstrate the developed system capabilities, we employ a standard Dynamic Vision Sensor (DVS) gesture classification as a benchmark. The results indicate that we can achieve 87.5% accuracy which is comparable with Deep Learning (DL), but at smaller training/inference data number ratio 1.5:1. And only a single training epoch is required during the learning process. Meanwhile, to the best of our knowledge, this is the highest accuracy among the non-backpropagation algorithm based SNNs. At last, we conclude the few-shot learning paradigm of the developed network: 1) a hierarchical structure-based network design involves human prior knowledge; 2) SNNs for content based global dynamic feature detection.
翻訳日:2022-06-07 14:07:25 公開日:2022-06-04
# PIDNet:PIDコントローラからヒントを得たリアルタイムセマンティックセマンティックセグメンテーションネットワーク

PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller ( http://arxiv.org/abs/2206.02066v1 )

ライセンス: Link先を確認
Jiacong Xu, Zixiang Xiong and Shankar P. Bhattacharyya(参考訳) 2分岐ネットワークアーキテクチャは、リアルタイムセマンティクスセグメンテーションタスクの効率性と有効性を示している。 しかし、低レベル詳細と高レベルセマンティクスの直接的融合は、その詳細特徴が周囲の文脈情報、すなわち、既存の2分岐モデルの精度向上を制限したオーバーシュートによって容易に圧倒される現象につながる。 本稿では、畳み込みニューラルネットワーク(CNN)とPID(Proportional-Integral-Derivative)コントローラの接続を橋渡しし、この2ブランチネットワークが本質的に同様のオーバーシュート問題に悩むProportional-Integral(PI)コントローラにすぎないことを明らかにする。 この問題を緩和するため,我々は3つの分岐ネットワークアーキテクチャpidnetを提案する。pidnetは,詳細,文脈,境界情報を解析する3つのブランチ(セマンティクスの導出)を持ち,最終段階における詳細分枝とコンテキスト分枝の融合を導くために境界注意を利用する。 pidnetsファミリは、推論速度と精度、テスト精度のトレードオフが、cityscapes、camvid、coco-stuffデータセットに類似した推論速度を持つ既存のモデルをすべて上回っている。 特にPIDNet-Sは、シティスケープのテストセットで93.2 FPSの推論速度で78.6% mIOU、CamVidテストセットで81.6% mIOU、153.7 FPSの速度で達成している。

Two-branch network architecture has shown its efficiency and effectiveness for real-time semantic segmentation tasks. However, direct fusion of low-level details and high-level semantics will lead to a phenomenon that the detailed features are easily overwhelmed by surrounding contextual information, namely overshoot in this paper, which limits the improvement of the accuracy of existed two-branch models. In this paper, we bridge a connection between Convolutional Neural Network (CNN) and Proportional-Integral-Derivative (PID) controller and reveal that the two-branch network is nothing but a Proportional-Integral (PI) controller, which inherently suffers from the similar overshoot issue. To alleviate this issue, we propose a novel three-branch network architecture: PIDNet, which possesses three branches to parse the detailed, context and boundary information (derivative of semantics), respectively, and employs boundary attention to guide the fusion of detailed and context branches in final stage. The family of PIDNets achieve the best trade-off between inference speed and accuracy and their test accuracy surpasses all the existed models with similar inference speed on Cityscapes, CamVid and COCO-Stuff datasets. Especially, PIDNet-S achieves 78.6% mIOU with inference speed of 93.2 FPS on Cityscapes test set and 81.6% mIOU with speed of 153.7 FPS on CamVid test set.
翻訳日:2022-06-07 14:07:06 公開日:2022-06-04
# 簡易かつ効率的なプレトレーニング変圧器の極端圧縮

Extreme Compression for Pre-trained Transformers Made Simple and Efficient ( http://arxiv.org/abs/2206.01859v1 )

ライセンス: Link先を確認
Xiaoxia Wu, Zhewei Yao, Minjia Zhang, Conglong Li, Yuxiong He(参考訳) 極端圧縮、特に超低ビット精度(二元/三元)量子化は、大規模nlpモデルを資源制約デバイスに適合させるために提案されている。 しかし、このような攻撃的な圧縮スキームの精度を維持するために、最先端の手法は通常、複雑な圧縮パイプラインを導入している。 また、しばしば、知識蒸留によって既に強く圧縮された小さなトランスフォーマーモデルに焦点が当てられず、それらの方法の有効性を示す体系的な研究が欠如している。 本稿では,従来の研究から多くの重要なハイパーパラメータとトレーニング戦略の影響を計測する,非常に包括的な体系的研究を行う。 その結果、超低ビット精度量子化の以前のベースラインは、かなり訓練不足であることが判明した。 本研究は, 極端圧縮のための単純かつ効果的な圧縮パイプライン XTC を提案する。 XTCは、(1)先行学習した知識蒸留をスキップして、5層BERTを得ることができ、例えば6層TinyBERTのような従来の最先端手法よりも優れた性能が得られることを実証している。

Extreme compression, particularly ultra-low bit precision (binary/ternary) quantization, has been proposed to fit large NLP models on resource-constraint devices. However, to preserve the accuracy for such aggressive compression schemes, cutting-edge methods usually introduce complicated compression pipelines, e.g., multi-stage expensive knowledge distillation with extensive hyperparameter tuning. Also, they oftentimes focus less on smaller transformer models that have already been heavily compressed via knowledge distillation and lack a systematic study to show the effectiveness of their methods. In this paper, we perform a very comprehensive systematic study to measure the impact of many key hyperparameters and training strategies from previous works. As a result, we find out that previous baselines for ultra-low bit precision quantization are significantly under-trained. Based on our study, we propose a simple yet effective compression pipeline for extreme compression, named XTC. XTC demonstrates that (1) we can skip the pre-training knowledge distillation to obtain a 5-layer BERT while achieving better performance than previous state-of-the-art methods, e.g., the 6-layer TinyBERT; (2) extreme quantization plus layer reduction is able to reduce the model size by 50x, resulting in new state-of-the-art results on GLUE tasks.
翻訳日:2022-06-07 14:03:35 公開日:2022-06-04
# ZeroQuant: 大規模変圧器の高速かつ高効率なポストトレーニング量子化

ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers ( http://arxiv.org/abs/2206.01861v1 )

ライセンス: Link先を確認
Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He(参考訳) 大規模に訓練された自然言語モデルを実際に効率的に提供する方法は、強力なクラウドサーバでも、メモリ/計算要求が制限されているため、非常に困難になっている。 本研究では,ZeroQuantと呼ばれる大容量トランスフォーマーベースモデルを圧縮するための,効率的かつ安価なポストトレーニング量子化手法を提案する。 ZeroQuantは,(1)ウェイトとアクティベーションの両方のためのハードウェアフレンドリな微粒な量子化スキーム,(2)元のトレーニングデータにアクセスしなくても手頃な価格のレイヤ・バイ・レイヤの知識蒸留アルゴリズム(LKD),(3)量子化/復号化のオーバーヘッドを取り除くための高度に最適化された量子化システムバックエンドの3つの主要コンポーネントを備えたエンドツーエンドの量子化と推論パイプラインである。 As such, we are able to show that: (1) ZeroQuant can reduce the precision for weights and activations to INT8 in a cost-free way for both BERT and GPT3-style models with minimal accuracy impact, which leads to up to 5.19x/4.16x speedup on those models compared to FP16 inference; (2) ZeroQuant plus LKD affordably quantize the weights in the fully-connected module to INT4 along with INT8 weights in the attention module and INT8 activations, resulting in 3x memory footprint reduction compared to the FP16 model; (3) ZeroQuant can be directly applied to two of the largest open-sourced language models, including GPT-J6B and GPT-NeoX20, for which our INT8 model achieves similar accuracy as the FP16 model but achieves up to 5.2x better efficiency.

How to efficiently serve ever-larger trained natural language models in practice has become exceptionally challenging even for powerful cloud servers due to their prohibitive memory/computation requirements. In this work, we present an efficient and affordable post-training quantization approach to compress large Transformer-based models, termed as ZeroQuant. ZeroQuant is an end-to-end quantization and inference pipeline with three main components: (1) a fine-grained hardware-friendly quantization scheme for both weight and activations; (2) a novel affordable layer-by-layer knowledge distillation algorithm (LKD) even without the access to the original training data; (3) a highly-optimized quantization system backend support to remove the quantization/dequantization overhead. As such, we are able to show that: (1) ZeroQuant can reduce the precision for weights and activations to INT8 in a cost-free way for both BERT and GPT3-style models with minimal accuracy impact, which leads to up to 5.19x/4.16x speedup on those models compared to FP16 inference; (2) ZeroQuant plus LKD affordably quantize the weights in the fully-connected module to INT4 along with INT8 weights in the attention module and INT8 activations, resulting in 3x memory footprint reduction compared to the FP16 model; (3) ZeroQuant can be directly applied to two of the largest open-sourced language models, including GPT-J6B and GPT-NeoX20, for which our INT8 model achieves similar accuracy as the FP16 model but achieves up to 5.2x better efficiency.
翻訳日:2022-06-07 14:03:13 公開日:2022-06-04
# ニューラルネットワークに基づくイベントセグメンテーションによる階層的予測の開発

Developing hierarchical anticipations via neural network-based event segmentation ( http://arxiv.org/abs/2206.02042v1 )

ライセンス: Link先を確認
Christian Gumbsch, Maurits Adam, Birgit Elsner, Georg Martius, Martin V.Butz(参考訳) 人間は様々な時間スケールと階層レベルで予測できる。 これにより、イベントエンコーディングの学習が重要な役割を果たすように思われる。 本研究では,自律的に学習した潜在イベントコードによる階層的予測の開発をモデル化する。 本稿では,ニューラルネットワークの階層的再帰的アーキテクチャについて述べる。その階層的学習バイアスは,センサモジュレータシーケンスを圧縮する潜伏状態の疎化を促進させる。 より高いレベルのネットワークは、潜伏状態が変化する傾向がある状況を予測することを学ぶ。 シミュレーションされたロボットマニピュレータを使って (i)データのイベント構造を正確に反映する潜在状態を学習する。 (ii)より高いレベルで有意義な時間的抽象的予測を発達させ、 (iii)乳児の視線追跡研究に見られる視線行動と同様の目標予測行動を生成する。 このアーキテクチャは、収集された経験の圧縮階層的エンコーディングの自律的で自己動機的な学習と、これらのエンコーディングを高度に多目的で適応的な振る舞いを生み出すために活用するためのステップを提供する。

Humans can make predictions on various time scales and hierarchical levels. Thereby, the learning of event encodings seems to play a crucial role. In this work we model the development of hierarchical predictions via autonomously learned latent event codes. We present a hierarchical recurrent neural network architecture, whose inductive learning biases foster the development of sparsely changing latent state that compress sensorimotor sequences. A higher level network learns to predict the situations in which the latent states tend to change. Using a simulated robotic manipulator, we demonstrate that the system (i) learns latent states that accurately reflect the event structure of the data, (ii) develops meaningful temporal abstract predictions on the higher level, and (iii) generates goal-anticipatory behavior similar to gaze behavior found in eye-tracking studies with infants. The architecture offers a step towards autonomous, self-motivated learning of compressed hierarchical encodings of gathered experiences and the exploitation of these encodings for the generation of highly versatile, adaptive behavior.
翻訳日:2022-06-07 14:01:00 公開日:2022-06-04
# 不均衡クラスと不均一データセットの体系的欠如を処理可能な解釈可能なモデル

Interpretable Models Capable of Handling Systematic Missingness in Imbalanced Classes and Heterogeneous Datasets ( http://arxiv.org/abs/2206.02056v1 )

ライセンス: Link先を確認
Sreejita Ghosh (1, 5,6), Elizabeth S. Baranowski (2), Michael Biehl (1,2,3), Wiebke Arlt (2), Peter Tino (4), and Kerstin Bunte (1) ((1) Bernoulli Institute of Mathematics, Computer Science and Artificial Intelligence, University of Groningen, The Netherlands (2) Institute of Metabolism and Systems Research, University of Birmingham, the United Kingdom (3) Systems Modelling and Quantitative Biomedicine, IMSR, University of Birmingham, the United Kingdom (4) School of Computer Science, University of Birmingham, the United Kingdom (5) Utrecht University, The Netherlands (6) University Medical Centrum Utrecht, The Netherlands)(参考訳) 解釈可能な機械学習技術の医療データセットへの応用は、データのより深い洞察を得るとともに、早期かつ迅速な診断を容易にする。 さらに、これらのモデルの透明性は、アプリケーションドメインの専門家の信頼を高める。 医療データセットは、異種測定、サンプルサイズが制限された不均衡クラス、欠落データなどの一般的な問題に直面しており、機械学習技術の直接的な適用を妨げる。 本稿では,これらの問題を処理可能なプロトタイプベース (pb) 解釈可能なモデル群について述べる。 このコントリビューションで導入されたモデルは、このような状況で適用可能な代替技術と同等または優れたパフォーマンスを示す。 しかし、簡単な解釈を妥協しなければならないアンサンブルベースのモデルとは異なり、pbモデルはそうではない。 さらに,モデルパラメータ多様体を平均化することにより,pbモデルの固有解釈性を維持しつつアンサンブルのパワーを活用する手法を提案する。 すべてのモデルは、2つの現実世界の医療データセットの詳細な分析に加えて、合成データセット(パブリックデータセット)で評価された。 その結果,提案したモデルと戦略は実世界の医療データの課題に対処しつつ,計算コストが安価で透明でありながら,その代替品と同等あるいは優れた性能を保っていることがわかった。

Application of interpretable machine learning techniques on medical datasets facilitate early and fast diagnoses, along with getting deeper insight into the data. Furthermore, the transparency of these models increase trust among application domain experts. Medical datasets face common issues such as heterogeneous measurements, imbalanced classes with limited sample size, and missing data, which hinder the straightforward application of machine learning techniques. In this paper we present a family of prototype-based (PB) interpretable models which are capable of handling these issues. The models introduced in this contribution show comparable or superior performance to alternative techniques applicable in such situations. However, unlike ensemble based models, which have to compromise on easy interpretation, the PB models here do not. Moreover we propose a strategy of harnessing the power of ensembles while maintaining the intrinsic interpretability of the PB models, by averaging the model parameter manifolds. All the models were evaluated on a synthetic (publicly available dataset) in addition to detailed analyses of two real-world medical datasets (one publicly available). Results indicated that the models and strategies we introduced addressed the challenges of real-world medical data, while remaining computationally inexpensive and transparent, as well as similar or superior in performance compared to their alternatives.
翻訳日:2022-06-07 14:00:45 公開日:2022-06-04
# 隣人がコミュニケーションする:パワフルでスケーラブルなグラフニューラルネットワークを目指して

Your Neighbors Are Communicating: Towards Powerful and Scalable Graph Neural Networks ( http://arxiv.org/abs/2206.02059v1 )

ライセンス: Link先を確認
Meng Liu, Haiyang Yu, Shuiwang Ji(参考訳) メッセージパッシンググラフニューラルネットワーク(GNN)は1次元Weisfeiler-Lehman (1-WL)アルゴリズムによって上界表現性を持つことが知られている。 より強力なGNNを実現するために、既存の試みはアドホックな機能を必要とするか、あるいは高時間と空間の複雑さを引き起こす操作を伴う。 本稿では,メッセージパッシング方式のスケーラビリティを保った汎用かつ実証可能なGNNフレームワークを提案する。 特に,グラフ同型テストにおける1-WLの有効性について,近傍の辺を考慮しNC-1-WLを実現することを提案する。 NC-1-WL の表現性は理論上は 1-WL より上である。 さらに,NC-1-WLのニューラルバージョンとしてNC-GNNフレームワークを提案する。 NC-GNNの実装はNC-1-WLと同じくらい強力である。 NC-GNNが様々なベンチマークで顕著な性能を発揮することを示す実験を行った。

Message passing graph neural networks (GNNs) are known to have their expressiveness upper-bounded by 1-dimensional Weisfeiler-Lehman (1-WL) algorithm. To achieve more powerful GNNs, existing attempts either require ad hoc features, or involve operations that incur high time and space complexities. In this work, we propose a general and provably powerful GNN framework that preserves the scalability of message passing scheme. In particular, we first propose to empower 1-WL for graph isomorphism test by considering edges among neighbors, giving rise to NC-1-WL. The expressiveness of NC-1-WL is shown to be strictly above 1-WL but below 3-WL theoretically. Further, we propose the NC-GNN framework as a differentiable neural version of NC-1-WL. Our simple implementation of NC-GNN is provably as powerful as NC-1-WL. Experiments demonstrate that our NC-GNN achieves remarkable performance on various benchmarks.
翻訳日:2022-06-07 14:00:26 公開日:2022-06-04
# 最適潮流学習のためのモデルインフォームド生成逆数ネットワーク(MI-GAN)

Model-Informed Generative Adversarial Network (MI-GAN) for Learning Optimal Power Flow ( http://arxiv.org/abs/2206.01864v1 )

ライセンス: Link先を確認
Yuxuan Li, Chaoyue Zhao, and Chenang Liu(参考訳) 最適電力フロー(OPF)問題は、電力系統の運用において重要な要素であり、電力系統にたらされる再生可能エネルギーの変動、断続性、予測不能により解決がますます困難になる。 確率的およびロバストな最適化アプローチのような従来の最適化手法は、再生可能エネルギーの不確実性に直面したOPF問題に対処するために使用できるが、大規模な問題に対処する上での有効性は限られている。 その結果、ニューラルネットワークのようなディープラーニング技術は、大規模OPF問題を解決する際の計算効率を改善するために最近開発されている。 しかし、解の実現可能性や最適性は保証されない。 本稿では,不確実性下でOPFを解決するための最適化モデルインフォームド生成逆数ネットワーク(MI-GAN)フレームワークを提案する。 1) 生成した解の実現性を確保し, 最適性を向上させるために, 実現性フィルタ層, 比較層, 勾配誘導層という3つの重要な層が提案され, (2) ganベースのフレームワークでは, これら3つの新しい層を組み込んだ効率的なモデルインフォームセレクタが確立され, (3) 解の最適性を改善するための新しい再帰的反復アルゴリズムも提案されている。 IEEEテストシステムの数値計算結果から,提案手法は非常に有効で有望であることが示された。

The optimal power flow (OPF) problem, as a critical component of power system operations, becomes increasingly difficult to solve due to the variability, intermittency, and unpredictability of renewable energy brought to the power system. Although traditional optimization techniques, such as stochastic and robust optimization approaches, could be used to address the OPF problem in the face of renewable energy uncertainty, their effectiveness in dealing with large-scale problems remains limited. As a result, deep learning techniques, such as neural networks, have recently been developed to improve computational efficiency in solving large-scale OPF problems. However, the feasibility and optimality of the solution may not be guaranteed. In this paper, we propose an optimization model-informed generative adversarial network (MI-GAN) framework to solve OPF under uncertainty. The main contributions are summarized into three aspects: (1) to ensure feasibility and improve optimality of generated solutions, three important layers are proposed: feasibility filter layer, comparison layer, and gradient-guided layer; (2) in the GAN-based framework, an efficient model-informed selector incorporating these three new layers is established; and (3) a new recursive iteration algorithm is also proposed to improve solution optimality. The numerical results on IEEE test systems show that the proposed method is very effective and promising.
翻訳日:2022-06-07 13:56:19 公開日:2022-06-04
# グラフ生成のためのアンプール層

An Unpooling Layer for Graph Generation ( http://arxiv.org/abs/2206.01874v1 )

ライセンス: Link先を確認
Yinglong Guo, Dongmian Zou, Gilad Lerman(参考訳) 効果的なグラフ生成のための新しい学習可能なグラフアンプール層を提案する。 特徴のあるグラフが与えられると、アンプール層はこのグラフを拡大し、望ましい新しい構造と特徴を学ぶ。 このアンプール層は訓練可能であるため、変分オートエンコーダのデコーダまたは生成逆ネットワーク(gan)のジェネレータでグラフ生成に適用することができる。 我々は、アンプールグラフが連結であり、任意の連結グラフは3ノードグラフから順次アンプール可能であることを証明する。 GANジェネレータにアンプール層を適用します。 グラフ生成の最も研究された例は分子生成であるため、この文脈でアイデアをテストする。 QM9およびZINCデータセットを用いて、隣接行列に基づくアプローチの代わりにアンプール層を用いて得られた改善を実証する。

We propose a novel and trainable graph unpooling layer for effective graph generation. Given a graph with features, the unpooling layer enlarges this graph and learns its desired new structure and features. Since this unpooling layer is trainable, it can be applied to graph generation either in the decoder of a variational autoencoder or in the generator of a generative adversarial network (GAN). We prove that the unpooled graph remains connected and any connected graph can be sequentially unpooled from a 3-nodes graph. We apply the unpooling layer within the GAN generator. Since the most studied instance of graph generation is molecular generation, we test our ideas in this context. Using the QM9 and ZINC datasets, we demonstrate the improvement obtained by using the unpooling layer instead of an adjacency-matrix-based approach.
翻訳日:2022-06-07 13:55:53 公開日:2022-06-04
# 機械学習に基づくサイバーいじめ検出における特徴密度と言語支援埋め込みの応用に関する初期研究

Initial Study into Application of Feature Density and Linguistically-backed Embedding to Improve Machine Learning-based Cyberbullying Detection ( http://arxiv.org/abs/2206.01889v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Gniewosz Leliwa, Michal Wroczynski, Mateusz Piech and Aleksander Smywinski-Pohl(参考訳) 本研究では,畳み込みニューラルネットワーク(cnn)における言語支援埋め込みに着目し,データセットの様々な言語前処理手法を用いた場合の機械学習(ml)分類器の性能変化について検討する。 さらに,特徴密度の概念を考察し,CNNを含むML分類器の性能を相対的に予測する可能性を確認する。 この研究は、自動サイバーいじめ検出に関するkaggleコンペティションで提供されるformspringデータセットで実施された。 このデータセットは客観的専門家(心理学者)によって再注釈され、サイバーいじめ研究における専門家のアノテーションの重要性が複数回示された。 本研究は,サイバーいじめ検出におけるニューラルネットワークの有効性と分類器の性能と特徴密度の関係を確認し,畳み込みニューラルネットワークのための様々な言語支援組込みを訓練する新しいアプローチを提案する。

In this research, we study the change in the performance of machine learning (ML) classifiers when various linguistic preprocessing methods of a dataset were used, with the specific focus on linguistically-backed embeddings in Convolutional Neural Networks (CNN). Moreover, we study the concept of Feature Density and confirm its potential to comparatively predict the performance of ML classifiers, including CNN. The research was conducted on a Formspring dataset provided in a Kaggle competition on automatic cyberbullying detection. The dataset was re-annotated by objective experts (psychologists), as the importance of professional annotation in cyberbullying research has been indicated multiple times. The study confirmed the effectiveness of Neural Networks in cyberbullying detection and the correlation between classifier performance and Feature Density while also proposing a new approach of training various linguistically-backed embeddings for Convolutional Neural Networks.
翻訳日:2022-06-07 12:50:50 公開日:2022-06-04
# 機械学習分類器の性能推定における特徴密度の可能性とサイバーバブル検出への応用

Exploring the Potential of Feature Density in Estimating Machine Learning Classifier Performance with Application to Cyberbullying Detection ( http://arxiv.org/abs/2206.01949v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski, Fumito Masui, Gniewosz Leliwa and Michal Wroczynski(参考訳) この研究に携わる。 我々は,機械学習(ML)分類器の性能を訓練前に相対的に推定する方法として,特徴密度(HD)の可能性を分析する。 この研究の目的は、データセットのサイズが継続的に増加し、Deep Neural Networks (DNN) の人気が高まっているため、MLモデルのリソース集約的なトレーニングの問題を解決することにある。 より強力な計算資源に対する需要が常に増加するという問題は環境にも影響を与えており、大規模なMLモデルのトレーニングがCO2排出量、排出を著しく増加させています。 自然言語処理のためのmlモデルのリソース集約的なトレーニングを最適化し、必要な実験イテレーションの数を減らすためのアプローチ1。 本稿では,FDを用いた分類器訓練効率の向上に向けた従来の試みをさらに拡張するとともに,対話分類,特にサイバブリング検出における言語支援機能前処理手法の有効性について考察する。

In this research. we analyze the potential of Feature Density (HD) as a way to comparatively estimate machine learning (ML) classifier performance prior to training. The goal of the study is to aid in solving the problem of resource-intensive training of ML models which is becoming a serious issue due to continuously increasing dataset sizes and the ever rising popularity of Deep Neural Networks (DNN). The issue of constantly increasing demands for more powerful computational resources is also affecting the environment, as training large-scale ML models are causing alarmingly-growing amounts of CO2, emissions. Our approach 1s to optimize the resource-intensive training of ML models for Natural Language Processing to reduce the number of required experiments iterations. We expand on previous attempts on improving classifier training efficiency with FD while also providing an insight to the effectiveness of various linguistically-backed feature preprocessing methods for dialog classification, specifically cyberbullying detection.
翻訳日:2022-06-07 12:50:35 公開日:2022-06-04
# サイバーいじめ検出のための異なる言語支援単語埋め込みの性能比較

Comparing Performance of Different Linguistically-Backed Word Embeddings for Cyberbullying Detection ( http://arxiv.org/abs/2206.01950v1 )

ライセンス: Link先を確認
Juuso Eronen, Michal Ptaszynski and Fumito Masui(参考訳) ほとんどの場合、単語埋め込みは生のトークンや、時には補題からのみ学習される。 これにはBERTのような事前訓練された言語モデルが含まれる。 語彙と構造の間のより深い関係を捉え、冗長な情報をフィルタリングする可能性について検討するため、生のトークンや補題と組み合わせて形態的、構文的、その他の種類の言語情報を保存することを提案する。 これは例えば、使用済みの語彙機能に音声部品や依存情報を含めることを意味する。 埋め込みという言葉は、単に生のトークンではなく組み合わせで訓練することができる。 また、この手法を巨大な言語モデルの事前学習に適用し、性能を向上させることも可能である。 これは、サイバーいじめの検出のような言語表現の観点から、より洗練された問題に取り組むのに役立つだろう。

In most cases, word embeddings are learned only from raw tokens or in some cases, lemmas. This includes pre-trained language models like BERT. To investigate on the potential of capturing deeper relations between lexical items and structures and to filter out redundant information, we propose to preserve the morphological, syntactic and other types of linguistic information by combining them with the raw tokens or lemmas. This means, for example, including parts-of-speech or dependency information within the used lexical features. The word embeddings can then be trained on the combinations instead of just raw tokens. It is also possible to later apply this method to the pre-training of huge language models and possibly enhance their performance. This would aid in tackling problems which are more sophisticated from the point of view of linguistic representation, such as detection of cyberbullying.
翻訳日:2022-06-07 12:50:20 公開日:2022-06-04
# 確率的多重ターゲットサンプリング勾配降下

Stochastic Multiple Target Sampling Gradient Descent ( http://arxiv.org/abs/2206.01934v1 )

ライセンス: Link先を確認
Hoang Phan, Ngoc Tran, Trung Le, Toan Tran, Nhat Ho, Dinh Phung(参考訳) 非正規化対象分布からのサンプリングは、確率的推論における多くの応用において重要な問題である。 SVGD(Stin Variational Gradient Descent)は、関心の分布を近似するために粒子の集合を反復的に更新する強力な方法である。 さらに、その漸近特性を解析すると、SVGDは正確に単目的最適化問題に還元され、この単目的最適化問題の確率バージョンとみなすことができる。 自然の疑問は「多目的最適化の確率的なバージョンを導き出すか?」である。 そこで本研究では,複数の非正規化対象分布から試料を採取できる確率的マルチターゲットサンプリング勾配降下 (mt-sgd) を提案する。 具体的には, MT-SGDは, 複数のターゲット分布に徐々に配向する中間分布の流れを流し, 試料粒子は対象分布の高次領域へ移動することができる。 興味深いことに、漸近解析は、我々のアプローチが予想通り多目的最適化のための多重勾配降下アルゴリズムに正確に還元されることを示している。 最後に,マルチタスク学習へのアプローチのメリットを示す総合的な実験を行った。

Sampling from an unnormalized target distribution is an essential problem with many applications in probabilistic inference. Stein Variational Gradient Descent (SVGD) has been shown to be a powerful method that iteratively updates a set of particles to approximate the distribution of interest. Furthermore, when analysing its asymptotic properties, SVGD reduces exactly to a single-objective optimization problem and can be viewed as a probabilistic version of this single-objective optimization problem. A natural question then arises: "Can we derive a probabilistic version of the multi-objective optimization?". To answer this question, we propose Stochastic Multiple Target Sampling Gradient Descent (MT-SGD), enabling us to sample from multiple unnormalized target distributions. Specifically, our MT-SGD conducts a flow of intermediate distributions gradually orienting to multiple target distributions, which allows the sampled particles to move to the joint high-likelihood region of the target distributions. Interestingly, the asymptotic analysis shows that our approach reduces exactly to the multiple-gradient descent algorithm for multi-objective optimization, as expected. Finally, we conduct comprehensive experiments to demonstrate the merit of our approach to multi-task learning.
翻訳日:2022-06-07 12:50:07 公開日:2022-06-04
# スパース機構シフト仮説に基づく不均質環境における因果発見

Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis ( http://arxiv.org/abs/2206.02013v1 )

ライセンス: Link先を確認
Ronan Perry, Julius von K\"ugelgen, Bernhard Sch\"olkopf(参考訳) 機械学習のアプローチは、一般に独立で同一に分散されたデータ(すなわち、d)の仮定に依存する。 しかし実際には、環境間の分散シフトのため、この仮定はほとんど常に違反している。 価値ある学習信号は分布の変化による異種データによって提供することができるが、任意(逆)な変化による学習は不可能であることも知られている。 因果モデルは観測分布と介入分布の両方をエンコードするため、因果性は分布シフトをモデル化するための有用なフレームワークを提供する。 本研究では,少数の因果条件の変化による分布変化を仮定するスパース機構シフト仮説について検討する。 このアイデアに動機付けられて、不均一な環境から因果構造を学ぶことに応用する。 そこで本研究では,様々な経験的推定器に適応可能な手法であるメカニズムシフトスコア(mss)を提案し,スパース機構シフト仮説が成り立つ場合,因果構造全体を高い確率で同定する。 実験により,理論によって予測される振る舞いを検証し,複数の推定値とスコア関数を比較して,現実の最良のアプローチを特定する。 他の手法と比較して、MSSが非パラメトリックであると同時にスパース変化を明示的に活用することでギャップを埋めることを示す。

Machine learning approaches commonly rely on the assumption of independent and identically distributed (i.i.d.) data. In reality, however, this assumption is almost always violated due to distribution shifts between environments. Although valuable learning signals can be provided by heterogeneous data from changing distributions, it is also known that learning under arbitrary (adversarial) changes is impossible. Causality provides a useful framework for modeling distribution shifts, since causal models encode both observational and interventional distributions. In this work, we explore the sparse mechanism shift hypothesis, which posits that distribution shifts occur due to a small number of changing causal conditionals. Motivated by this idea, we apply it to learning causal structure from heterogeneous environments, where i.i.d. data only allows for learning an equivalence class of graphs without restrictive assumptions. We propose the Mechanism Shift Score (MSS), a score-based approach amenable to various empirical estimators, which provably identifies the entire causal structure with high probability if the sparse mechanism shift hypothesis holds. Empirically, we verify behavior predicted by the theory and compare multiple estimators and score functions to identify the best approaches in practice. Compared to other methods, we show how MSS bridges a gap by both being nonparametric as well as explicitly leveraging sparse changes.
翻訳日:2022-06-07 12:49:47 公開日:2022-06-04
# capped implicit exploration を用いた softmax policy gradient とneural replicator dynamics の補間

Interpolating Between Softmax Policy Gradient and Neural Replicator Dynamics with Capped Implicit Exploration ( http://arxiv.org/abs/2206.02036v1 )

ライセンス: Link先を確認
Dustin Morrill, Esra'a Saleh, Michael Bowling, Amy Greenwald(参考訳) ニューラルレプリケータダイナミクス(NeuRD)は、オンライン学習と進化ゲーム理論によって動機付けられた基礎的ソフトマックスポリシー勾配(SPG)アルゴリズムの代替である。 NeuRD の予測更新は SPG とほぼ同程度に設計されているが,モンテカルロ の更新は大きな違いがある。 当然、これによってNeuRDの更新はSPGよりも分散度が高い。 敵対的バンディット設定における暗黙的探索アルゴリズムに基づいて,capped implicit exploration (cix) 推定法を導入し,neurd-cix の構築を可能にし,neurd と spg のこの側面を補間する。 我々は,CIX推定をブラックボックス削減に利用して,高い確率で保留する残差を持つ帯域幅のアルゴリズムを構築する方法と,逐次決定設定におけるNeuRD-CIXにかかわる利点を示す。 解析の結果,NuRD-CIXは非定常環境下でのSPGに対するNeuRDの優位性を保ちながら,NeuRD-CIXがNeuRDよりも安定に動作すると予測されることを示す。

Neural replicator dynamics (NeuRD) is an alternative to the foundational softmax policy gradient (SPG) algorithm motivated by online learning and evolutionary game theory. The NeuRD expected update is designed to be nearly identical to that of SPG, however, we show that the Monte Carlo updates differ in a substantial way: the importance correction accounting for a sampled action is nullified in the SPG update, but not in the NeuRD update. Naturally, this causes the NeuRD update to have higher variance than its SPG counterpart. Building on implicit exploration algorithms in the adversarial bandit setting, we introduce capped implicit exploration (CIX) estimates that allow us to construct NeuRD-CIX, which interpolates between this aspect of NeuRD and SPG. We show how CIX estimates can be used in a black-box reduction to construct bandit algorithms with regret bounds that hold with high probability and the benefits this entails for NeuRD-CIX in sequential decision-making settings. Our analysis reveals a bias--variance tradeoff between SPG and NeuRD, and shows how theory predicts that NeuRD-CIX will perform well more consistently than NeuRD while retaining NeuRD's advantages over SPG in non-stationary environments.
翻訳日:2022-06-07 12:49:26 公開日:2022-06-04
# アクティブベイズ因果推論

Active Bayesian Causal Inference ( http://arxiv.org/abs/2206.02063v1 )

ライセンス: Link先を確認
Christian Toth, Lars Lorch, Christian Knoll, Andreas Krause, Franz Pernkopf, Robert Peharz, Julius von K\"ugelgen(参考訳) 因果関係の発見と因果関係の推論は、伝統的に分離および連続したタスクとして扱われる: 1つは因果関係グラフを推論し、それを用いて介入の因果効果を推定する。 しかし、このような2段階のアプローチは、特に積極的に収集された介入データの観点からは、完全に特定された因果関係モデルを必要としない。 ベイズの観点から見れば、因果関係(例えば、因果関係グラフや何らかの因果関係の影響)は後続推論の潜在量と見なすことができるので、直接的関心を持たない他の非観測量(例えば、完全な因果関係モデル)は、この過程において限界化され、我々の疫学的不確実性に寄与すべきである。 本研究では,因果モデルと興味のある問合せを共同で推測する,統合因果発見と推論のための完全ベイズ型アクティブ学習フレームワークであるアクティブベイズ因果推論(abci)を提案する。 ABCI へのアプローチでは,ガウス過程を用いてモデル化した因果十分非線形付加雑音モデルのクラスに着目した。 目的とする因果関係について最大限に有意な実験を順次設計し、対応する介入データを収集し、信念を更新して次の実験を選択する。 シミュレーションを通じて,本手法は,全因果グラフの学習のみに焦点を当てた複数のベースラインよりもデータ効率が高いことを示す。 これにより、より少ないサンプルから下流の因果関係を正確に学習し、興味のある量の不確実性推定を適切に調整することができる。

Causal discovery and causal reasoning are classically treated as separate and consecutive tasks: one first infers the causal graph, and then uses it to estimate causal effects of interventions. However, such a two-stage approach is uneconomical, especially in terms of actively collected interventional data, since the causal query of interest may not require a fully-specified causal model. From a Bayesian perspective, it is also unnatural, since a causal query (e.g., the causal graph or some causal effect) can be viewed as a latent quantity subject to posterior inference -- other unobserved quantities that are not of direct interest (e.g., the full causal model) ought to be marginalized out in this process and contribute to our epistemic uncertainty. In this work, we propose Active Bayesian Causal Inference (ABCI), a fully-Bayesian active learning framework for integrated causal discovery and reasoning, which jointly infers a posterior over causal models and queries of interest. In our approach to ABCI, we focus on the class of causally-sufficient, nonlinear additive noise models, which we model using Gaussian processes. We sequentially design experiments that are maximally informative about our target causal query, collect the corresponding interventional data, and update our beliefs to choose the next experiment. Through simulations, we demonstrate that our approach is more data-efficient than several baselines that only focus on learning the full causal graph. This allows us to accurately learn downstream causal queries from fewer samples while providing well-calibrated uncertainty estimates for the quantities of interest.
翻訳日:2022-06-07 12:49:02 公開日:2022-06-04