このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211021となっている論文です。

PDF登録状況(公開日: 20211021)

TitleAuthorsAbstract論文公表日・翻訳日
# 関数近似のためのフーリエニューラルネットワーク

Fourier Neural Networks for Function Approximation ( http://arxiv.org/abs/2111.08438v1 )

ライセンス: Link先を確認
R Subhash Chandra Bose, Kakarla Yaswanth(参考訳) さまざまなタスクに適用した奇跡的な結果を提供するニューラルネットワークの成功は驚くべきことです。 作業における洞察は、ニューラルネットワークの普遍近似特性を研究することによって得られる。 ニューラルネットワークが普遍近似であることは広く証明されている。 さらに、ディープニューラルネットワークが近似子であることが証明された。 特に、ディープニューラルネットワークによって実装される関数を近似する狭いニューラルネットワークでは、ネットワークが指数関数的に多数のニューロンを取ることが証明されている。 本研究では,様々な合成関数の既存手法を実装し,その欠陥を同定した。 さらに,フーリエニューラルネットワークは,ニューラルネットワーク内の2層のみに対して,かなり良好に動作可能であることを検証した。 正弦波活性化と2つの隠蔽層を有する修正フーリエニューラルネットワークを提案し,その結果を集計した。

The success of Neural networks in providing miraculous results when applied to a wide variety of tasks is astonishing. Insight in the working can be obtained by studying the universal approximation property of neural networks. It is proved extensively that neural networks are universal approximators. Further it is proved that deep Neural networks are better approximators. It is specifically proved that for a narrow neural network to approximate a function which is otherwise implemented by a deep Neural network, the network take exponentially large number of neurons. In this work, we have implemented existing methodologies for a variety of synthetic functions and identified their deficiencies. Further, we examined that Fourier neural network is able to perform fairly good with only two layers in the neural network. A modified Fourier Neural network which has sinusoidal activation and two hidden layer is proposed and the results are tabulated.
翻訳日:2021-11-21 15:07:18 公開日:2021-10-21
# (参考訳) 多値論理における最初の多項式非クラス

A First Polynomial Non-Clausal Class in Many-Valued Logic ( http://arxiv.org/abs/2110.12901v1 )

ライセンス: CC BY 4.0
Gonzalo E. Imaz(参考訳) 導出効率に対する多項式公式クラスの関連性はそれらの探索を動機付け、現在ではそのようなクラスが多数知られている。 それにもかかわらず、それらはクローサル形式と命題論理の設定において排他的に求められており、これはもちろん実際のアプリケーションに対して表現的に制限されている。 その結果、非閉体(NC)形式の第一多項式命題類が最近提案されている。 これらの線に沿って、また、命題論理を越えてNCトラクタビリティを適用可能にするために、まず、正規多値ホーン非クラウサル類(RH)を定義し、正規クラス(HhornとNC)を適宜同型化する。 第二に、(1) RH と正則ホーン類との関係は、構文的に RH がホーン類を仮定するが、両方の類が意味論的に同値であること、(2) RH と正則非閉クラスの間には、RH がホーン形式であるすべての NC 式を含むことが示される。 第3に、正規非正則単位分解(RUR-NC)を定義し、RHに対して完備であり、多項式時間でその満足度をチェックする。 後者の事実は、RHが多値で非クラウスでトラクタブルであるため、我々の目的が達成されていることを示している。 RHとRUR-NCはどちらもDPLLスキームにおいて基本的であり、命題論理において最も効率的であり、他の古典的でない論理にも拡張できるため、これらは効率的な非論理的DPLLに基づく近似推論の道を開いたと論じる。

The relevance of polynomial formula classes to deductive efficiency motivated their search, and currently, a great number of such classes is known. Nonetheless, they have been exclusively sought in the setting of clausal form and propositional logic, which is of course expressively limiting for real applications. As a consequence, a first polynomial propositional class in non-clausal (NC) form has recently been proposed. Along these lines and towards making NC tractability applicable beyond propositional logic, firstly, we define the Regular many-valued Horn Non-Clausal class, or RH, obtained by suitably amalgamating both regular classes: Horn and NC. Secondly, we demonstrate that the relationship between (1) RH and the regular Horn class is that syntactically RH subsumes the Horn class but that both classes are equivalent semantically; and between (2) RH and the regular non-clausal class is that RH contains all NC formulas whose clausal form is Horn. Thirdly, we define Regular Non-Clausal Unit-Resolution, or RUR-NC , and prove both that it is complete for RH and that checks its satisfiability in polynomial time. The latter fact shows that our intended goal is reached since RH is many-valued, non-clausal and tractable. As RH and RUR-NC are, both, basic in the DPLL scheme, the most efficient in propositional logic, and can be extended to some other non-classical logics, we argue that they pave the way for efficient non-clausal DPLL-based approximate reasoning.
翻訳日:2021-11-01 06:00:06 公開日:2021-10-21
# (参考訳) 信頼で電力ネットワークを実行することを学ぶ [全文訳有]

Learning to run a power network with trust ( http://arxiv.org/abs/2110.12908v1 )

ライセンス: CC BY 4.0
Antoine Marot, Benjamin Donnot, Karim Chaouache, Adrian Kelly, Qiuhua Huang, Ramij-Raja Hossain, Jochen L. Cremer(参考訳) 人工エージェントはリアルタイム電力系統の運用、特に混雑管理のための仲介動作を計算することを約束している。 現在、これらのエージェントは自律走行のみに限定されている。 しかし、自律型エージェントはすぐには配備されない。 オペレーターは今後も行動を起こす責任を負う。 本稿では,オペレータのためのアシスタントの設計を目指して,ループ内の人間を考察し,この問題に対する独自の定式化を提案する。 まず,提案する動作が信頼性が低い場合に,先行してオペレータアラームに送信する能力を有するエージェントを前進させる。 我々は、オペレーターが利用できる注意をアラーム送信時に減少する予算としてモデル化する。 我々は,提案するエージェントがネットワークを最大限に運用しながら,関連するアラームを送信する能力のベンチマークを行う「信頼を持って電力ネットワークを実行する学習」の設計と結果を示す。

Artificial agents are promising for realtime power system operations, particularly, to compute remedial actions for congestion management. Currently, these agents are limited to only autonomously run by themselves. However, autonomous agents will not be deployed any time soon. Operators will still be in charge of taking action in the future. Aiming at designing an assistant for operators, we here consider humans in the loop and propose an original formulation for this problem. We first advance an agent with the ability to send to the operator alarms ahead of time when the proposed actions are of low confidence. We further model the operator's available attention as a budget that decreases when alarms are sent. We present the design and results of our competition "Learning to run a power network with trust" in which we benchmark the ability of submitted agents to send relevant alarms while operating the network to their best.
翻訳日:2021-11-01 05:58:52 公開日:2021-10-21
# (参考訳) グラフ埋め込みのためのDegree-based Random Walk Approach [全文訳有]

Degree-Based Random Walk Approach for Graph Embedding ( http://arxiv.org/abs/2110.13627v1 )

ライセンス: CC BY 4.0
Sarmad N. Mohammed, Semra G\"und\"u\c{c}(参考訳) 局所的および大域的近傍情報を数値ベクトルで表現するグラフ埋め込みは、幅広い実世界のシステムの数学的モデリングにおいて重要な部分である。 埋め込みアルゴリズムのうち、ランダムウォークベースのアルゴリズムは非常に成功したことが証明されている。 これらのアルゴリズムは、再定義されたステップ数で多数のランダムウォークを生成して情報を集める。 ランダムウォークを作成することが、埋め込みプロセスの最も要求される部分です。 計算要求はネットワークのサイズに応じて増加する。 さらに、実世界のネットワークでは、同じ足場上の全てのノードを考えると、低次ノードの多さは不均衡なデータ問題を引き起こす。 本研究では,計算量が少なく,ノード接続性に配慮した一様サンプリング手法を提案する。 提案手法では,ランダムウォークの数をノードの次数に比例して生成する。 提案アルゴリズムの利点は,大規模グラフに適用した場合にさらに向上する。 CORAとCiteSeerという2つのネットワークを用いて比較研究を行った。 一定数のウォークケースと比較すると,提案手法は,ノード分類やリンク予測計算において同じ精度に達するのに50%の計算労力を要しない。

Graph embedding, representing local and global neighborhood information by numerical vectors, is a crucial part of the mathematical modeling of a wide range of real-world systems. Among the embedding algorithms, random walk-based algorithms have proven to be very successful. These algorithms collect information by creating numerous random walks with a redefined number of steps. Creating random walks is the most demanding part of the embedding process. The computation demand increases with the size of the network. Moreover, for real-world networks, considering all nodes on the same footing, the abundance of low-degree nodes creates an imbalanced data problem. In this work, a computationally less intensive and node connectivity aware uniform sampling method is proposed. In the proposed method, the number of random walks is created proportionally with the degree of the node. The advantages of the proposed algorithm become more enhanced when the algorithm is applied to large graphs. A comparative study by using two networks namely CORA and CiteSeer is presented. Comparing with the fixed number of walks case, the proposed method requires 50% less computational effort to reach the same accuracy for node classification and link prediction calculations.
翻訳日:2021-11-01 05:46:38 公開日:2021-10-21
# (参考訳) Webアプリケーションレベルでのサービスメッシュフォールトレジリエンスのためのモデルベース強化学習 [全文訳有]

Model-based Reinforcement Learning for Service Mesh Fault Resiliency in a Web Application-level ( http://arxiv.org/abs/2110.13621v1 )

ライセンス: CC BY 4.0
Fanfei Meng, Lalita Jagadeesan, Marina Thottan(参考訳) マイクロサービスベースのアーキテクチャにより、デプロイ後もwebアプリケーションのさまざまな側面を独立して作成および更新することができる。 サービスメッシュなどの関連テクノロジは、障害発生時の要求応答サービスの振る舞いとそれらのインタラクションを制御した属性設定を通じて、アプリケーションレベルのフォールトレジリエンスを提供する。 これは非常に柔軟性を提供しますが、これらの属性の構成された値(およびそれらの関係)は、アプリケーション全体のパフォーマンスとフォールトレジリエンスに大きな影響を与えます。 さらに、基盤となる分散システムの複雑さと多くの属性値の組み合わせによって、テストを通じて障害回復力に関する属性値の最良の組み合わせと最悪の組み合わせを決定することは不可能である。 本稿では,サービスメッシュのフォールトレジリエンスに対するモデルベース強化学習ワークフローを提案する。 当社のアプローチは,単一サービスから効率的なエージェントコラボレーションによる集約型マルチサービス管理に至るまで,Webアプリケーションレベルで最も重要なフォールトレジリエンス動作の予測を可能にする。

Microservice-based architectures enable different aspects of web applications to be created and updated independently, even after deployment. Associated technologies such as service mesh provide application-level fault resilience through attribute configurations that govern the behavior of request-response service -- and the interactions among them -- in the presence of failures. While this provides tremendous flexibility, the configured values of these attributes -- and the relationships among them -- can significantly affect the performance and fault resilience of the overall application. Furthermore, it is impossible to determine the best and worst combinations of attribute values with respect to fault resiliency via testing, due to the complexities of the underlying distributed system and the many possible attribute value combinations. In this paper, we present a model-based reinforcement learning workflow towards service mesh fault resiliency. Our approach enables the prediction of the most significant fault resilience behaviors at a web application-level, scratching from single service to aggregated multi-service management with efficient agent collaborations.
翻訳日:2021-11-01 05:38:04 公開日:2021-10-21
# 非対称モーメント分布を持つハミルトンモンテカルロ

Hamiltonian Monte Carlo with Asymmetrical Momentum Distributions ( http://arxiv.org/abs/2110.12907v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz Nowicki(参考訳) 既存のハミルトニアンモンテカルロ (HMC) アルゴリズムの厳密な収束保証は、重要な対称分布であるガウス補助運動量変数を使用する。 本稿では,新しい解析的および確率的議論を用いたHMCの収束解析について述べる。 この収束は、より弱い条件下で厳密に確立され、その他は一般の補助分布を許容する。 本研究では,非対称運動量分布をもつ平板HMCが重要な自己随伴性要件を破ることを示す。 本稿では, Alternating Direction HMC (AD-HMC) と呼ばれる改良版を提案する。 十分条件は、ad-hmcがwasserstein距離で幾何収束を示す下で確立される。 数値実験により、AD-HMCはガウス補助体を用いたHMCよりも優れた性能を示すことが示唆された。

Existing rigorous convergence guarantees for the Hamiltonian Monte Carlo (HMC) algorithm use Gaussian auxiliary momentum variables, which are crucially symmetrically distributed. We present a novel convergence analysis for HMC utilizing new analytic and probabilistic arguments. The convergence is rigorously established under significantly weaker conditions, which among others allow for general auxiliary distributions. In our framework, we show that plain HMC with asymmetrical momentum distributions breaks a key self-adjointness requirement. We propose a modified version that we call the Alternating Direction HMC (AD-HMC). Sufficient conditions are established under which AD-HMC exhibits geometric convergence in Wasserstein distance. Numerical experiments suggest that AD-HMC can show improved performance over HMC with Gaussian auxiliaries.
翻訳日:2021-10-26 15:46:47 公開日:2021-10-21
# 顕微鏡下病理画像におけるHER2の自動スコーリングシステム

Automated Scoring System of HER2 in Pathological Images under the Microscope ( http://arxiv.org/abs/2110.12900v1 )

ライセンス: Link先を確認
Zichen Zhang, Lang Wang, and Shuhao Wang(参考訳) 乳がんは世界中で最も一般的ながんである。 免疫組織化学的(ihc)を有するヒト上皮成長因子受容体2(her2)は、乳癌患者に対して適切な治療を提供するための病理学的評価に広く用いられている。 しかし、病理学者の不足は、現在の社会において極めて重要であり、her2過剰発現の視覚的な診断は主観的であり、オブザーバー間変異の影響を受けやすい。 近年、病気診断における人工知能(ai)の急速な発展に伴い、従来のコンピュータビジョンや機械学習手法を用いたいくつかのher2自動スコアリング手法は、her2診断精度の向上を示しているが、病理学における不合理な解釈と、アノテーションの高価で倫理的な問題により、これらの手法は、実際の病理医の負担を軽減するために、病院に展開する長い道のりがある。 本稿では,病理学者によるHER2スコアの診断の実際のワークフローをシミュレートしたHER2スコアガイドラインに厳格に従うHER2自動スコアシステムを提案する。 従来の手法と異なり,HER2の正の制御を考慮に入れて各スライドのアッセイ性能を確認し,特に境界線の場合において,現在の視野(FOV)と正の制御FOVの繰り返し比較とチェックを行う作業を排除する。 さらに,顕微鏡下で選択された各FOVに対して,細胞分類に応じた膜染色強度と完全度をリアルタイムに解析し,可視化する。 当社の厳密なワークフローと柔軟なインタラクティブな需要調整によって,her2診断の迅速化とロバスト性と正確性の向上が期待できる。 提案システムは病院に展開するための徹底したアイプラットフォームに組み込まれる予定です。

Breast cancer is the most common cancer among women worldwide. The human epidermal growth factor receptor 2(HER2) with immunohistochemical( IHC) is widely used for pathological evaluation to provide the appropriate therapy for patients with breast cancer. However, the deficiency of pathologists is extremely significant in the current society, and visual diagnosis of the HER2 overexpression is subjective and susceptible to inter-observer variation. Recently, with the rapid development of artificial intelligence(AI) in disease diagnosis, several automated HER2 scoring methods using traditional computer vision or machine learning methods indicate the improvement of the HER2 diagnostic accuracy, but the unreasonable interpretation in pathology, as well as the expensive and ethical issues for annotation, make these methods still have a long way to deploy in hospitals to ease pathologists' burden in real. In this paper, we propose a HER2 automated scoring system that strictly follows the HER2 scoring guidelines simulating the real workflow of HER2 scores diagnosis by pathologists. Unlike the previous work, our method takes the positive control of HER2 into account to make sure the assay performance for each slide, eliminating work for repeated comparison and checking for the current field of view(FOV) and positive control FOV, especially for the borderline cases. Besides, for each selected FOV under the microscope, our system provides real-time HER2 scores analysis and visualizations of the membrane staining intensity and completeness corresponding with the cell classification. Our rigorous workflow along with the flexible interactive adjustion in demand substantially assists pathologists to finish the HER2 diagnosis faster and improves the robustness and accuracy. The proposed system will be embedded in our Thorough Eye platform for deployment in hospitals.
翻訳日:2021-10-26 15:15:59 公開日:2021-10-21
# (参考訳) CaloFlow II: 正規化フローによるキャロリメータショーアの高速かつ高精度な生成 [全文訳有]

CaloFlow II: Even Faster and Still Accurate Generation of Calorimeter Showers with Normalizing Flows ( http://arxiv.org/abs/2110.11377v1 )

ライセンス: CC BY 4.0
Claudius Krause and David Shih(参考訳) 近年,正規化フローに基づくGEANT4カロリーシャワーエミュレーションのための高忠実度生成モデルであるCaloFlowを紹介した。 そこで,本研究では,シャワー発生速度を500倍に高速化するフレームワークであるcaloflow v2について紹介する。 この改善は,ml文献における音声合成のために開発された確率密度蒸留法に基づくもので,強力な損失項の導入によりさらに発展する。 我々は,CaloFlow v2が,定性的(平均画像,高次特徴ヒストグラム)と量的(GEANT4と生成したサンプルの分類基準)を用いて,元の高忠実度を保っていることを示す。 その結果、カロリーメータのシャワー生成モデルが、最先端の速さ(GEANT4よりも10^4$速い)と一致し、従来の忠実度をはるかに上回る結果となった。

Recently, we introduced CaloFlow, a high-fidelity generative model for GEANT4 calorimeter shower emulation based on normalizing flows. Here, we present CaloFlow v2, an improvement on our original framework that speeds up shower generation by a further factor of 500 relative to the original. The improvement is based on a technique called Probability Density Distillation, originally developed for speech synthesis in the ML literature, and which we develop further by introducing a set of powerful new loss terms. We demonstrate that CaloFlow v2 preserves the same high fidelity of the original using qualitative (average images, histograms of high level features) and quantitative (classifier metric between GEANT4 and generated samples) measures. The result is a generative model for calorimeter showers that matches the state-of-the-art in speed (a factor of $10^4$ faster than GEANT4) and greatly surpasses the previous state-of-the-art in fidelity.
翻訳日:2021-10-26 05:42:46 公開日:2021-10-21
# (参考訳) 二元化深層ニューラルネットワークの学習のための効率的・ロバスト混合整数最適化法 [全文訳有]

Efficient and Robust Mixed-Integer Optimization Methods for Training Binarized Deep Neural Networks ( http://arxiv.org/abs/2110.11382v1 )

ライセンス: CC BY 4.0
Jannis Kurtz and Bubacarr Bah(参考訳) 古典的なディープニューラルネットワークと比較して、2項化されたバージョンは、メモリ消費と計算要求の減少のためにリソース制限されたデバイスに応用するのに有用である。 本研究では,二元活性化関数と連続あるいは整数重み付きディープニューラルネットワーク(BDNN)について検討する。 本稿では,bdnnを,古典的混合整数計画解法によって大域的最適性に解く有界重み空間を持つ混合整数線形プログラムとして再構成できることを示す。 さらに、局所探索ヒューリスティックが示され、局所最適ネットワークを計算する。 さらに,k-mean法を用いてトレーニングセットを小さなサブセットに反復的に分割する反復的データ分割ヒューリスティックを提案する。 その後、与えられたサブセット内のすべてのデータポイントは同じアクティベーションパターンに従わざるを得なくなり、それによって混合整数プログラミングの定式化における整数変数の数がはるかに少なくなり、計算上の改善がもたらされる。 最後に、トレーニング中にBDNNの堅牢性を強制するロバストモデルが、初めて提示される。 すべてのメソッドはランダムかつ実際のデータセット上でテストされ、この結果は、メモリや計算能力に制限のあるアプリケーションの実行可能性を確認する小さなネットワークアーキテクチャ上で、すべてのモデルが古典的なdnnと競ったり、より優れていたりすることを示している。

Compared to classical deep neural networks its binarized versions can be useful for applications on resource-limited devices due to their reduction in memory consumption and computational demands. In this work we study deep neural networks with binary activation functions and continuous or integer weights (BDNN). We show that the BDNN can be reformulated as a mixed-integer linear program with bounded weight space which can be solved to global optimality by classical mixed-integer programming solvers. Additionally, a local search heuristic is presented to calculate locally optimal networks. Furthermore to improve efficiency we present an iterative data-splitting heuristic which iteratively splits the training set into smaller subsets by using the k-mean method. Afterwards all data points in a given subset are forced to follow the same activation pattern, which leads to a much smaller number of integer variables in the mixed-integer programming formulation and therefore to computational improvements. Finally for the first time a robust model is presented which enforces robustness of the BDNN during training. All methods are tested on random and real datasets and our results indicate that all models can often compete with or even outperform classical DNNs on small network architectures confirming the viability for applications having restricted memory or computing power.
翻訳日:2021-10-26 05:21:56 公開日:2021-10-21
# (参考訳) アクチュエータ故障を有する固定翼航空機の適応型ディジタルオートパイロット [全文訳有]

An Adaptive Digital Autopilot for Fixed-Wing Aircraft with Actuator Faults ( http://arxiv.org/abs/2110.11390v1 )

ライセンス: CC BY 4.0
Joonghyun Lee, John Spencer, Juan Augusto Paredes, Sai Ravela, Dennis S. Bernstein, Ankit Goel(参考訳) 本稿では,固定翼機用適応デジタルオートパイロットを開発し,その性能を固定ゲインオートパイロットと比較する。 適応型デジタルオートパイロットは、px4飛行スタックで実装されたオートパイロットアーキテクチャを、レトロスペクティブコスト適応制御アルゴリズムを用いて更新される適応型デジタル制御則で強化することによって構成される。 適応型デジタルオートパイロットの性能を調べるため、固定ゲインオートパイロットのデフォルトゲインをスケールダウンして性能を劣化させる。 このシナリオは、調整済みの固定利得オートパイロットを補償する適応型デジタルオートパイロットの能力を決定するための場所を提供する。 次に、制御面の一方が未知の角位置にあると仮定されるシナリオをシミュレートすることにより、故障条件下で適応オートパイロットの性能を検証する。 適応型デジタルオートパイロットをシミュレーションでテストし,その結果,性能改善について検討した。

This paper develops an adaptive digital autopilot for a fixed-wing aircraft and compares its performance with a fixed-gain autopilot. The adaptive digital autopilot is constructed by augmenting the autopilot architecture implemented in PX4 flight stack with adaptive digital control laws that are updated using the retrospective cost adaptive control algorithm. In order to investigate the performance of the adaptive digital autopilot, the default gains of the fixed-gain autopilot are scaled down to degrade its performance. This scenario provides a venue for determining the ability of the adaptive digital autopilot to compensate for the detuned fixed-gain autopilot. Next, the performance of the adaptive autopilot is examined under failure conditions by simulating a scenario where one of the control surfaces is assumed to be stuck at an unknown angular position. The adaptive digital autopilot is tested in simulation, and the resulting performance improvements are examined.
翻訳日:2021-10-26 04:57:47 公開日:2021-10-21
# (参考訳) 学習エージェントの統計的識別 [全文訳有]

Statistical discrimination in learning agents ( http://arxiv.org/abs/2110.11404v1 )

ライセンス: CC BY 4.0
Edgar A. Du\'e\~nez-Guzm\'an, Kevin R. McKee, Yiran Mao, Ben Coppin, Silvia Chiappa, Alexander Sasha Vezhnevets, Michiel A. Bakker, Yoram Bachrach, Suzanne Sadedin, William Isaac, Karl Tuyls, Joel Z. Leibo(参考訳) 望ましくないバイアスは人的およびアルゴリズム的な意思決定の両方に影響を及ぼし、情報処理のトレードオフがヒューリスティックスの使用を動機付けると特に顕著になる。 主な例の1つが \textit{statistical discrimination} -- 基礎となる属性ではなく、目の前のタスクに適合する容易に認識可能な特性に基づいて、ソーシャルパートナーを選択する。 本稿では,情報処理が統計的識別にどのように影響するかを理論的に検討し,パートナー選択に基づく社会的ジレンマの多エージェント強化学習を用いて検証する。 予測されたように、エージェントポリシーでは、トレーニング人口のバイアスとエージェントアーキテクチャの両方の関数として統計的差別が出現する。 すべてのエージェントは実質的な統計的識別を示し、結果に関連する特徴ではなく、容易に利用可能な相関関係の使用をデフォルトとした。 我々は、リカレントニューラルネットワークを使用するエージェントによる差別の低減と、トレーニング環境のバイアスの低減が示される。 しかし,全てのエージェントアルゴリズムは,偏りのある訓練集団で学習した後も有意な偏りを示した。

Undesired bias afflicts both human and algorithmic decision making, and may be especially prevalent when information processing trade-offs incentivize the use of heuristics. One primary example is \textit{statistical discrimination} -- selecting social partners based not on their underlying attributes, but on readily perceptible characteristics that covary with their suitability for the task at hand. We present a theoretical model to examine how information processing influences statistical discrimination and test its predictions using multi-agent reinforcement learning with various agent architectures in a partner choice-based social dilemma. As predicted, statistical discrimination emerges in agent policies as a function of both the bias in the training population and of agent architecture. All agents showed substantial statistical discrimination, defaulting to using the readily available correlates instead of the outcome relevant features. We show that less discrimination emerges with agents that use recurrent neural networks, and when their training environment has less bias. However, all agent algorithms we tried still exhibited substantial bias after learning in biased training populations.
翻訳日:2021-10-26 04:47:55 公開日:2021-10-21
# (参考訳) proofs: セマンティックシグネチャを用いた画像生成の確立 [全文訳有]

PROVES: Establishing Image Provenance using Semantic Signatures ( http://arxiv.org/abs/2110.11411v1 )

ライセンス: CC BY 4.0
Mingyang Xie, Manav Kulshrestha, Shaojie Wang, Jinghan Yang, Ayan Chakrabarti, Ning Zhang, and Yevgeniy Vorobeychik(参考訳) 生成的敵ネットワークのような現代のAIツールは、フォトリアリスティックな結果で視覚データを作成し、修正する能力を変えました。 しかし、これらの進歩の有害な副作用の1つは、ディープフェイク(deep fakes)の使用などの視覚データにおける情報操作における悪用の出現である。 画像における意味情報の出所を保存し,深い偽攻撃の影響を受けにくくするための新しいアーキテクチャを提案する。 私たちのアーキテクチャにはセマンティック署名と検証ステップが含まれています。 このアーキテクチャを、個人識別(顔)と、写真が屋内か屋外かの2種類の意味情報の検証に適用する。 検証は、翻訳、スケーリング、トリミング、小さな回転などの一般的な画像変換の集合を説明し、敵対的な摂動や、顔認証の場合、顔交換などの逆変換を拒否する。 実験により、画像中の顔の出現の場合、我々のアプローチはブラックボックスの逆変換(拒否される)と良性変換(受理される)に頑健であり、偽陰性や偽陽性は少ないことが示された。 一方、背景検証はブラックボックスの敵の例に影響を受けやすいが、相手の訓練後にさらに堅牢になる。

Modern AI tools, such as generative adversarial networks, have transformed our ability to create and modify visual data with photorealistic results. However, one of the deleterious side-effects of these advances is the emergence of nefarious uses in manipulating information in visual data, such as through the use of deep fakes. We propose a novel architecture for preserving the provenance of semantic information in images to make them less susceptible to deep fake attacks. Our architecture includes semantic signing and verification steps. We apply this architecture to verifying two types of semantic information: individual identities (faces) and whether the photo was taken indoors or outdoors. Verification accounts for a collection of common image transformation, such as translation, scaling, cropping, and small rotations, and rejects adversarial transformations, such as adversarially perturbed or, in the case of face verification, swapped faces. Experiments demonstrate that in the case of provenance of faces in an image, our approach is robust to black-box adversarial transformations (which are rejected) as well as benign transformations (which are accepted), with few false negatives and false positives. Background verification, on the other hand, is susceptible to black-box adversarial examples, but becomes significantly more robust after adversarial training.
翻訳日:2021-10-26 04:19:36 公開日:2021-10-21
# (参考訳) ガーシュゴリンディスクアライメントを用いた短いビデオ要約のための高速グラフサンプリング [全文訳有]

Fast Graph Sampling for Short Video Summarization using Gershgorin Disc Alignment ( http://arxiv.org/abs/2110.11420v1 )

ライセンス: CC BY 4.0
Sadid Sahami (1), Gene Cheung (2), Chia-Wen Lin (1) ((1) National Tsing Hua University, (2) York University)(参考訳) 本研究では,短い映像を複数のキーフレームに効率的に要約し,近年の高速グラフサンプリングの進歩を生かした。 具体的には、まず、グラフラプラシア行列 $\mathbf{L}$ で表される類似性パスグラフ (SPG) $\mathcal{G}$ を構築し、隣り合うフレーム間の類似性を正のエッジ重みとしてエンコードする。 係数行列 $\mathbf{b} = \text{diag}(\mathbf{a}) + \mu \mathbf{l}$ の最小固有値 $\lambda_{\min}(\mathbf{b})$ を最大化することは、最悪の場合の信号再構成エラーを最小化することと同値である。 我々は、$\mathcal{G}$を$Q$部分グラフ $\{\mathcal{G}^q\}^Q_{q=1}$に分割した後、最小のガーシュゴリン円定理(GCT)下界の$Q$対応係数行列 --$\min_q \lambda^-_{\min}(\mathbf{B}^q)$ -- が$\lambda_{\min}(\mathbf{B})$の下界であることを証明する。 これにより、高速グラフサンプリングアルゴリズムが反復的に$\mathcal{G}$を$Q$サンプル(キーフレーム)を使用して$Q$サブグラフに分割し、各サブグラフ$\mathcal{G}^q$に対して$\lambda^-_{\min}(\mathbf{B}^q)$を最大化する。 実験結果から,本アルゴリズムは最先端手法と同等の映像要約性能を実現し,複雑さを大幅に低減した。

We study the problem of efficiently summarizing a short video into several keyframes, leveraging recent progress in fast graph sampling. Specifically, we first construct a similarity path graph (SPG) $\mathcal{G}$, represented by graph Laplacian matrix $\mathbf{L}$, where the similarities between adjacent frames are encoded as positive edge weights. We show that maximizing the smallest eigenvalue $\lambda_{\min}(\mathbf{B})$ of a coefficient matrix $\mathbf{B} = \text{diag}(\mathbf{a}) + \mu \mathbf{L}$, where $\mathbf{a}$ is the binary keyframe selection vector, is equivalent to minimizing a worst-case signal reconstruction error. We prove that, after partitioning $\mathcal{G}$ into $Q$ sub-graphs $\{\mathcal{G}^q\}^Q_{q=1}$, the smallest Gershgorin circle theorem (GCT) lower bound of $Q$ corresponding coefficient matrices -- $\min_q \lambda^-_{\min}(\mathbf{B}^q)$ -- is a lower bound for $\lambda_{\min}(\mathbf{B})$. This inspires a fast graph sampling algorithm to iteratively partition $\mathcal{G}$ into $Q$ sub-graphs using $Q$ samples (keyframes), while maximizing $\lambda^-_{\min}(\mathbf{B}^q)$ for each sub-graph $\mathcal{G}^q$. Experimental results show that our algorithm achieves comparable video summarization performance as state-of-the-art methods, at a substantially reduced complexity.
翻訳日:2021-10-26 04:02:38 公開日:2021-10-21
# (参考訳) アンサンブル転送埋め込みを用いた短くて騒がしい記述による項目の分類

Categorizing Items with Short and Noisy Descriptions using Ensembled Transferred Embeddings ( http://arxiv.org/abs/2110.11431v1 )

ライセンス: CC BY 4.0
Yonatan Hadar and Erez Shmueli(参考訳) 項目分類は、テキスト属性で表されるeコマースアイテムを、事前に定義されたカテゴリの集合から最も適したカテゴリに分類することを目的とした機械学習タスクである。 正確な項目分類システムは、ユーザエクスペリエンスと企業の運用プロセスの両方を改善する上で不可欠である。 本研究は,項目を表すテキスト属性が騒々しく短く,ラベル(項目をカテゴリに正確に分類する)が利用できない項目分類設定に焦点を当てる。 このような設定に対処するため、我々は2つの重要なアイデアに依存した新しい学習フレームワークEnsembled Transfered Embeddings (ETE)を提案する。 1) ターゲットデータセットの比較的小さなサンプルを半自動的なプロセスでラベル付けし、 2) 大規模でラベル付けされた関連ドメインや関連するタスクから他のデータセットを活用して,“転送可能な埋め込み”を抽出する。 PayPalが提供する大規模実世界のデータセット上でのETEの評価は、従来のものや最先端のアイテム分類方法よりも大幅に優れていることを示している。

Item categorization is a machine learning task which aims at classifying e-commerce items, typically represented by textual attributes, to their most suitable category from a predefined set of categories. An accurate item categorization system is essential for improving both the user experience and the operational processes of the company. In this work, we focus on item categorization settings in which the textual attributes representing items are noisy and short, and labels (i.e., accurate classification of items into categories) are not available. In order to cope with such settings, we propose a novel learning framework, Ensembled Transferred Embeddings (ETE), which relies on two key ideas: 1) labeling a relatively small sample of the target dataset, in a semi-automatic process, and 2) leveraging other datasets from related domains or related tasks that are large-scale and labeled, to extract "transferable embeddings". Evaluation of ETE on a large-scale real-world dataset provided to us by PayPal, shows that it significantly outperforms traditional as well as state-of-the-art item categorization methods.
翻訳日:2021-10-26 03:49:31 公開日:2021-10-21
# (参考訳) 雑音適応型, 問題適応型確率的勾配

Towards Noise-adaptive, Problem-adaptive Stochastic Gradient Descent ( http://arxiv.org/abs/2110.11442v1 )

ライセンス: CC BY 4.0
Sharan Vaswani, Benjamin Dubois-Taine, Reza Babanezhad(参考訳) 確率勾配降下(SGD)を適応させるステップサイズスキームを設計する。 (i)確率勾配における雑音$\sigma^2$ (ii)問題依存定数。 条件数$\kappa$で滑らかで強凸な関数を最小化する場合、まず、Nesterov加速度と指数関数的に減少するステップサイズを持つSGDの反復が、ほぼ最適の $\tilde{O}(\exp(-T/\sqrt{\kappa}) + \sigma^2/T)$収束率が得られることを証明する。 雑音の緩和された仮定の下では、同じステップサイズスキームと滑らかさの知識で、SGD が $\tilde{O}(\exp(-T/\kappa) + \sigma^2/T)$ rate を達成できることを示す。 滑らかさに適応するために、確率線探索(SLS)を用いて、SGDが所望の速度で収束することを示すが、解の近傍にのみ適用できることを示す。 次に、滑らかさのオフライン推定でSGDを使用し、最小値への収束を証明する。 しかし、その収束は推定誤差に比例して遅くなり、この減速を正当化する下限が証明される。 他のステップサイズスキームと比較して,指数的ステップサイズの有効性を新しいslsと組み合わせて実証的に実証する。

We design step-size schemes that make stochastic gradient descent (SGD) adaptive to (i) the noise $\sigma^2$ in the stochastic gradients and (ii) problem-dependent constants. When minimizing smooth, strongly-convex functions with condition number $\kappa$, we first prove that $T$ iterations of SGD with Nesterov acceleration and exponentially decreasing step-sizes can achieve a near-optimal $\tilde{O}(\exp(-T/\sqrt{\kappa}) + \sigma^2/T)$ convergence rate. Under a relaxed assumption on the noise, with the same step-size scheme and knowledge of the smoothness, we prove that SGD can achieve an $\tilde{O}(\exp(-T/\kappa) + \sigma^2/T)$ rate. In order to be adaptive to the smoothness, we use a stochastic line-search (SLS) and show (via upper and lower-bounds) that SGD converges at the desired rate, but only to a neighbourhood of the solution. Next, we use SGD with an offline estimate of the smoothness and prove convergence to the minimizer. However, its convergence is slowed down proportional to the estimation error and we prove a lower-bound justifying this slowdown. Compared to other step-size schemes, we empirically demonstrate the effectiveness of exponential step-sizes coupled with a novel variant of SLS.
翻訳日:2021-10-26 03:48:38 公開日:2021-10-21
# (参考訳) ml with he: プライバシ保護 ゲノム研究のための機械学習推論 [全文訳有]

ML with HE: Privacy Preserving Machine Learning Inferences for Genome Studies ( http://arxiv.org/abs/2110.11446v1 )

ライセンス: CC BY 4.0
\c{S}. S. Ma\u{g}ara, C. Y{\i}ld{\i}r{\i}m, F. Yaman, B. Dileko\u{g}lu, F. R. Tuta\c{s}, E. \"Ozt\"urk, K. Kaya, \"O. Ta\c{s}tan, and E. Sava\c{s}(参考訳) クラウドコンピューティングの文脈でビッグデータのプライバシとセキュリティを維持する一方で、その処理の一定のレベルの効率を維持することは、改善のための課題である。 この懸念をエピトマイジングする最も一般的な応用の1つは、ゲノム解析に有用である。 そこで本研究では,SVMとXGBoostという2つの機械学習アルゴリズムを用いて,同型暗号を用いたセキュアなマルチラベル腫瘍分類手法を提案する。

Preserving the privacy and security of big data in the context of cloud computing, while maintaining a certain level of efficiency of its processing remains to be a subject, open for improvement. One of the most popular applications epitomizing said concerns is found to be useful in genome analysis. This work proposes a secure multi-label tumor classification method using homomorphic encryption, whereby two different machine learning algorithms, SVM and XGBoost, are used to classify the encrypted genome data of different tumor types.
翻訳日:2021-10-26 03:47:07 公開日:2021-10-21
# (参考訳) 階層型アンサンブル分類器を用いた電力変圧器故障検出のためのEMD法 [全文訳有]

An EMD-based Method for the Detection of Power Transformer Faults with a Hierarchical Ensemble Classifier ( http://arxiv.org/abs/2110.11451v1 )

ライセンス: CC BY 4.0
Shoaib Meraj Sami and Mohammed Imamul Hassan Bhuiyan(参考訳) 本稿では,dga(dissolve gas analysis)データから変圧器故障を検出するための経験的モード分解に基づく手法を提案する。 比率に基づくDGAパラメータはその歪度を用いてランク付けされる。 固有モード関数係数の最適セットは、ランク付けされたdgaパラメータから得られる。 変圧器断層の6つの異なるカテゴリを識別するために,XGBoostを用いた階層分類方式を提案する。 377変圧器の公開DGAデータに対して提案手法の性能を検討した。 提案手法は変圧器故障の検出において90%以上の感度と精度を得ることが可能であり,従来の手法や既存の機械学習技術と比較して優れた性能を示す。

In this paper, an Empirical Mode Decomposition-based method is proposed for the detection of transformer faults from Dissolve gas analysis (DGA) data. Ratio-based DGA parameters are ranked using their skewness. Optimal sets of intrinsic mode function coefficients are obtained from the ranked DGA parameters. A Hierarchical classification scheme employing XGBoost is presented for classifying the features to identify six different categories of transformer faults. Performance of the Proposed Method is studied for publicly available DGA data of 377 transformers. It is shown that the proposed method can yield more than 90% sensitivity and accuracy in the detection of transformer faults, a superior performance as compared to conventional methods as well as several existing machine learning-based techniques.
翻訳日:2021-10-26 03:38:47 公開日:2021-10-21
# (参考訳) MLPerfTM HPC:HPCシステムにおける科学機械学習のためのホロスティックベンチマークスイート [全文訳有]

MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems ( http://arxiv.org/abs/2110.11466v1 )

ライセンス: CC BY 4.0
Steven Farrell, Murali Emani, Jacob Balma, Lukas Drescher, Aleksandr Drozd, Andreas Fink, Geoffrey Fox, David Kanter, Thorsten Kurth, Peter Mattson, Dawei Mu, Amit Ruhela, Kento Sato, Koichi Shirahata, Tsuguchika Tabaru, Aristeidis Tsaris, Jan Balewski, Ben Cumming, Takumi Danjo, Jens Domke, Takaaki Fukai, Naoto Fukumoto, Tatsuya Fukushi, Balazs Gerofi, Takumi Honda, Toshiyuki Imamura, Akihiko Kasagi, Kentaro Kawakami, Shuhei Kudo, Akiyoshi Kuroda, Maxime Martinasso, Satoshi Matsuoka, Henrique Mendonc, Kazuki Minami, Prabhat Ram, Takashi Sawada, Mallikarjun Shankar, Tom St. John, Akihiro Tabuchi, Venkatram Vishwanath, Mohamed Wahib, Masafumi Yamazaki, Junqi Yin(参考訳) 科学コミュニティは、科学的洞察を加速するために機械学習とディープラーニングモデルをその応用に採用している。 高性能コンピューティングシステムは、豊富なハードウェアリソースと大規模なスケールアウト機能によって、パフォーマンスのフロンティアを推し進めている。 現実の科学的ユースケースを代表する機械学習アプリケーションの公平で効果的なベンチマークを理解するためには、重要なニーズがある。 MLPerfTMは、マシンラーニングワークロードをベンチマークするコミュニティ主導の標準で、エンドツーエンドのパフォーマンスメトリクスに重点を置いている。 本稿では,MLCommonsTM Associationが推進する大規模科学機械学習トレーニングアプリケーションのベンチマークスイートであるMLPerf HPCを紹介する。 我々は,世界最大級のHPCシステムの多種多様なセットを含む第1回提出ラウンドの結果を提示する。 共同分析のための体系的フレームワークを開発し,データステージング,アルゴリズム収束,計算性能の観点から比較する。 その結果,データのステージングやオンノードロード,計算単位の利用,通信スケジューリングといった異なるサブシステムの最適化を定量的に理解でき,システムスケーリングによるパフォーマンス改善が10倍(エンドツーエンド)を超えていることがわかった。 特に,データセットサイズ,システムのメモリ階層,およびニアコンピューティングストレージの重要性を強調するトレーニングコンバージェンスとの間に,スケール依存の相互作用を示す。 大規模なバッチサイズでのデータ並列スケーラビリティの課題を克服するために,大規模システムに有効な特定の学習手法とハイブリッドデータ・モデル並列性について議論する。 結論として,各ベンチマークを低レベルメモリ,i/o,ネットワーク動作に特徴付け,今後の拡張ルーフライン性能モデルをパラメータ化する。

Scientific communities are increasingly adopting machine learning and deep learning models in their applications to accelerate scientific insights. High performance computing systems are pushing the frontiers of performance with a rich diversity of hardware resources and massive scale-out capabilities. There is a critical need to understand fair and effective benchmarking of machine learning applications that are representative of real-world scientific use cases. MLPerfTM is a community-driven standard to benchmark machine learning workloads, focusing on end-to-end performance metrics. In this paper, we introduce MLPerf HPC, a benchmark suite of largescale scientific machine learning training applications, driven by the MLCommonsTM Association. We present the results from the first submission round including a diverse set of some of the world's largest HPC systems. We develop a systematic framework for their joint analysis and compare them in terms of data staging, algorithmic convergence, and compute performance. As a result, we gain a quantitative understanding of optimizations on different subsystems such as staging and on-node loading of data, compute-unit utilization, and communication scheduling enabling overall > 10x (end-to-end) performance improvements through system scaling. Notably, our analysis shows a scale-dependent interplay between the dataset size, a system's memory hierarchy, and training convergence that underlines the importance of near compute storage. To overcome the data-parallel scalability challenge at large batch sizes, we discuss specific learning techniques and hybrid data-and-model parallelism that are effective on large systems. We conclude by characterizing each benchmark with respect to low-level memory, I/O, and network behavior to parameterize extended roofline performance models in future rounds.
翻訳日:2021-10-26 03:32:50 公開日:2021-10-21
# (参考訳) 固有時間スケール分解とXGBoost分類器を用いた変圧器故障診断 [全文訳有]

Power Transformer Fault Diagnosis with Intrinsic Time-scale Decomposition and XGBoost Classifier ( http://arxiv.org/abs/2110.11467v1 )

ライセンス: CC BY 4.0
Shoaib Meraj Sami and Mohammed Imamul Hassan Bhuiyan(参考訳) 電力変圧器故障診断のための固有時間スケール分解法(itd)を提案する。 溶存ガス分析(DGA)パラメータはその歪度に応じてランク付けし、ITDに基づく特徴抽出を行う。 XGBoost分類器によって最適なPRC特徴セットが決定される。 分類目的のために、最適なPRC特徴セットにXGBoost分類器を用いる。 提案手法は,376基の変圧器のdgaデータとxgboost分類器を用いて,分類性能について検討した。 提案手法は従来の手法や最近の機械学習に基づく故障診断手法よりも精度が高く,95%以上の精度と高感度を実現する。 さらに,電力変圧器の故障診断のためのEMDに基づく階層的手法と比較して,Cohen Kappa と F1-score が優れている。

An intrinsic time-scale decomposition (ITD) based method for power transformer fault diagnosis is proposed. Dissolved gas analysis (DGA) parameters are ranked according to their skewness, and then ITD based features extraction is performed. An optimal set of PRC features are determined by an XGBoost classifier. For classification purpose, an XGBoost classifier is used to the optimal PRC features set. The proposed method's performance in classification is studied using publicly available DGA data of 376 power transformers and employing an XGBoost classifier. The Proposed method achieves more than 95% accuracy and high sensitivity and F1-score, better than conventional methods and some recent machine learning-based fault diagnosis approaches. Moreover, it gives better Cohen Kappa and F1-score as compared to the recently introduced EMD-based hierarchical technique for fault diagnosis in power transformers.
翻訳日:2021-10-26 02:58:00 公開日:2021-10-21
# (参考訳) AIの採用に気付く - 可能性から再利用可能な価値へ

Aware Adoption of AI: from Potential to Reusable Value ( http://arxiv.org/abs/2110.11482v1 )

ライセンス: CC BY 4.0
Mario Angelelli, Massimiliano Gervasi(参考訳) 人工知能(AI)は、異なる適用領域で実用的な利点を提供する。 これは、意思決定者が複雑なシステムについて考える方法を変えつつある。 実際、より大きな情報(再)ソース(ビッグデータなど)のより広い可視性が、インテリジェントエージェントで利用可能になった。 一方、意思決定は再利用性、多目的性、説明可能な知識に基づいているとは限らない。 したがって、この新しい(再)不確実性源を記述し、管理するために、新しいモデルを定義する必要がある。 この貢献は、AIコンテキストにおける価値の概念を扱うための多次元フレームワークの導入を目的としている。 このモデルでは、ビッグデータの本質的な性質ではなく、価値の区別された次元(特性)を表す。 イノベーションのプロセスに結びつくかもしれない、隠れた価値の次元に非常に注意が払われる。 フレームワークを記述するための要件が提供され、価値に関する知識の状態の比較、組み合わせ、更新に対処するために関連する数学的構造が提示される。 本稿では,知識状態の整合性の概念を導入し,人間と人工知能の関係を考察する。この不確実性は,意思決定と非古典的測定に関する2つのシナリオと類似して定義する。 最後に, 影響, リスク, 構造モデリングの評価に, この形態の不確実性を含めることを目的とした今後の調査を提案する。

Artificial Intelligence (AI) provides practical advantages in different applied domains. This is changing the way decision-makers reason about complex systems. Indeed, broader visibility on greater information (re)sources, e.g. Big Data, is now available to intelligent agents. On the other hand, decisions are not always based on reusable, multi-purpose, and explainable knowledge. Therefore, it is necessary to define new models to describe and manage this new (re)source of uncertainty. This contribution aims to introduce a multidimensional framework to deal with the notion of Value in the AI context. In this model, Big Data represent a distinguished dimension (characteristic) of Value rather than an intrinsic property of Big Data. Great attention is paid to hidden dimensions of value, which may be linked to emerging innovation processes. The requirements to describe the framework are provided, and an associated mathematical structure is presented to deal with comparison, combination, and update of states of knowledge regarding Value. We introduce a notion of consistency of a state of knowledge to investigate the relation between Human and Artificial intelligences; this form of uncertainty is specified in analogy with two scenarios concerning decision-making and non-classical measurements. Finally, we propose future investigations aiming at the inclusion of this form of uncertainty in the assessment of impact, risks, and structural modelling.
翻訳日:2021-10-26 02:52:08 公開日:2021-10-21
# (参考訳) SynERGY:シンボリック知識と機械教育を用いた大規模タスクボットの構築 [全文訳有]

SYNERGY: Building Task Bots at Scale Using Symbolic Knowledge and Machine Teaching ( http://arxiv.org/abs/2110.11514v1 )

ライセンス: CC BY 4.0
Baolin Peng, Chunyuan Li, Zhu Zhang, Jinchao Li, Chenguang Zhu, Jianfeng Gao(参考訳) 本稿では,ニューラルタスクボット構築における人間のデータラベリングの取り組みを軽減するために,記号的知識と機械教育の利用について検討する。 タスクボットを2つのステップで開発するハイブリッド学習フレームワークであるSynERGYを提案する。 i) ニューラルネットワークへのシンボリック知識: 多数のシミュレーションされたダイアログセッションは、ダイアログフローとタスク指向データベースからなるタスクスキーマとして表現されるタスク固有のシンボリック知識に基づいて生成される。 次に、トレーニング済みのニューラルダイアログモデルであるSOLOISTをシミュレーションダイアログ上で微調整し、タスクのためのボットを構築する。 (ii)ニューラルラーニング: 微調整されたニューラルダイアログモデルは、タスクボットと対話する人間の教師によってトレーニングサンプルが生成される機械教育を通じて、いくつかの実際のタスク固有のダイアログで継続的に洗練されます。 4つのダイアログタスクでシナジーを検証する。 実験の結果,SynerGYはタスク固有の知識を,より多様性とダイアログフローのカバレッジを達成するニューラルダイアログモデルにマッピングし,機械教育によるモデル性能を継続的に改善し,記号的知識と機械教育の強い相乗効果を示す。

In this paper we explore the use of symbolic knowledge and machine teaching to reduce human data labeling efforts in building neural task bots. We propose SYNERGY, a hybrid learning framework where a task bot is developed in two steps: (i) Symbolic knowledge to neural networks: Large amounts of simulated dialog sessions are generated based on task-specific symbolic knowledge which is represented as a task schema consisting of dialog flows and task-oriented databases. Then a pre-trained neural dialog model, SOLOIST, is fine-tuned on the simulated dialogs to build a bot for the task. (ii) Neural learning: The fine-tuned neural dialog model is continually refined with a handful of real task-specific dialogs via machine teaching, where training samples are generated by human teachers interacting with the task bot. We validate SYNERGY on four dialog tasks. Experimental results show that SYNERGY maps task-specific knowledge into neural dialog models achieving greater diversity and coverage of dialog flows, and continually improves model performance with machine teaching, thus demonstrating strong synergistic effects of symbolic knowledge and machine teaching.
翻訳日:2021-10-26 02:50:42 公開日:2021-10-21
# MUGL:ロコモーションを用いた大規模多人数条件行動生成

MUGL: Large Scale Multi Person Conditional Action Generation with Locomotion ( http://arxiv.org/abs/2110.11460v1 )

ライセンス: Link先を確認
Shubh Maheshwari, Debtanu Gupta, Ravi Kiran Sarvadevabhatla(参考訳) 移動を伴う多人数のポーズ・アクション・シーケンスを大規模かつ多種多様に生成する深層神経モデルであるmuglを提案する。 我々の制御可能なアプローチは、100以上のカテゴリで、アクションカテゴリによってカスタマイズ可能な可変長世代を可能にする。 カテゴリー内・カテゴリー間多様性を実現するために,条件付きガウス混合変分オートエンコーダを用いて潜在生成空間をモデル化する。 移動を含む行動の現実的な生成を可能にするため、動作シーケンスの局所的なポーズとグローバルな軌道成分を分離する。 可変長シーケンス生成を可能にするために、持続時間認識特徴表現を組み込む。 ビデオとNTU-RGBD-120のKinectをベースとした3次元ポーズシーケンスを用いたハイブリッドポーズシーケンス表現を用いる。 世代品質の原理的比較を可能にするために,評価中に適度に修正された強いベースラインを用いる。 MUGLはベースラインに比べて小さくてシンプルだが、より高品質な世代を提供し、実用的で制御可能な大規模ヒューマンアクション生成の道を開く。

We introduce MUGL, a novel deep neural model for large-scale, diverse generation of single and multi-person pose-based action sequences with locomotion. Our controllable approach enables variable-length generations customizable by action category, across more than 100 categories. To enable intra/inter-category diversity, we model the latent generative space using a Conditional Gaussian Mixture Variational Autoencoder. To enable realistic generation of actions involving locomotion, we decouple local pose and global trajectory components of the action sequence. We incorporate duration-aware feature representations to enable variable-length sequence generation. We use a hybrid pose sequence representation with 3D pose sequences sourced from videos and 3D Kinect-based sequences of NTU-RGBD-120. To enable principled comparison of generation quality, we employ suitably modified strong baselines during evaluation. Although smaller and simpler compared to baselines, MUGL provides better quality generations, paving the way for practical and controllable large-scale human action generation.
翻訳日:2021-10-25 15:59:28 公開日:2021-10-21
# 条件付き変分オートエンコーダを用いた多変量負荷状態の生成

Generating Multivariate Load States Using a Conditional Variational Autoencoder ( http://arxiv.org/abs/2110.11435v1 )

ライセンス: Link先を確認
Chenguang Wang, Ensieh Sharifnia, Zhi Gao, Simon H. Tindemans, Peter Palensky(参考訳) 電力系統の計画や運用ツールの校正には,多岐にわたる代表的なシナリオでシステム性能を分析することが不可欠である。 利用可能な履歴データが限られている場合、生成モデルは有望な解決策であるが、高次元の依存関係のモデリングは困難である。 本稿では,条件付き可変オートエンコーダ(CVAE)ニューラルネットワークに基づく多変量負荷状態生成モデルを提案する。 CVAEの一般的な実装を超えて、モデルは与えられた潜在ベクトルの下で出力サンプルの確率的変動を含み、この出力変数のパラメータを共最適化する。 これにより,生成データの統計的特性が向上することが示された。 生成した多変量負荷の品質は、単変量および多変量性能指標を用いて評価する。 モデルが現実的なテール分布を生成する能力を示すために,ヨーロッパネットワークに関する世代別ケーススタディが用いられている。 実験は,提案手法が他のデータ生成機構よりも優れていることを示す。

For planning of power systems and for the calibration of operational tools, it is essential to analyse system performance in a large range of representative scenarios. When the available historical data is limited, generative models are a promising solution, but modelling high-dimensional dependencies is challenging. In this paper, a multivariate load state generating model on the basis of a conditional variational autoencoder (CVAE) neural network is proposed. Going beyond common CVAE implementations, the model includes stochastic variation of output samples under given latent vectors and co-optimizes the parameters for this output variability. It is shown that this improves statistical properties of the generated data. The quality of generated multivariate loads is evaluated using univariate and multivariate performance metrics. A generation adequacy case study on the European network is used to illustrate model's ability to generate realistic tail distributions. The experiments demonstrate that the proposed generator outperforms other data generating mechanisms.
翻訳日:2021-10-25 15:58:34 公開日:2021-10-21
# Synt++:不完全な合成データを利用して音声認識を改善する

Synt++: Utilizing Imperfect Synthetic Data to Improve Speech Recognition ( http://arxiv.org/abs/2110.11479v1 )

ライセンス: Link先を確認
Ting-Yao Hu, Mohammadreza Armandpour, Ashish Shrivastava, Jen-Hao Rick Chang, Hema Koppula, Oncel Tuzel(参考訳) 音声合成の最近の進歩により、合成データは音声認識モデルのトレーニングのための実データに代わる存在になりつつある。 しかし,合成データと実データとの差のため,合成データを用いた機械学習は簡単ではない。 合成データセットは、構造化ノイズ、コンテンツエラー、非現実的な話し方などの実際のデータに存在しないアーティファクトを含むことができる。 さらに、合成プロセスは、データ多様体の不均一サンプリングによるバイアスを生じさせる可能性がある。 分布ギャップによる問題を緩和するための訓練中の2つの新しい手法を提案する。 (i)拒絶サンプリングアルゴリズム及び (ii)実検体と合成検体に別々にバッチ正規化統計を用いる。 本手法は合成データを用いた音声認識モデルの学習を著しく改善することを示す。 我々は,キーワード検出と自動音声認識(ASR)タスクに対する提案手法の評価を行い,合成データを用いた場合と比較して,最大18%,13%の相対誤差削減を観測した。

With recent advances in speech synthesis, synthetic data is becoming a viable alternative to real data for training speech recognition models. However, machine learning with synthetic data is not trivial due to the gap between the synthetic and the real data distributions. Synthetic datasets may contain artifacts that do not exist in real data such as structured noise, content errors, or unrealistic speaking styles. Moreover, the synthesis process may introduce a bias due to uneven sampling of the data manifold. We propose two novel techniques during training to mitigate the problems due to the distribution gap: (i) a rejection sampling algorithm and (ii) using separate batch normalization statistics for the real and the synthetic samples. We show that these methods significantly improve the training of speech recognition models using synthetic data. We evaluate the proposed approach on keyword detection and Automatic Speech Recognition (ASR) tasks, and observe up to 18% and 13% relative error reduction, respectively, compared to naively using the synthetic data.
翻訳日:2021-10-25 15:58:20 公開日:2021-10-21
# Wav2CLIP: CLIPからロバストなオーディオ表現を学ぶ

Wav2CLIP: Learning Robust Audio Representations From CLIP ( http://arxiv.org/abs/2110.11499v1 )

ライセンス: Link先を確認
Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello(参考訳) 本稿では,コントラスト言語-画像事前学習(CLIP)から抽出した頑健な音声表現学習手法であるWav2CLIPを提案する。 我々は、分類、検索、生成を含む様々な音声タスクにおいて、Wav2CLIPを体系的に評価し、Wav2CLIPが複数の公開学習済みオーディオ表現アルゴリズムより優れていることを示す。 Wav2CLIPは、音声を画像とテキストで共有埋め込み空間に投影し、ゼロショット分類やクロスモーダル検索などのマルチモーダルアプリケーションを可能にする。 さらに、Wav2CLIPは、完全に教師されたモデルと比較して下流タスクの競合性能を達成するために、データの約10%しか必要とせず、聴覚モデルと協調して視覚モデルを学ぶ必要がないため、競合する手法よりも事前訓練が効果的である。 最後に,Wav2CLIPの画像生成を,共有埋め込み空間の質的評価として示す。 私たちのコードとモデルの重み付けはオープンソースで、さらなるアプリケーションで利用できます。

We propose Wav2CLIP, a robust audio representation learning method by distilling from Contrastive Language-Image Pre-training (CLIP). We systematically evaluate Wav2CLIP on a variety of audio tasks including classification, retrieval, and generation, and show that Wav2CLIP can outperform several publicly available pre-trained audio representation algorithms. Wav2CLIP projects audio into a shared embedding space with images and text, which enables multimodal applications such as zero-shot classification, and cross-modal retrieval. Furthermore, Wav2CLIP needs just ~10% of the data to achieve competitive performance on downstream tasks compared with fully supervised models, and is more efficient to pre-train than competing methods as it does not require learning a visual model in concert with an auditory model. Finally, we demonstrate image generation from Wav2CLIP as qualitative assessment of the shared embedding space. Our code and model weights are open sourced and made available for further applications.
翻訳日:2021-10-25 15:58:08 公開日:2021-10-21
# オートエンコーダの正規化について

On the Regularization of Autoencoders ( http://arxiv.org/abs/2110.11402v1 )

ライセンス: Link先を確認
Harald Steck and Dario Garcia Garcia(参考訳) 教師付き環境での深い非線形ネットワークの暗黙的(かつ明示的な)正規化の理解に多くの研究が費やされているが、本稿は教師なし学習に焦点を当て、オートエンコーダは入力からの出力を再現する目的で訓練されている。 We extend recent results [Jin et al. 2021] on unconstrained linear models and apply them to (1) nonlinear autoencoders and (2) constrained linear autoencoders, obtaining the following two results: first, we show that the unsupervised setting by itself induces strong additional regularization, i.e., a severe reduction in the model-capacity of the learned autoencoder: we derive that a deep nonlinear autoencoder cannot fit the training data more accurately than a linear autoencoder does if both models have the same dimensionality in their last hidden layer (and under a few additional assumptions). 第2の貢献は、学習した低ランクパラメータ行列の対角線に制約のある線形自己エンコーダである低ランクEDLAEモデル [Steck 2020] に関するものである。

While much work has been devoted to understanding the implicit (and explicit) regularization of deep nonlinear networks in the supervised setting, this paper focuses on unsupervised learning, i.e., autoencoders are trained with the objective of reproducing the output from the input. We extend recent results [Jin et al. 2021] on unconstrained linear models and apply them to (1) nonlinear autoencoders and (2) constrained linear autoencoders, obtaining the following two results: first, we show that the unsupervised setting by itself induces strong additional regularization, i.e., a severe reduction in the model-capacity of the learned autoencoder: we derive that a deep nonlinear autoencoder cannot fit the training data more accurately than a linear autoencoder does if both models have the same dimensionality in their last hidden layer (and under a few additional assumptions). Our second contribution is concerned with the low-rank EDLAE model [Steck 2020], which is a linear autoencoder with a constraint on the diagonal of the learned low-rank parameter-matrix for improved generalization: we derive a closed-form approximation to the optimum of its non-convex training-objective, and empirically demonstrate that it is an accurate approximation across all model-ranks in our experiments on three well-known data sets.
翻訳日:2021-10-25 15:35:37 公開日:2021-10-21
# エキスパートの意思決定品質の透明性を目指す機械学習フレームワーク

A Machine Learning Framework Towards Transparency in Experts' Decision Quality ( http://arxiv.org/abs/2110.11425v1 )

ライセンス: Link先を確認
Wanxue Dong (1), Maytal Saar-Tsechansky (1), Tomer Geva (2) ((1) The Department of Information, Risk and Operations Management, The University of Texas at Austin, (2) Coller School of Management Tel-Aviv University)(参考訳) 専門家は重要な意味を持つ非自明な決定を下します。 したがって、専門家の決定精度は、専門家のサービスの管理と消費者の両方にとって鍵となる判断品質の基本的な側面である。 しかし、多くの重要な設定では、専門家の意思決定を評価するための根拠となる真理データがコストが高く、限られた意思決定のためにのみ利用できるため、専門家の意思決定品質の透明性はめったにない。 さらに、異なる専門家が典型的に排他的な意思決定を扱うため、複数の専門家の意思決定の集約に依存する事前ソリューションは適用不可能である。 まず、この設定で専門家の意思決定精度を推定し、それに対応するための機械学習ベースのフレームワークを開発する。 本手法は,労働者の過去の意思決定に関する豊富な履歴データと,基礎的真理情報の少ない決定事例の両方を効果的に活用する。 提案手法は,公開データセットに基づく半合成データと,実作業者の判断に基づく故意にコンパイルされたデータセットの両方を用いて,提案手法の性能を大規模に実証的に評価する。 その結果, 異なるデータ領域, 専門家の資質, 根拠データ量など, 様々な設定において, 既存の代替案よりも優れた手法が得られた。 本稿は,過去データから専門家の意思決定の正確性を評価する問題を初めて実証し,解決するものであり,この課題に対して包括的結果を提供し,各場面で達成可能なパフォーマンスと,今後の作業が構築できる最先端のパフォーマンスを確立した最初の事例である。

Expert workers make non-trivial decisions with significant implications. Experts' decision accuracy is thus a fundamental aspect of their judgment quality, key to both management and consumers of experts' services. Yet, in many important settings, transparency in experts' decision quality is rarely possible because ground truth data for evaluating the experts' decisions is costly and available only for a limited set of decisions. Furthermore, different experts typically handle exclusive sets of decisions, and thus prior solutions that rely on the aggregation of multiple experts' decisions for the same instance are inapplicable. We first formulate the problem of estimating experts' decision accuracy in this setting and then develop a machine-learning-bas ed framework to address it. Our method effectively leverages both abundant historical data on workers' past decisions, and scarce decision instances with ground truth information. We conduct extensive empirical evaluations of our method's performance relative to alternatives using both semi-synthetic data based on publicly available datasets, and purposefully compiled dataset on real workers' decisions. The results show that our approach is superior to existing alternatives across diverse settings, including different data domains, experts' qualities, and the amount of ground truth data. To our knowledge, this paper is the first to posit and address the problem of estimating experts' decision accuracies from historical data with scarcely available ground truth, and it is the first to offer comprehensive results for this problem setting, establishing the performances that can be achieved across settings, as well as the state-of-the-art performance on which future work can build.
翻訳日:2021-10-25 15:35:15 公開日:2021-10-21
# ヘテロドメインからのオフダイナミック逆強化学習

Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain ( http://arxiv.org/abs/2110.11443v1 )

ライセンス: Link先を確認
Yachen Kang, Jinxin Liu, Xin Cao and Donglin Wang(参考訳) そこで本研究では,実世界の実演に基づいて,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。 この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。 これを実現するため、広く使われているGAN-インスパイアされたIRL法を採用し、ポリシー生成軌道を認識する識別器を力学差の定量化により修正する。 判別器の訓練プロセスは、導出によって保証されるシミュレータ力学に適した伝達可能な報酬関数を得ることができる。 提案手法は,2つの領域間の相違を生かさない実演軌道に対して高い報酬を与える。 連続制御タスクに関する広範な実験により,本手法の有効性を示し,高次元タスクに対するスケーラビリティを示す。

We propose an approach for inverse reinforcement learning from hetero-domain which learns a reward function in the simulator, drawing on the demonstrations from the real world. The intuition behind the method is that the reward function should not only be oriented to imitate the experts, but should encourage actions adjusted for the dynamics difference between the simulator and the real world. To achieve this, the widely used GAN-inspired IRL method is adopted, and its discriminator, recognizing policy-generating trajectories, is modified with the quantification of dynamics difference. The training process of the discriminator can yield the transferable reward function suitable for simulator dynamics, which can be guaranteed by derivation. Effectively, our method assigns higher rewards for demonstration trajectories which do not exploit discrepancies between the two domains. With extensive experiments on continuous control tasks, our method shows its effectiveness and demonstrates its scalability to high-dimensional tasks.
翻訳日:2021-10-25 15:34:47 公開日:2021-10-21
# FDGATII : 初期残像とアイデンティティマッピングを用いた高速ダイナミックグラフアテンション

FDGATII : Fast Dynamic Graph Attention with Initial Residual and Identity Mapping ( http://arxiv.org/abs/2110.11464v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke, Marius Portmann, Ryan Ko, Shekhar S. Chandra(参考訳) グラフニューラルネットワークは複数の領域で人気を得ているが、グラフ構造入力は依然として大きな課題である。 (a)余計なこと。 (b)うるさい隣人(ヘテロフィリー)、及び (c) 停止アニメーション問題。 これらの問題を同時に解決するために,注目機構が2つの特徴保存機構を補足した選択情報に注目する能力に着想を得た,新しいグラフニューラルネットワークFDGATIIを提案する。 FDGATIIは、初期残差とアイデンティティマッピングと、より表現力のある動的自己アテンションを組み合わせることで、ヘテロ親和性データセットの近傍から発生するノイズを処理する。 fdgatiiは本質的に設計において並列可能であり、操作が効率的であり、理論的には任意のグラフに容易にスケールできる。 われわれのアプローチは7つのデータセットで広く評価されている。 FDGATII は GAT と GCN ベースのベンチマークを完全教師付きタスクの精度と性能で上回り、Chameleon と Cornell のデータセットに対して、ドメイン固有のグラフ前処理がゼロで、その汎用性と公平性を示す。

While Graph Neural Networks have gained popularity in multiple domains, graph-structured input remains a major challenge due to (a) over-smoothing, (b) noisy neighbours (heterophily), and (c) the suspended animation problem. To address all these problems simultaneously, we propose a novel graph neural network FDGATII, inspired by attention mechanism's ability to focus on selective information supplemented with two feature preserving mechanisms. FDGATII combines Initial Residuals and Identity Mapping with the more expressive dynamic self-attention to handle noise prevalent from the neighbourhoods in heterophilic data sets. By using sparse dynamic attention, FDGATII is inherently parallelizable in design, whist efficient in operation; thus theoretically able to scale to arbitrary graphs with ease. Our approach has been extensively evaluated on 7 datasets. We show that FDGATII outperforms GAT and GCN based benchmarks in accuracy and performance on fully supervised tasks, obtaining state-of-the-art results on Chameleon and Cornell datasets with zero domain-specific graph pre-processing, and demonstrate its versatility and fairness.
翻訳日:2021-10-25 15:34:33 公開日:2021-10-21
# SymbioLCD:CNN抽出オブジェクトとビジュアルバグオブワードを用いたアンサンブルベースのループクロージャ検出

SymbioLCD: Ensemble-Based Loop Closure Detection using CNN-Extracted Objects and Visual Bag-of-Words ( http://arxiv.org/abs/2110.11491v1 )

ライセンス: Link先を確認
Jonathan J.Y. Kim, Martin Urschler, Patricia J. Riddle, J\"org S. Wicker(参考訳) ループクロージャ検出は、同時ローカライゼーションとマッピング(slam)の重要なツールであり、そのローカライゼーションにおけるドリフトを最小化する。 多くのLCDアルゴリズムは視覚的バグ・オブ・ワード(vBoW)を用いており、シーン内の部分的な閉塞に対して頑健であるが、特徴点間の意味や空間的関係を認識できない。 CNNオブジェクト抽出は、シーン内のオブジェクト間の意味ラベルと空間的関係を提供することによって、これらの問題に対処することができる。 これまでの作業は主に、vBoWをCNN由来の機能に置き換えることに重点を置いていた。 本稿では,CNN抽出オブジェクトとvBoW特徴を併用した新しいアンサンブルベースのLCDであるSymbioLCDを提案する。 タンデムで使用する場合、オブジェクトの意味論と空間認識の付加要素はより堅牢で共生的なループ閉鎖検知システムを生成する。 提案したSymbioLCDは,スケール不変の空間的および意味的マッチング,時間的制約を伴うハウスドルフ距離,およびCNN抽出対象とvBoW特徴を併用したランダムフォレストを用いて,正確なループ閉鎖候補の予測を行う。 提案手法の評価は,SVM,決定木,ニューラルネットワークなどの他の機械学習(ML)アルゴリズムよりも優れており,CNN抽出対象情報と正確なLCD候補予測を支援するvBoW特徴との間には強い共生が存在することを示す。 さらに,CNN抽出対象からの空間情報と意味情報を付加することで,最先端SLAMアルゴリズムよりも早くループ閉鎖候補を知覚することができる。

Loop closure detection is an essential tool of Simultaneous Localization and Mapping (SLAM) to minimize drift in its localization. Many state-of-the-art loop closure detection (LCD) algorithms use visual Bag-of-Words (vBoW), which is robust against partial occlusions in a scene but cannot perceive the semantics or spatial relationships between feature points. CNN object extraction can address those issues, by providing semantic labels and spatial relationships between objects in a scene. Previous work has mainly focused on replacing vBoW with CNN-derived features. In this paper, we propose SymbioLCD, a novel ensemble-based LCD that utilizes both CNN-extracted objects and vBoW features for LCD candidate prediction. When used in tandem, the added elements of object semantics and spatial-awareness create a more robust and symbiotic loop closure detection system. The proposed SymbioLCD uses scale-invariant spatial and semantic matching, Hausdorff distance with temporal constraints, and a Random Forest that utilizes combined information from both CNN-extracted objects and vBoW features for predicting accurate loop closure candidates. Evaluation of the proposed method shows it outperforms other Machine Learning (ML) algorithms - such as SVM, Decision Tree and Neural Network, and demonstrates that there is a strong symbiosis between CNN-extracted object information and vBoW features which assists accurate LCD candidate prediction. Furthermore, it is able to perceive loop closure candidates earlier than state-of-the-art SLAM algorithms, utilizing added spatial and semantic information from CNN-extracted objects.
翻訳日:2021-10-25 15:29:55 公開日:2021-10-21
# 制約マルコフ決定過程に対するオンライン原始的自然アクター臨界アルゴリズムの有限時間複素性

Finite-Time Complexity of Online Primal-Dual Natural Actor-Critic Algorithm for Constrained Markov Decision Processes ( http://arxiv.org/abs/2110.11383v1 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 本稿では,割引コスト制約付きマルコフ決定プロセス (CMDP) の政策最適化問題について考察する。 この制約付き最適化プログラムでは, 基本関数と双対関数の両方の勾配を, 時間変化マルコフ過程によって生成される単一の軌道からのサンプルを用いて推定する, 古典的な原始双対法のオンラインアクタ-クリティック変種について検討する。 このオンラインプライマル・デュアル・ナチュラル・アクタ-クリティックアルゴリズムは、3つの変数(双対変数(ラグランジアン乗算器)、プリマル変数(またはアクタ)、およびプリマル変数と双対変数の両方の勾配を推定するために使用される批判変数)を維持および反復的に更新する。 これらの変数は同時に更新されるが、異なる時間スケールで更新される(異なるステップサイズを使用する)。 我々の主な貢献は、このアルゴリズムの収束に関する有限時間解析をCMDP問題の大域的最適に導くことである。 具体的には、ステップサイズを適切に選択することで、最適性ギャップと制約違反は、K が反復数であるような $\mathcal{O}(1/K^{1/6})$ の確率でゼロに収束することを示す。 そこで本研究では,CMDP問題の解法として,オンライン・プリマル・デュアル・アクター・クリティック手法の有限時間複雑性を初めて研究した。 また,このアルゴリズムの有効性を数値シミュレーションにより検証する。

We consider a discounted cost constrained Markov decision process (CMDP) policy optimization problem, in which an agent seeks to maximize a discounted cumulative reward subject to a number of constraints on discounted cumulative utilities. To solve this constrained optimization program, we study an online actor-critic variant of a classic primal-dual method where the gradients of both the primal and dual functions are estimated using samples from a single trajectory generated by the underlying time-varying Markov processes. This online primal-dual natural actor-critic algorithm maintains and iteratively updates three variables: a dual variable (or Lagrangian multiplier), a primal variable (or actor), and a critic variable used to estimate the gradients of both primal and dual variables. These variables are updated simultaneously but on different time scales (using different step sizes) and they are all intertwined with each other. Our main contribution is to derive a finite-time analysis for the convergence of this algorithm to the global optimum of a CMDP problem. Specifically, we show that with a proper choice of step sizes the optimality gap and constraint violation converge to zero in expectation at a rate $\mathcal{O}(1/K^{1/6})$, where K is the number of iterations. To our knowledge, this paper is the first to study the finite-time complexity of an online primal-dual actor-critic method for solving a CMDP problem. We also validate the effectiveness of this algorithm through numerical simulations.
翻訳日:2021-10-25 15:24:56 公開日:2021-10-21
# 古典的多次元スケーリングはどのようにうまくいかないのか?

How can classical multidimensional scaling go wrong? ( http://arxiv.org/abs/2110.11430v1 )

ライセンス: Link先を確認
Rishi Sonthalia, Gregory Van Buskirk, Benjamin Raichel, Anna C. Gilbert(参考訳) データセットのペアワイズな類似性を記述する行列 $d$ が与えられると、共通のタスクは、データポイントをユークリッド空間に埋め込むことである。 古典的多次元スケーリング(cMDS)アルゴリズムは、これを実現するために広く使われている手法である。 しかし、アルゴリズムの堅牢性の理論的解析と、非ユークリッド計量におけるその性能の詳細な分析は欠如している。 本稿では、$D$から得られる行列の固有値に基づいて、$D$と計量$D_{\text{cmds}}$との差のフロベニウスノルムをcMDSで返却する公式を導出する。 この誤差解析により、導出行列がかなりの数の負の固有値を持つとき、最初に減少すると、次元が大きくなるにつれて、$\|d-d_{\text{cmds}}\|_f$ が増加するという結論が導かれる。 したがって, 埋め込みの質は, 寸法が大きくなるにつれて低下する。 我々は、フロベニウスノルムが様々な非ユークリッド計量の次元を増やすにつれて増加することを実証的に検証する。 また,複数のベンチマークデータセットにおいて,埋め込みの劣化により,単純(例えば,1-ネアレスト近傍)と複合(例えば,多層ニューラルネット)の分類精度が向上し,埋め込み次元が増大するにつれて減少することを示した。 最後に、我々の分析により、行列 $D_l$ が $D_t$ に近い(ユークリッド計量は $\ell_2$ 距離に最も近い)新しい効率的な計算可能アルゴリズムが導かれる。 d_l$ はメトリックではないが、$d$ の代わりに cmds への入力として与えられると、次元を増加させると $d$ までの距離が増加せず、分類精度が cmds の解よりも低下する。

Given a matrix $D$ describing the pairwise dissimilarities of a data set, a common task is to embed the data points into Euclidean space. The classical multidimensional scaling (cMDS) algorithm is a widespread method to do this. However, theoretical analysis of the robustness of the algorithm and an in-depth analysis of its performance on non-Euclidean metrics is lacking. In this paper, we derive a formula, based on the eigenvalues of a matrix obtained from $D$, for the Frobenius norm of the difference between $D$ and the metric $D_{\text{cmds}}$ returned by cMDS. This error analysis leads us to the conclusion that when the derived matrix has a significant number of negative eigenvalues, then $\|D-D_{\text{cmds}}\|_F$, after initially decreasing, will eventually increase as we increase the dimension. Hence, counterintuitively, the quality of the embedding degrades as we increase the dimension. We empirically verify that the Frobenius norm increases as we increase the dimension for a variety of non-Euclidean metrics. We also show on several benchmark datasets that this degradation in the embedding results in the classification accuracy of both simple (e.g., 1-nearest neighbor) and complex (e.g., multi-layer neural nets) classifiers decreasing as we increase the embedding dimension. Finally, our analysis leads us to a new efficiently computable algorithm that returns a matrix $D_l$ that is at least as close to the original distances as $D_t$ (the Euclidean metric closest in $\ell_2$ distance). While $D_l$ is not metric, when given as input to cMDS instead of $D$, it empirically results in solutions whose distance to $D$ does not increase when we increase the dimension and the classification accuracy degrades less than the cMDS solution.
翻訳日:2021-10-25 15:24:26 公開日:2021-10-21
# オンライン二部間マッチングと予測次数

Online Bipartite Matching with Predicted Degrees ( http://arxiv.org/abs/2110.11439v1 )

ライセンス: Link先を確認
Justin Y. Chen, Piotr Indyk(参考訳) 本稿では,グラフ内のノードの次数(例えば過去のデータに基づく)を予測するオラクルにアルゴリズムがアクセスできるような,オンライングラフ問題のモデルを提案する。 このモデルでは,オンライン2部マッチングの古典的な問題について検討する。 MinPredictedDegreeと呼ばれる強欲なアルゴリズムは、この問題に対する最先端のオンラインアルゴリズムと好意的に比較している。 また、自然ランダムグラフモデルにおけるMinPredictedDegreeの理論的研究を開始し、そのようなグラフ上での最大マッチングとほぼ同じ大きさのマッチングを生成することを示す。

We propose a model for online graph problems where algorithms are given access to an oracle that predicts the degrees of nodes in the graph (e.g., based on past data). Within this model, we study the classic problem of online bipartite matching. An extensive empirical evaluation shows that a greedy algorithm called MinPredictedDegree compares favorably to state-of-the-art online algorithms for this problem. We also initiate the theoretical study of MinPredictedDegree on a natural random graph model with power law degree distribution and show that it produces matchings almost as large as the maximum matching on such graphs.
翻訳日:2021-10-25 15:23:54 公開日:2021-10-21
# 何だって? 連合学習を無償で促進できます

Guess what? You can boost Federated Learning for free ( http://arxiv.org/abs/2110.11486v1 )

ライセンス: Link先を確認
Akash Dhasade, Anne-Marie Kermarrec and Rafael Pires(参考訳) フェデレートラーニング(FL)は、エッジデバイスの計算能力(通常は携帯電話)を利用して、データ生成場所を保ちながらプライバシに対処する。 FLは、アイテムレコメンデーション、仮想キーボード、テキスト自動補完サービスを改善するために、主要なサービスプロバイダによって使用されている。 魅力あるが、FLパフォーマンスは複数の要因によって妨げられている。 一 参加するクライアントの能力(例えば、計算能力、メモリ及びネットワーク接続性)の相違 二 デバイスをアイドルし、プラグインし、未測定のWiFiに接続しなければならない厳しい訓練制約 三 データの異質性(すなわち非IIDness) これらが組み合わさって、不均一な参加、ストラグリング、ドロップアウト、結果として収束を遅くし、多くのアプリケーションにおいてFLの実践性に挑戦する。 本稿では,Gues and LearnアルゴリズムであるGeLを提案し,各クライアントのモデル更新を推測することで収束を著しく高速化する。 GeLのパワーは、追加の勾配計算なしで'free'学習ステップを効果的に実行することである。 GeLは、Adamオプティマイザにおけるモーメントの巧妙な使用と、クライアントの計算済みの勾配を組み合わせることで、これらの推測を提供する。 5つの標準FLベンチマークを含む広範な実験研究により、GeLはデータ非IIDネスの存在下で不均一系における収束を最大1.64倍に高速化し、数万の勾配計算を省いた。

Federated Learning (FL) exploits the computation power of edge devices, typically mobile phones, while addressing privacy by letting data stay where it is produced. FL has been used by major service providers to improve item recommendations, virtual keyboards and text auto-completion services. While appealing, FL performance is hampered by multiple factors: i) differing capabilities of participating clients (e.g., computing power, memory and network connectivity); ii) strict training constraints where devices must be idle, plugged-in and connected to an unmetered WiFi; and iii) data heterogeneity (a.k.a non-IIDness). Together, these lead to uneven participation, straggling, dropout and consequently slow down convergence, challenging the practicality of FL for many applications. In this paper, we present GeL, the Guess and Learn algorithm, that significantly speeds up convergence by guessing model updates for each client. The power of GeL is to effectively perform ''free'' learning steps without any additional gradient computations. GeL provides these guesses through clever use of moments in the Adam optimizer in combination with the last computed gradient on clients. Our extensive experimental study involving five standard FL benchmarks shows that GeL speeds up the convergence up to 1.64x in heterogeneous systems in the presence of data non-IIDness, saving tens of thousands of gradient computations.
翻訳日:2021-10-25 15:23:44 公開日:2021-10-21
# ソフトウェア定義メモリによる大規模DLRM推論のサポート

Supporting Massive DLRM Inference Through Software Defined Memory ( http://arxiv.org/abs/2110.11489v1 )

ライセンス: Link先を確認
Ehsan K. Ardestani, Changkyu Kim, Seung Jae Lee, Luoshang Pan, Valmiki Rampersad, Jens Axboe, Banit Agrawal, Fuxun Yu, Ansha Yu, Trung Le, Hector Yuen, Shishir Juluri, Akshat Nanda, Manoj Wodekar, Dheevatsa Mudigere, Krishnakumar Nair, Maxim Naumov, Chris Peterson, Mikhail Smelyanskiy, Vijay Rao(参考訳) Deep Learning Recommendation Models (DLRM) は広く普及しており、データセンターのフットプリントが相当あり、年間1.5倍以上成長している。 モデルサイズがテラバイトに近づき、推論にSCM(Storage ClassMemory)を活用することで、消費電力とコストを削減できる。 本稿では,DLRMにおけるメモリ階層をSCMに拡張する上での大きな課題について検討し,ソフトウェア定義メモリによる性能向上手法を提案する。 Nand Flashや3DXPのような基盤技術が現実世界のシナリオとどのように異なるかを示し、5%から29%の省電力を実現している。

Deep Learning Recommendation Models (DLRM) are widespread, account for a considerable data center footprint, and grow by more than 1.5x per year. With model size soon to be in terabytes range, leveraging Storage ClassMemory (SCM) for inference enables lower power consumption and cost. This paper evaluates the major challenges in extending the memory hierarchy to SCM for DLRM, and presents different techniques to improve performance through a Software Defined Memory. We show how underlying technologies such as Nand Flash and3DXP differentiate, and relate to real world scenarios, enabling from 5% to 29% power savings.
翻訳日:2021-10-25 15:21:45 公開日:2021-10-21
# デカップリングニューラルインタフェースとしての皮質-小脳ネットワーク

Cortico-cerebellar networks as decoupling neural interfaces ( http://arxiv.org/abs/2110.11501v1 )

ライセンス: Link先を確認
Joseph Pemberton and Ellen Boven and Richard Apps and Rui Ponte Costa(参考訳) 脳は、クレジット割り当ての問題を驚くほどうまく解決します。 クレジットをニューラルネットワークに割り当てるためには、原則として、特定のニューラルネットワークの計算が完了するのを待つ必要がある。 この固有のロック問題に対する脳の対応は、まだはっきりしていない。 ディープラーニング手法は、フォワードとフィードバックフェーズの両方で、同様のロック制約に悩まされる。 近年,ディープネットワークにおける前方およびフィードバックロック問題に対する解として,decoupled neural interfaces (dnis)が導入された。 そこで本研究では、大脳皮質がDNIと同様のロック問題を解くのに役立つ特化脳野である小脳を提案する。 このフレームワークの可能性を実証するために、脳小脳モジュールからオンラインの時間的フィードバック予測を受けるリカレント皮質ネットワークのシステムレベルモデルを導入する。 この皮質-小脳リカレントニューラルネットワーク(ccrnn)モデルを,小脳に依存した複数の感覚運動(線画と指画)と認知課題(パターン認識とキャプション生成)でテストした。 すべてのタスクにおいて,ccrnnは,古典的実験観察と整合して,失調症様の動作を減少させながら学習を促進することが観察される。 さらに,最近の行動観察とニューロン観察についても説明し,複数のレベルにまたがって検証可能な予測を行った。 全体として、私たちの研究は、効率的なクレジット割り当てのための脳全体のデカップリングマシンとして小脳に関する新しい視点を提供し、深層学習と神経科学の間の新たな道を開きます。

The brain solves the credit assignment problem remarkably well. For credit to be assigned across neural networks they must, in principle, wait for specific neural computations to finish. How the brain deals with this inherent locking problem has remained unclear. Deep learning methods suffer from similar locking constraints both on the forward and feedback phase. Recently, decoupled neural interfaces (DNIs) were introduced as a solution to the forward and feedback locking problems in deep networks. Here we propose that a specialised brain region, the cerebellum, helps the cerebral cortex solve similar locking problems akin to DNIs. To demonstrate the potential of this framework we introduce a systems-level model in which a recurrent cortical network receives online temporal feedback predictions from a cerebellar module. We test this cortico-cerebellar recurrent neural network (ccRNN) model on a number of sensorimotor (line and digit drawing) and cognitive tasks (pattern recognition and caption generation) that have been shown to be cerebellar-dependent . In all tasks, we observe that ccRNNs facilitates learning while reducing ataxia-like behaviours, consistent with classical experimental observations. Moreover, our model also explains recent behavioural and neuronal observations while making several testable predictions across multiple levels. Overall, our work offers a novel perspective on the cerebellum as a brain-wide decoupling machine for efficient credit assignment and opens a new avenue between deep learning and neuroscience.
翻訳日:2021-10-25 15:21:33 公開日:2021-10-21
# 自律型aiエージェントのための自己開始型オープンワールド学習

Self-Initiated Open World Learning for Autonomous AI Agents ( http://arxiv.org/abs/2110.11385v1 )

ライセンス: Link先を確認
Bing Liu, Eric Robertson, Scott Grigsby, Sahisnu Mazumder(参考訳) より多くのaiエージェントが実際に使われるようになるにつれ、トレーニングデータの拡張を使用して、人間エンジニアの開始に定期的に再訓練されるのではなく、自己モチベーションと自己監督の方法で学習できるように、これらのエージェントを完全自律的にする方法を考える時が来ている。 現実の世界は未知や新奇な環境であり、新しいものや未知を検知し、真実のトレーニングデータを収集し、その未知を漸進的に学習することで、エージェントは時間とともにより理解され、強力になる。 主要な課題は、エージェント自身のイニシアチブや、人間や環境との相互作用を通じて実行されるように、プロセスを自動化することである。 AIエージェントは、通常、パフォーマンスタスクを有するため、各新規性を特徴付ける必要があるため、エージェントは、その新規性に対応するためにその振る舞いに適応し、そこから学び、将来の応答とタスクパフォーマンスを改善することができる。 本稿では,自己開始型オープンワールド学習エージェントの構築研究を促進するための学習パラダイムの理論的枠組みを提案する。

As more and more AI agents are used in practice, it is time to think about how to make these agents fully autonomous so that they can learn by themselves in a self-motivated and self-supervised manner rather than being retrained periodically on the initiation of human engineers using expanded training data. As the real-world is an open environment with unknowns or novelties, detecting novelties or unknowns, gathering ground-truth training data, and incrementally learning the unknowns make the agent more and more knowledgeable and powerful over time. The key challenge is how to automate the process so that it is carried out on the agent's own initiative and through its own interactions with humans and the environment. Since an AI agent usually has a performance task, characterizing each novelty becomes necessary so that the agent can formulate an appropriate response to adapt its behavior to cope with the novelty and to learn from it to improve its future responses and task performance. This paper proposes a theoretic framework for this learning paradigm to promote the research of building self-initiated open world learning agents.
翻訳日:2021-10-25 14:39:20 公開日:2021-10-21
# ランダム特徴行列の条件付け:二重降下と一般化誤差

Conditioning of Random Feature Matrices: Double Descent and Generalization Error ( http://arxiv.org/abs/2110.11477v1 )

ライセンス: Link先を確認
Zhijun Chen and Hayden Schaeffer(参考訳) 我々は、ランダム特徴行列の条件数に(高い確率)境界を与える。 特に、複雑さ比$\frac{N}{m}$がニューロンの数であり、$m$が$\log^{-3}(N)$や$\log^{3}(m)$のようなデータサンプルのスケール数であるなら、ランダムな特徴行列は十分に条件付きである。 この結果は正規化を必要とせず、ランダム特徴行列の制限された等長定数の束縛を確立することに依拠する。 さらに、ランダムな特徴行列を用いた回帰問題に関連するリスクが二重降下現象を示し、これが条件数の二重降下挙動の影響であることを証明した。 リスク境界には、最小二乗問題を用いた過パラメータ設定と、最小ノルム補間問題またはスパース回帰問題を使用する過パラメータ設定が含まれる。 最小二乗またはスパース回帰の場合、有界ノイズやランダムノイズの存在下においても、そのリスクは$m$と$N$の増加とともに減少する。 リスクバウンドは文献の最適スケーリングと一致し、結果の定数はデータの次元とは明確に独立している。

We provide (high probability) bounds on the condition number of random feature matrices. In particular, we show that if the complexity ratio $\frac{N}{m}$ where $N$ is the number of neurons and $m$ is the number of data samples scales like $\log^{-3}(N)$ or $\log^{3}(m)$, then the random feature matrix is well-conditioned. This result holds without the need of regularization and relies on establishing a bound on the restricted isometry constant of the random feature matrix. In addition, we prove that the risk associated with regression problems using a random feature matrix exhibits the double descent phenomenon and that this is an effect of the double descent behavior of the condition number. The risk bounds include the underparameterized setting using the least squares problem and the overparameterized setting where using either the minimum norm interpolation problem or a sparse regression problem. For the least squares or sparse regression cases, we show that the risk decreases as $m$ and $N$ increase, even in the presence of bounded or random noise. The risk bound matches the optimal scaling in the literature and the constants in our results are explicit and independent of the dimension of the data.
翻訳日:2021-10-25 14:38:13 公開日:2021-10-21
# DEX: 一般人再識別のためのドメイン埋め込み拡張

DEX: Domain Embedding Expansion for Generalized Person Re-identification ( http://arxiv.org/abs/2110.11391v1 )

ライセンス: Link先を確認
Eugene P.W. Ang, Lin Shan, Alex C. Kot(参考訳) 近年,Person ReID(Person ReID)アプローチは優れた性能を示している。 しかし、異なるカメラネットワークからの入力にこれらの手法を適用すると、通常、性能が著しく低下する。 この問題に対処するほとんどのドメイン適応(DA)アプローチとは異なり、我々は、追加の微調整や適応なしにデプロイできるドメイン一般化(DG)Person ReIDモデルの開発に注力する。 本稿ではドメイン埋め込み拡張(DEX)モジュールを提案する。 DEXは、トレーニング中に人やドメインラベルに基づいた深い機能を動的に操作し、拡張し、Person ReIDモデルの未確認領域への一般化能力と堅牢性を大幅に改善する。 また,DEX (DEXLite) の軽量バージョンを開発し,より大規模なデータセットに適用し,マルチブランチネットワークにおけるメモリ使用量を削減する。 提案手法は,Bag-of-Tricks (BagTricks), Multi-Granularity Network (MGN), Part-Based Convolutional Baseline (PCB)など,既存の多くの手法と組み合わせることができる。 DEXとDEXLiteでは、既存の手法は他の未知のデータセットでテストすると大幅に改善され、この手法の汎用性を示すことができる。 我々のソリューションは、すべての大規模ベンチマークや、ほとんどの小規模ベンチマークにおいて、最先端のDG Person ReIDメソッドよりも優れています。

In recent years, supervised Person Re-identification (Person ReID) approaches have demonstrated excellent performance. However, when these methods are applied to inputs from a different camera network, they typically suffer from significant performance degradation. Different from most domain adaptation (DA) approaches addressing this issue, we focus on developing a domain generalization (DG) Person ReID model that can be deployed without additional fine-tuning or adaptation. In this paper, we propose the Domain Embedding Expansion (DEX) module. DEX dynamically manipulates and augments deep features based on person and domain labels during training, significantly improving the generalization capability and robustness of Person ReID models to unseen domains. We also developed a light version of DEX (DEXLite), applying negative sampling techniques to scale to larger datasets and reduce memory usage for multi-branch networks. Our proposed DEX and DEXLite can be combined with many existing methods, Bag-of-Tricks (BagTricks), the Multi-Granularity Network (MGN), and Part-Based Convolutional Baseline (PCB), in a plug-and-play manner. With DEX and DEXLite, existing methods can gain significant improvements when tested on other unseen datasets, thereby demonstrating the general applicability of our method. Our solution outperforms the state-of-the-art DG Person ReID methods in all large-scale benchmarks as well as in most the small-scale benchmarks.
翻訳日:2021-10-25 14:32:53 公開日:2021-10-21
# aei: 時間的行動提案生成のための適応的注意を伴うアクタ-環境相互作用

AEI: Actors-Environment Interaction with Adaptive Attention for Temporal Action Proposals Generation ( http://arxiv.org/abs/2110.11474v1 )

ライセンス: Link先を確認
Khoa Vo, Hyekang Joo, Kashu Yamazaki, Sang Truong, Kris Kitani, Ngan Le(参考訳) 人間は通常、俳優と周囲の環境との相互作用を通じて、ビデオ内のアクションの確立を認識する。 アクションは、ビデオ内のメインアクタが環境と対話し始めるときにのみ始まり、メインアクタがインタラクションを停止すると終了する。 時間的行動提案生成の大きな進歩にもかかわらず、既存の作品の多くは前述の事実を無視し、ブラックボックスとしてアクションを提案するためのモデル学習を残している。 本稿では,アクタ環境インタラクション(aei)ネットワークを提案し,時間的行動提案生成のための映像表現を改善することで,その能力をシミュレートする試みを行う。 AEIには、知覚に基づく視覚表現(PVR)と境界マッチングモジュール(BMM)の2つのモジュールが含まれている。 PVRは、人間の人間関係と人間環境関係を適応的注意機構を用いて考慮し、各ビデオスニペットを表現している。 そして、映像表現をBMMに取り込み、アクション提案を生成する。 AEIは、ActivityNet-1.3とTHUMOS-14データセットにおいて、時間的アクションの提案と検出タスクに基づいて、2つの境界マッチングアーキテクチャ(CNNベースとGCNベース)と2つの分類器(UnetとP-GCN)で包括的に評価されている。 我々のAEIは、時間的行動提案生成と時間的行動検出の両方において、顕著な性能と一般化で最先端の手法を頑健に上回ります。

Humans typically perceive the establishment of an action in a video through the interaction between an actor and the surrounding environment. An action only starts when the main actor in the video begins to interact with the environment, while it ends when the main actor stops the interaction. Despite the great progress in temporal action proposal generation, most existing works ignore the aforementioned fact and leave their model learning to propose actions as a black-box. In this paper, we make an attempt to simulate that ability of a human by proposing Actor Environment Interaction (AEI) network to improve the video representation for temporal action proposals generation. AEI contains two modules, i.e., perception-based visual representation (PVR) and boundary-matching module (BMM). PVR represents each video snippet by taking human-human relations and humans-environment relations into consideration using the proposed adaptive attention mechanism. Then, the video representation is taken by BMM to generate action proposals. AEI is comprehensively evaluated in ActivityNet-1.3 and THUMOS-14 datasets, on temporal action proposal and detection tasks, with two boundary-matching architectures (i.e., CNN-based and GCN-based) and two classifiers (i.e., Unet and P-GCN). Our AEI robustly outperforms the state-of-the-art methods with remarkable performance and generalization for both temporal action proposal generation and temporal action detection.
翻訳日:2021-10-25 14:32:27 公開日:2021-10-21
# MixNorm: オンライン正規化推定によるテスト時間適応

MixNorm: Test-Time Adaptation Through Online Normalization Estimation ( http://arxiv.org/abs/2110.11478v1 )

ライセンス: Link先を確認
Xuefeng Hu, Gokhan Uzunbas, Sirius Chen, Rui Wang, Ashish Shah, Ram Nevatia and Ser-Nam Lim(参考訳) テスト期間中のバッチノーム統計を簡易かつ効果的に推定し、ソースモデルをテストサンプルに迅速に適応させる方法を提案する。 テスト時間適応(Test-Time Adaptation)として知られるこのタスクの研究は、(1)テストサンプルが大きなバッチとして集まり、(2)テストの分布が1つであることを評価する上で、2つの前提に従っている。 しかし、実際にはこれら2つの仮定は成立しない可能性があり、バッチサイズが任意で複数の分布が考慮される2つの新しい評価設定を提案する。 安定なバッチノルム統計を計算するためにテスト時間中に単一分布の大規模なバッチを必要とする従来の方法とは異なり、本手法は大規模オンラインバッチへの依存を回避し、単一のサンプルで正確なバッチノルム統計を推定することができる。 提案手法は,新たに提案するテスト時適応タスクにおける最先端を著しく上回り,ソースフリーな非教師なしドメイン適応やゼロショット分類など,他の様々な設定における改善も示す。

We present a simple and effective way to estimate the batch-norm statistics during test time, to fast adapt a source model to target test samples. Known as Test-Time Adaptation, most prior works studying this task follow two assumptions in their evaluation where (1) test samples come together as a large batch, and (2) all from a single test distribution. However, in practice, these two assumptions may not stand, the reasons for which we propose two new evaluation settings where batch sizes are arbitrary and multiple distributions are considered. Unlike the previous methods that require a large batch of single distribution during test time to calculate stable batch-norm statistics, our method avoid any dependency on large online batches and is able to estimate accurate batch-norm statistics with a single sample. The proposed method significantly outperforms the State-Of-The-Art in the newly proposed settings in Test-Time Adaptation Task, and also demonstrates improvements in various other settings such as Source-Free Unsupervised Domain Adaptation and Zero-Shot Classification.
翻訳日:2021-10-25 14:32:02 公開日:2021-10-21
# 選択的知識集約による分散型人物再同定

Decentralised Person Re-Identification with Selective Knowledge Aggregation ( http://arxiv.org/abs/2110.11384v1 )

ライセンス: Link先を確認
Shitong Sun, Guile Wu, Shaogang Gong(参考訳) 既存の人物再識別(Re-ID)手法は主に、モデル学習のためのコレクションにすべてのトレーニングデータを共有する集中型学習パラダイムに従っている。 このパラダイムは、プライバシー上の懸念から異なるソースからのデータが共有できない場合に制限される。 この問題を解決するために、2つの最近の研究が、ローカルトレーニングデータへの直接アクセスや異なるソースドメイン(クライアント)間での共有データなしで、グローバルに一般化されたモデル(サーバ)を構築するための分散(フェデレーション付き)Re-ID学習を導入している。 しかし、これらの手法は、ドメイン間のデータの異質性の理解の欠如により、個々のRe-IDラベル空間を持つRe-IDタスクの性能を最大化するために一般化されたモデルを適用する方法に乏しい。 これを「モデルパーソナライズ」と呼ぶ。 本稿では,モデルパーソナライゼーションと一般化のトレードオフを最適化するために,分散化人に対する新たな選択的知識集約手法を提案する。 具体的には、深層reidモデルの正規化層に注意的正規化を取り入れ、フェデレート再学習におけるグローバルモデル集約から分離した各ドメイン固有の局所正規化層を学ぶことを提案する。 これは、各ローカルクライアントドメインのモデルパーソナライズ知識を保持し、インスタンス固有の情報を学ぶのに役立つ。 さらに,各局所モデルにおける一般化正規化層を学習するために,双対局所正規化機構を導入する。 これにより、サーバ上の選択的な知識集約が促進され、未知の新規ドメインへのアウト・オブ・ザ・ボックス展開のためのグローバルな一般化モデルが構築される。 8人のRe-IDデータセットに対する大規模な実験は、Re-IDの分散化アプローチが最先端の分散化手法よりも大幅に優れていることを示している。

Existing person re-identification (Re-ID) methods mostly follow a centralised learning paradigm which shares all training data to a collection for model learning. This paradigm is limited when data from different sources cannot be shared due to privacy concerns. To resolve this problem, two recent works have introduced decentralised (federated) Re-ID learning for constructing a globally generalised model (server)without any direct access to local training data nor shared data across different source domains (clients). However, these methods are poor on how to adapt the generalised model to maximise its performance on individual client domain Re-ID tasks having different Re-ID label spaces, due to a lack of understanding of data heterogeneity across domains. We call this poor 'model personalisation' ;. In this work, we present a new Selective Knowledge Aggregation approach to decentralised person Re-ID to optimise the trade-off between model personalisation and generalisation. Specifically, we incorporate attentive normalisation into the normalisation layers in a deep ReID model and propose to learn local normalisation layers specific to each domain, which are decoupled from the global model aggregation in federated Re-ID learning. This helps to preserve model personalisation knowledge on each local client domain and learn instance-specific information. Further, we introduce a dual local normalisation mechanism to learn generalised normalisation layers in each local model, which are then transmitted to the global model for central aggregation. This facilitates selective knowledge aggregation on the server to construct a global generalised model for out-of-the-box deployment on unseen novel domains. Extensive experiments on eight person Re-ID datasets show that the proposed approach to decentralised Re-ID significantly outperforms the state-of-the-art decentralised methods.
翻訳日:2021-10-25 13:54:39 公開日:2021-10-21
# ハイパーパラメータに基づくニューラルネットワークによるメモリ消費の解析

Analysis of memory consumption by neural networks based on hyperparameters ( http://arxiv.org/abs/2110.11424v1 )

ライセンス: Link先を確認
Mahendran N(参考訳) ディープラーニングモデルはトレーニングされ、複数のドメインにデプロイされる。 ディープラーニングモデルの使用の増加は、ディープラーニングモデルによる計算中に消費されるメモリの使用を警告する。 モデル圧縮のようなメモリ消費を減らす既存のアプローチでは、ハードウェアの変更が特有である。 本稿では,ディープラーニングモデルをトレーニングしながら,トレーニングに使用するハイパーパラメータと比較し,メモリ消費の汎用的解析を提案する。 学習率、バッチサイズ、隠れたレイヤの数、層深度を含むハイパーパラメータは、モデルの性能、モデルの正確性を決定する。 最適化と隠されたレイヤのタイプを既知の値と仮定する。 ハイパーパラメータの変化と隠蔽層の数はこの提案手法で考慮された変数である。 計算コストをよりよく理解するため,本解析ではハイパーパラメータに対するメモリ消費の変化を主眼として検討する。 これにより、ハイパーパラメータのセットを変更すると、トレーニング中のメモリ消費の変化が一般化される。

Deep learning models are trained and deployed in multiple domains. Increasing usage of deep learning models alarms the usage of memory consumed while computation by deep learning models. Existing approaches for reducing memory consumption like model compression, hardware changes are specific. We propose a generic analysis of memory consumption while training deep learning models in comparison with hyperparameters used for training. Hyperparameters which includes the learning rate, batchsize, number of hidden layers and depth of layers decide the model performance, accuracy of the model. We assume the optimizers and type of hidden layers as a known values. The change in hyperparamaters and the number of hidden layers are the variables considered in this proposed approach. For better understanding of the computation cost, this proposed analysis studies the change in memory consumption with respect to hyperparameters as main focus. This results in general analysis of memory consumption changes during training when set of hyperparameters are altered.
翻訳日:2021-10-25 13:51:58 公開日:2021-10-21
# リモートパルス検出におけるディジタルおよび物理世界攻撃

Digital and Physical-World Attacks on Remote Pulse Detection ( http://arxiv.org/abs/2110.11525v1 )

ライセンス: Link先を確認
Jeremy Speth, Nathan Vance, Patrick Flynn, Kevin W. Bowyer, Adam Czajka(参考訳) remote photoplethysmography (rppg) は、接触センサーを必要とせず、反射光から血液量の変化を推定する手法である。 フェースビデオからrPPG上のデジタルおよび物理領域におけるプレゼンテーション攻撃の最初の例を示す。 デジタル攻撃は、入力ビデオに知覚不能な周期ノイズを加えることで容易に行われる。 物理的攻撃は、顔の近くに置かれる可視光LEDからの光によって行われるが、人間の目では認識が難しい。 また,本手法は3Dプリント顔マスクに強い周期的パルスを効果的に生成できるため,医療応用を超えて攻撃が拡大することを示す。 本稿は,rppg法とパルスベースフェースパッドのロバスト性を改善するため,本研究の考え方をまとめる。

Remote photoplethysmography (rPPG) is a technique for estimating blood volume changes from reflected light without the need for a contact sensor. We present the first examples of presentation attacks in the digital and physical domains on rPPG from face video. Digital attacks are easily performed by adding imperceptible periodic noise to the input videos. Physical attacks are performed with illumination from visible spectrum LEDs placed in close proximity to the face, while still being difficult to perceive with the human eye. We also show that our attacks extend beyond medical applications, since the method can effectively generate a strong periodic pulse on 3D-printed face masks, which presents difficulties for pulse-based face presentation attack detection (PAD). The paper concludes with ideas for using this work to improve robustness of rPPG methods and pulse-based face PAD.
翻訳日:2021-10-25 13:47:43 公開日:2021-10-21
# 手指からの能動物体検出のための逐次意思決定

Sequential Decision-Making for Active Object Detection from Hand ( http://arxiv.org/abs/2110.11524v1 )

ライセンス: Link先を確認
Qichen Fu, Xingyu Liu, Kris M. Kitani(参考訳) 手と物体の相互作用を理解する重要な要素は、手と物体の相互作用によって引き起こされる閉塞にもかかわらず、人間の手で操作されている活動的な物体を識別する能力である。 対象物の位置や大きさの指標として手の出現が強いという観測に基づいて,手の位置や外観を条件とした逐次的意思決定プロセスとして,能動物体検出法を設定した。 このアプローチの重要な革新は、Relational Box Field(リレーショナルボックスフィールド)と呼ばれる内部表現を使ったアクティブオブジェクト検出ポリシーの設計です。 このポリシーは、ハイブリッドな模倣学習と強化学習アプローチを用いて訓練され、テスト時には、アクティブオブジェクトの境界ボックス位置を洗練するために繰り返し使用される。 我々は,100DOHとMECCANOの2つの大規模データセットで実験を行い,AP50の性能をそれぞれ8%,30%向上させた。

A key component of understanding hand-object interactions is the ability to identify the active object -- the object that is being manipulated by the human hand -- despite the occlusion induced by hand-object interactions. Based on the observation that hand appearance is a strong indicator of the location and size of the active object, we set up our active object detection method as a sequential decision-making process that is conditioned on the location and appearance of the hands. The key innovation of our approach is the design of the active object detection policy that uses an internal representation called the Relational Box Field, which allows for every pixel to regress an improved location of an active object bounding box, essentially giving every pixel the ability to vote for a better bounding box location. The policy is trained using a hybrid imitation learning and reinforcement learning approach, and at test time, the policy is used repeatedly to refine the bounding box location of the active object. We perform experiments on two large-scale datasets: 100DOH and MECCANO, improving AP50 performance by 8% and 30%, respectively, over the state of the art.
翻訳日:2021-10-25 13:17:20 公開日:2021-10-21
# 広義のニューラルネットワークは破滅的でない

Wide Neural Networks Forget Less Catastrophically ( http://arxiv.org/abs/2110.11526v1 )

ライセンス: Link先を確認
Seyed Iman Mirzadeh, Arslan Chaudhry, Huiyi Hu, Razvan Pascanu, Dilan Gorur, Mehrdad Farajtabar(参考訳) 継続的学習における研究の活発化は、分散シフトに対してより堅牢な新しいアルゴリズムを設計することによって、ニューラルネットワークの「カタストロフィック・フォーミング」を克服することに集中している。 最近の連続学習文学の進歩は奨励されているが、ニューラルネットワークの性質が破滅的な記憶にどんな影響を与えるかを理解することは、まだ限られている。 そこで本研究では,連続学習アルゴリズムに焦点をあてるのではなく,モデル自体に注目し,ニューラルネットワークアーキテクチャの"幅"が破滅的な忘れ方に与える影響を考察し,その幅が忘れ方に対して驚くほど大きな影響を与えることを示す。 この効果を説明するために,勾配ノルムやスパーシティ,直交化,遅延トレーニングといった様々な観点から,ネットワークの学習ダイナミクスを考察する。 異なるアーキテクチャにわたる経験的結果と連続的な学習ベンチマークに一致した潜在的な説明を提供する。

A growing body of research in continual learning is devoted to overcoming the "Catastrophic Forgetting" of neural networks by designing new algorithms that are more robust to the distribution shifts. While the recent progress in continual learning literature is encouraging, our understanding of what properties of neural networks contribute to catastrophic forgetting is still limited. To address this, instead of focusing on continual learning algorithms, in this work, we focus on the model itself and study the impact of "width" of the neural network architecture on catastrophic forgetting, and show that width has a surprisingly significant effect on forgetting. To explain this effect, we study the learning dynamics of the network from various perspectives such as gradient norm and sparsity, orthogonalization, and lazy training regime. We provide potential explanations that are consistent with the empirical results across different architectures and continual learning benchmarks.
翻訳日:2021-10-25 13:17:04 公開日:2021-10-21
# (参考訳) グラフニューラルネットワークを用いた高分解能降雨流出モデル [全文訳有]

High-resolution rainfall-runoff modeling using graph neural network ( http://arxiv.org/abs/2110.10833v1 )

ライセンス: CC BY 4.0
Zhongrun Xiang, Ibrahim Demir(参考訳) 時系列モデリングはLSTM(Long Short-Term Memory)のような最新のディープラーニングアルゴリズムを用いた最近の研究で大きな可能性を秘めている。 これらの研究は主に流域スケールの降水モデルや流量予測に焦点が当てられたが、その大半は1つの流域のみを単位としていた。 この単純化は非常に効果的であるが、空間的な情報を考慮していないため、大きな流域でかなりの誤差が生じる可能性がある。 大規模流域を複数のサブ流域に分割してデータ統合にGNN(Graph Neural Networks)を用いることを検討したが,各流域は依然として全体として扱われ,流域に含まれる地理情報は十分に活用されていない。 本稿では,流れ方向や地理情報を含む高分解能降水データから空間情報をフル活用した新しい深層学習モデルであるgnrrm(graph neural rain-runoff model)を提案する。 ベースラインモデルと比較すると、GNRRMは過度に適合せず、モデル性能を大幅に改善する。 この知見は,深層学習に基づく降雨流出モデルにおける水文データの重要性を裏付けるものであり,そのモデルにより多くのドメイン知識を組み込むことを研究者に促している。

Time-series modeling has shown great promise in recent studies using the latest deep learning algorithms such as LSTM (Long Short-Term Memory). These studies primarily focused on watershed-scale rainfall-runoff modeling or streamflow forecasting, but the majority of them only considered a single watershed as a unit. Although this simplification is very effective, it does not take into account spatial information, which could result in significant errors in large watersheds. Several studies investigated the use of GNN (Graph Neural Networks) for data integration by decomposing a large watershed into multiple sub-watersheds, but each sub-watershed is still treated as a whole, and the geoinformation contained within the watershed is not fully utilized. In this paper, we propose the GNRRM (Graph Neural Rainfall-Runoff Model), a novel deep learning model that makes full use of spatial information from high-resolution precipitation data, including flow direction and geographic information. When compared to baseline models, GNRRM has less over-fitting and significantly improves model performance. Our findings support the importance of hydrological data in deep learning-based rainfall-runoff modeling, and we encourage researchers to include more domain knowledge in their models.
翻訳日:2021-10-23 09:54:14 公開日:2021-10-21
# (参考訳) エンジニアリング設計における深部生成モデル [全文訳有]

Deep Generative Models in Engineering Design: A Review ( http://arxiv.org/abs/2110.10863v1 )

ライセンス: CC BY 4.0
Lyle Regenwetter, Amin Heyrani Nobari, Faez Ahmed(参考訳) 自動設計合成は、現代の人間設計プロセスに革命をもたらす可能性があり、無数の産業にまたがる高度に最適化されたカスタマイズされた製品へのアクセスを改善する。 生成機械学習を設計工学に適用することは、そのような自動設計合成の鍵であり、非常に重要な研究課題である。 本稿では,工学設計におけるDeep Generative Learningモデルのレビューと分析を行う。 deep generative models (dgms) は通常、ディープネットワークを利用して入力データセットから学び、新しいデザインを合成することを学ぶ。 近年, GAN (Generative Adversarial Networks) やVAE (variantal Autoencoders) , フィードフォワードニューラルネットワーク (NN) やある種のDeep Reinforcement Learning (DRL) フレームワークなどのDGMは, 構造最適化や材料設計, 形状合成などの設計応用において有望な結果を示している。 エンジニアリングデザインにおけるDGMの普及は、2016年以来急増している。 継続的な成長を期待し,dgmの設計に関心を持つ研究者の利益を期待して,最近の進歩を振り返る。 我々は,現在の文献で一般的に用いられているアルゴリズム,データセット,表現法,アプリケーションの例示としてレビューを構成する。 特に、DGMに新しい技術や手法を導入し、DGMを設計関連領域にうまく適用したり、データセットや補助手法を通じて直接支援されたDGMの開発について論じる。 デザインの創造性、複雑な制約と目的の扱い、フォームと機能の両方のパフォーマンスを同時にモデル化するなど、dgmで現在見られる重要な課題と制限をさらに特定します。 議論では、将来の作業をターゲットにする重要な領域として、可能な解決経路を特定した。

Automated design synthesis has the potential to revolutionize the modern human design process and improve access to highly optimized and customized products across countless industries. Successfully adapting generative Machine Learning to design engineering may be the key to such automated design synthesis and is a research subject of great importance. We present a review and analysis of Deep Generative Learning models in engineering design. Deep Generative Models (DGMs) typically leverage deep networks to learn from an input dataset and learn to synthesize new designs. Recently, DGMs such as Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), feedforward Neural Networks (NNs) and certain Deep Reinforcement Learning (DRL) frameworks have shown promising results in design applications like structural optimization, materials design, and shape synthesis. The prevalence of DGMs in Engineering Design has skyrocketed since 2016. Anticipating continued growth, we conduct a review of recent advances with the hope of benefitting researchers interested in DGMs for design. We structure our review as an exposition of the algorithms, datasets, representation methods, and applications commonly used in the current literature. In particular, we discuss key works that have introduced new techniques and methods in DGMs, successfully applied DGMs to a design-related domain, or directly supported development of DGMs through datasets or auxiliary methods. We further identify key challenges and limitations currently seen in DGMs across design fields, such as design creativity, handling complex constraints and objectives, and modeling both form and functional performance simultaneously. In our discussion we identify possible solution pathways as key areas on which to target future work.
翻訳日:2021-10-23 09:48:34 公開日:2021-10-21
# (参考訳) 時系列特徴集合の経験的評価 [全文訳有]

An Empirical Evaluation of Time-Series Feature Sets ( http://arxiv.org/abs/2110.10914v1 )

ライセンス: CC BY 4.0
Trent Henderson, Ben D. Fulcher(参考訳) 機能抽出のためのソフトウェアが利用できるため、機能で時系列問題を解決することの人気が高まっている。 機能ベースの時系列分析は、hctsa (7730 機能: matlab)、fants (42 機能: r)、tsfeatures (63 機能: r)、kats (40 機能: python)、tsfresh (最大 1558 機能: python)、tsfel (390 機能: python)、c-coded catch22 (22 機能: matlab、r、python、julia) など、さまざまな機能セットを使用して実行できるようになった。 これらの集合に含まれるメソッドの種類(例えば、自己相関関数とフーリエパワースペクトルの特性)にはかなりの重複があるが、体系的に比較することはできない。 ここでは,これら7セットの計算速度を比較し,各特徴の冗長性を評価し,それらの重なりと冗長性を評価する。 実世界とシミュレーション時系列の多様な集合にまたがる出力に基づく特徴類似性に関する実証的なアプローチをとる。 機能セットは、1000サンプルシリーズのラップトップ上の1機能当たりの計算時間において、最も速いセット catch22 と TSFEL (~0.1ms per feature) から tsfeatures (~3s per feature) まで、桁違いに変化する。 各セットにおける特徴冗長性を評価するために PCA を用いて, TSFEL と tsfresh の最も高い内部冗長性を求める。 例えば、TSFELでは、390のフィーチャにまたがるばらつきの90%をわずか4台のPCでキャプチャできる。 最後に,重なり合いを示す特徴集合のペア間の重なり合いを定量化する指標を提案する。 最大の特徴集合 hctsa が最も包括的であり、tsfresh は低レベルフーリエ係数が多数含まれているため、最も顕著であることがわかった。 この結果から,既存の機能セットの違いを実証的に理解し,機能セットをアプリケーションに適合させるための情報を提供する。

Solving time-series problems with features has been rising in popularity due to the availability of software for feature extraction. Feature-based time-series analysis can now be performed using many different feature sets, including hctsa (7730 features: Matlab), feasts (42 features: R), tsfeatures (63 features: R), Kats (40 features: Python), tsfresh (up to 1558 features: Python), TSFEL (390 features: Python), and the C-coded catch22 (22 features: Matlab, R, Python, and Julia). There is substantial overlap in the types of methods included in these sets (e.g., properties of the autocorrelation function and Fourier power spectrum), but they are yet to be systematically compared. Here we compare these seven sets on computational speed, assess the redundancy of features contained in each, and evaluate the overlap and redundancy between them. We take an empirical approach to feature similarity based on outputs across a diverse set of real-world and simulated time series. We find that feature sets vary across three orders of magnitude in their computation time per feature on a laptop for a 1000-sample series, from the fastest sets catch22 and TSFEL (~0.1ms per feature) to tsfeatures (~3s per feature). Using PCA to evaluate feature redundancy within each set, we find the highest within-set redundancy for TSFEL and tsfresh. For example, in TSFEL, 90% of the variance across 390 features can be captured with just four PCs. Finally, we introduce a metric for quantifying overlap between pairs of feature sets, which indicates substantial overlap. We found that the largest feature set, hctsa, is the most comprehensive, and that tsfresh is the most distinctive, due to its incorporation of many low-level Fourier coefficients. Our results provide empirical understanding of the differences between existing feature sets, information that can be used to better tailor feature sets to their applications.
翻訳日:2021-10-23 09:10:53 公開日:2021-10-21
# (参考訳) 生成逆ネットワークの理論的限界について [全文訳有]

On some theoretical limitations of Generative Adversarial Networks ( http://arxiv.org/abs/2110.10915v1 )

ライセンス: CC BY 4.0
Beno\^it Oriol and Alexandre Miot(参考訳) Generative Adversarial Networksは、データサンプルから未知の分布を生成する機械学習のコア技術となっている。 これらは、これらのモデルの理論的限界にあまり注意を払わずに、幅広い文脈で使用されてきた。 実際、ニューラルネットワークの普遍的な近似特性のため、GANが任意の確率分布を生成できるという一般的な仮定である。 最近、人々はこの仮定に疑問を呈し始めており、この記事はこの考えに沿っている。 GANが重み付き分布を生成できないことを示すExtreme Value Theoryに基づく新しい結果を提供する。 この結果の完全な証拠が与えられる。

Generative Adversarial Networks have become a core technique in Machine Learning to generate unknown distributions from data samples. They have been used in a wide range of context without paying much attention to the possible theoretical limitations of those models. Indeed, because of the universal approximation properties of Neural Networks, it is a general assumption that GANs can generate any probability distribution. Recently, people began to question this assumption and this article is in line with this thinking. We provide a new result based on Extreme Value Theory showing that GANs can't generate heavy tailed distributions. The full proof of this result is given.
翻訳日:2021-10-23 08:54:23 公開日:2021-10-21
# (参考訳) Gromov-Wassersteinとサブスペースデトゥール [全文訳有]

Subspace Detours Meet Gromov-Wasserstein ( http://arxiv.org/abs/2110.10932v1 )

ライセンス: CC BY 4.0
Cl\'ement Bonet, Nicolas Courty, Fran\c{c}ois Septier, Lucas Drumetz(参考訳) 最適輸送法の文脈において、部分空間のデターアプローチはmuzellec と cuturi (2019) によって最近提示された。 適切に選択された部分空間における最適な輸送計画から、測度空間におけるほぼ最適な輸送計画を構築することで構成され、元の測度が投影される。 本論文の貢献は, 比較分布の内的幾何を伴う移動距離の特定のタイプであるgromov-wasserstein問題に対して, この分類を拡張させることである。 関連する形式と性質を導出した後、Knothe-Rosenblatt再配置との関係を示すための特定のコストについても論じる。 最終的に形状整合問題に関する実験例を提示する。

In the context of optimal transport methods, the subspace detour approach was recently presented by Muzellec and Cuturi (2019). It consists in building a nearly optimal transport plan in the measures space from an optimal transport plan in a wisely chosen subspace, onto which the original measures are projected. The contribution of this paper is to extend this category of methods to the Gromov-Wasserstein problem, which is a particular type of transport distance involving the inner geometry of the compared distributions. After deriving the associated formalism and properties, we also discuss a specific cost for which we can show connections with the Knothe-Rosenblatt rearrangement. We finally give an experimental illustration on a shape matching problem.
翻訳日:2021-10-23 08:45:23 公開日:2021-10-21
# (参考訳) マルチアームバンティードはQラーニングで解けるか? [全文訳有]

Can Q-learning solve Multi Armed Bantids? ( http://arxiv.org/abs/2110.10934v1 )

ライセンス: CC BY 4.0
Refael Vivanti(参考訳) 強化学習(RL)法では,報酬のみを考慮し,任意の政策を決定する必要がある場合,マルチアーマッド・バンディット(MAB)問題を暗黙的に最適化する必要がある。 現在のRLアルゴリズムはMABの問題を解決することができるのか? 私たちは意外な答えはノーだと主張する。 私たちの実験では、いくつかの状況では基本的なmab問題の解決に失敗し、多くの一般的な状況では、トレーニング中の結果の回帰、初期化に対する感受性、高いサンプル複雑性に苦しむという困難さがあります。 第一の問題は、それぞれのポリシーが異なる暗黙的な調査を行う際の「ボーリングポリシートラップ」であり、その報酬のばらつきに依存し、退屈で、あるいは低いばらつきを残している。 第二の問題は「マニピュティブ・コンサルタント」問題であり、DQNやディープアクター・クリティカル法のような深部RLアルゴリズムで用いられる値推定関数は、平均報酬よりも推定精度を最大化し、低分散ポリシーの損失がより良くなり、ネットワークが最適化されたポリシーに収束する。 人間に対する認知実験では、ノイズのある報酬信号がパラドックス的に性能を向上することを示した。 上記の問題を用いてこれを説明し、人間とアルゴリズムの両方が意思決定において同様の課題を共有できると主張している。 この結果に触発されて,環境平均報酬行動に影響を与えずに2つの問題を回避し,異なるポリシーにまたがる報酬分散を均等化する適応型対称報酬ノージング(asrn)法を提案する。 我々は、ASRN方式が結果を大幅に改善できることを実証した。

When a reinforcement learning (RL) method has to decide between several optional policies by solely looking at the received reward, it has to implicitly optimize a Multi-Armed-Bandit (MAB) problem. This arises the question: are current RL algorithms capable of solving MAB problems? We claim that the surprising answer is no. In our experiments we show that in some situations they fail to solve a basic MAB problem, and in many common situations they have a hard time: They suffer from regression in results during training, sensitivity to initialization and high sample complexity. We claim that this stems from variance differences between policies, which causes two problems: The first problem is the "Boring Policy Trap" where each policy have a different implicit exploration depends on its rewards variance, and leaving a boring, or low variance, policy is less likely due to its low implicit exploration. The second problem is the "Manipulative Consultant" problem, where value-estimation functions used in deep RL algorithms such as DQN or deep Actor Critic methods, maximize estimation precision rather than mean rewards, and have a better loss in low-variance policies, which cause the network to converge to a sub-optimal policy. Cognitive experiments on humans showed that noised reward signals may paradoxically improve performance. We explain this using the aforementioned problems, claiming that both humans and algorithms may share similar challenges in decision making. Inspired by this result, we propose the Adaptive Symmetric Reward Noising (ASRN) method, by which we mean equalizing the rewards variance across different policies, thus avoiding the two problems without affecting the environment's mean rewards behavior. We demonstrate that the ASRN scheme can dramatically improve the results.
翻訳日:2021-10-23 07:58:47 公開日:2021-10-21
# (参考訳) 対数ロバスト性レンズによるニューラルコンビナート解法の一般化 [全文訳有]

Generalization of Neural Combinatorial Solvers Through the Lens of Adversarial Robustness ( http://arxiv.org/abs/2110.10942v1 )

ライセンス: CC BY 4.0
Simon Geisler, Johanna Sommer, Jan Schuchardt, Aleksandar Bojchevski, Stephan G\"unnemann(参考訳) エンドツーエンド(幾何学的)深層学習は、組合せ最適化問題の解の近似に初めて成功した。 しかし、NP-hard/completeタスクの領域でデータを生成することは、実用的で理論的な課題をもたらし、楽観的すぎる評価プロトコルをもたらす。 具体的には、ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。 これらの効果を,局所一般化特性である逆ロバスト性(adversarial robustness)を用いて検討し,ハードでモデル固有のインスタンスとスプリアスな特徴を明らかにする。 この目的のために,SAT と TSP の摂動モデルを導出する。 摂動モデルが主観的な知覚可能性の概念に基づいて設計されている他の応用とは異なり、摂動モデルは効率的で健全であり、解法を使わずに摂動サンプルの真のラベルを決定することができる。 驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。 このような頑健な解法は存在するが、評価されたニューラル解法が問題インスタンスの小さな摂動をうまく一般化しないことを経験的に示している。

End-to-end (geometric) deep learning has seen first successes in approximating the solution of combinatorial optimization problems. However, generating data in the realm of NP-hard/-complete tasks brings practical and theoretical challenges, resulting in evaluation protocols that are too optimistic. Specifically, most datasets only capture a simpler subproblem and likely suffer from spurious features. We investigate these effects by studying adversarial robustness - a local generalization property - to reveal hard, model-specific instances and spurious features. For this purpose, we derive perturbation models for SAT and TSP. Unlike in other applications, where perturbation models are designed around subjective notions of imperceptibility, our perturbation models are efficient and sound, allowing us to determine the true label of perturbed samples without a solver. Surprisingly, with such perturbations, a sufficiently expressive neural solver does not suffer from the limitations of the accuracy-robustness trade-off common in supervised learning. Although such robust solvers exist, we show empirically that the assessed neural solvers do not generalize well w.r.t. small perturbations of the problem instance.
翻訳日:2021-10-23 07:51:24 公開日:2021-10-21
# (参考訳) 最適輸送を用いたマルチモーダル学習によるサルカズムと覚醒検出

Multimodal Learning using Optimal Transport for Sarcasm and Humor Detection ( http://arxiv.org/abs/2110.10949v1 )

ライセンス: CC BY 4.0
Shraman Pramanick, Aniket Roy and Vishal M. Patel(参考訳) マルチモーダル学習は、新しいが挑戦的な研究分野である。 本稿では,会話ビデオと画像テキストのペアによるマルチモーダルサルカズムとユーモア検出について述べる。 モダリティにまたがって反映されるフリーティングアクションであるため、大きなデータセットが文献でこのタスクには利用できないため、サルカズム検出は困難である。 そこで,本研究では,トレーニングサンプル数に制限がある資源制約トレーニングに着目した。 そこで本研究では,モーダル内対応とモーダル間対応のための最適な移動を実現するために,自己注意を利用したマルチモーダル学習システム MuLOT (Multimodal Learning using Optimal Transport) を提案する。 最後に、モダリティをマルチモーダルアテンション融合と組み合わせて、モダリティ間の依存性を捉える。 MUStARD (ビデオ, 音声, テキスト), UR-FUNNY (ビデオ, 音声, テキスト), MST (画像, テキスト) の3つのベンチマークデータセットを用いて, マルチモーダルサルカズムとユーモア検出のアプローチを検証し, 現状よりも2.1%, 1.54%, 2.34%の精度向上を実現した。

Multimodal learning is an emerging yet challenging research area. In this paper, we deal with multimodal sarcasm and humor detection from conversational videos and image-text pairs. Being a fleeting action, which is reflected across the modalities, sarcasm detection is challenging since large datasets are not available for this task in the literature. Therefore, we primarily focus on resource-constrained training, where the number of training samples is limited. To this end, we propose a novel multimodal learning system, MuLOT (Multimodal Learning using Optimal Transport), which utilizes self-attention to exploit intra-modal correspondence and optimal transport for cross-modal correspondence. Finally, the modalities are combined with multimodal attention fusion to capture the inter-dependencies across modalities. We test our approach for multimodal sarcasm and humor detection on three benchmark datasets - MUStARD (video, audio, text), UR-FUNNY (video, audio, text), MST (image, text) and obtain 2.1%, 1.54%, and 2.34% accuracy improvements over state-of-the-art.
翻訳日:2021-10-23 07:25:28 公開日:2021-10-21
# (参考訳) データ分割は過度にパラメータ化された政権の統計性能を改善する

Data splitting improves statistical performance in overparametrized regimes ( http://arxiv.org/abs/2110.10956v1 )

ライセンス: CC BY 4.0
Nicole M\"ucke, Enrico Reiss, Jonas Rungenhagen, and Markus Klein(参考訳) 大きなトレーニングデータセットは一般的にモデルパフォーマンスの改善を提供するが、トレーニングプロセスは計算的に高価になり、時間がかかる。 分散学習は、複数のコンピューティングデバイスを活用することで、全体的なトレーニング時間を短縮する一般的な戦略である。 近年, ヒルベルト空間におけるリッジレス回帰の良性オーバーフィッティングには過パラメータ化が不可欠であることがわかった。 この状態において、データの分割は正規化効果を持ち、統計性能と計算複雑性を同時に改善することを示す。 さらに、有限次元と無限次元の両方を解析できる統一的なフレームワークを提供する。 異なるモデルパラメータの効果を数値的に示す。

While large training datasets generally offer improvement in model performance, the training process becomes computationally expensive and time consuming. Distributed learning is a common strategy to reduce the overall training time by exploiting multiple computing devices. Recently, it has been observed in the single machine setting that overparametrization is essential for benign overfitting in ridgeless regression in Hilbert spaces. We show that in this regime, data splitting has a regularizing effect, hence improving statistical performance and computational complexity at the same time. We further provide a unified framework that allows to analyze both the finite and infinite dimensional setting. We numerically demonstrate the effect of different model parameters.
翻訳日:2021-10-23 07:22:52 公開日:2021-10-21
# (参考訳) 広ベースラインマルチビュートラヒックカメラデータを用いた単眼3次元物体検出器の弱い教師付き訓練 [全文訳有]

Weakly Supervised Training of Monocular 3D Object Detectors Using Wide Baseline Multi-view Traffic Camera Data ( http://arxiv.org/abs/2110.10966v1 )

ライセンス: CC BY 4.0
Matthew Howe, Ian Reid, Jamie Mackenzie(参考訳) 交差点における車両の正確な7DoF予測は,道路利用者間の潜在的な衝突を評価する上で重要な課題である。 原則としてこれは、各車両の姿勢を検知できる単一のカメラシステムによって達成できるが、検出器を訓練するには、大きく正確にラベル付けされたデータセットが必要となる。 大型車両のポーズデータセットは存在するが、これらのデータセットのトレーニングは不十分である。 これらのデータセットは、地上からの画像を含むが、交差観測の理想的な視点は、道路表面よりも高い位置にある。 本研究では,交通観測用カメラの3次元物体検出器を微調整する弱教師法を用いて,既存の大規模自動運転車データセットを事前学習に活用できる方法を提案する。 モノクル3Dオブジェクト検出器を微調整するには,重なり合う広線ビューと,そのサブジャセントな幾何学的整合性を符号化した損失から,複数の2D検出を利用する。 提案手法は,自動運転車のデータセット上で最上位のモノクル3Dオブジェクト検出器と同等の精度で車両の7DoFが予測される。 我々は、トレーニング方法論、マルチビューのリプロジェクション損失、データセットを提案する。

Accurate 7DoF prediction of vehicles at an intersection is an important task for assessing potential conflicts between road users. In principle, this could be achieved by a single camera system that is capable of detecting the pose of each vehicle but this would require a large, accurately labelled dataset from which to train the detector. Although large vehicle pose datasets exist (ostensibly developed for autonomous vehicles), we find training on these datasets inadequate. These datasets contain images from a ground level viewpoint, whereas an ideal view for intersection observation would be elevated higher above the road surface. We develop an alternative approach using a weakly supervised method of fine tuning 3D object detectors for traffic observation cameras; showing in the process that large existing autonomous vehicle datasets can be leveraged for pre-training. To fine-tune the monocular 3D object detector, our method utilises multiple 2D detections from overlapping, wide-baseline views and a loss that encodes the subjacent geometric consistency. Our method achieves vehicle 7DoF pose prediction accuracy on our dataset comparable to the top performing monocular 3D object detectors on autonomous vehicle datasets. We present our training methodology, multi-view reprojection loss, and dataset.
翻訳日:2021-10-23 07:21:51 公開日:2021-10-21
# (参考訳) スライスド・ワッサースタイン勾配流 [全文訳有]

Sliced-Wasserstein Gradient Flows ( http://arxiv.org/abs/2110.10972v1 )

ライセンス: CC BY 4.0
Cl\'ement Bonet, Nicolas Courty, Fran\c{c}ois Septier, Lucas Drumetz(参考訳) 確率分布の空間における関数の最小化は、ワッサーシュタイン勾配流を用いて行うことができる。 これらを数値的に解くためには、ユークリッド空間の近位スキームに類似したjordan-kinderlehrer- otto(jko)スキームを用いる方法が考えられる。 しかし、この双レベル最適化問題は計算上の問題、特に高次元において知られている。 これを軽減するため、Brenierの定理を利用してJKOスキームを近似し、入力凸ニューラルネットワークの勾配を用いて密度をパラメータ化する手法(JKO-ICNN)を提案する。 しかし、この手法には高い計算コストと安定性の問題が伴う。 そこで本研究では,sliced-wasserstein (sw) 距離を持つ確率測度の空間における勾配流の利用を提案する。 我々は,この手法がJKO-ICNNよりも柔軟であると主張する。 したがって、各ステップの密度は、計算の負担を軽減し、高次元で扱いやすい任意の生成モデルによってパラメータ化することができる。 興味深いことに、これらの勾配流は通常のワッサーシュタイン勾配流と強く結びついており、効率的な機械学習関数の最小化に利用できることも実証的に示している。

Minimizing functionals in the space of probability distributions can be done with Wasserstein gradient flows. To solve them numerically, a possible approach is to rely on the Jordan-Kinderlehrer- Otto (JKO) scheme which is analogous to the proximal scheme in Euclidean spaces. However, this bilevel optimization problem is known for its computational challenges, especially in high dimension. To alleviate it, very recent works propose to approximate the JKO scheme leveraging Brenier's theorem, and using gradients of Input Convex Neural Networks to parameterize the density (JKO-ICNN). However, this method comes with a high computational cost and stability issues. Instead, this work proposes to use gradient flows in the space of probability measures endowed with the sliced-Wasserstein (SW) distance. We argue that this method is more flexible than JKO-ICNN, since SW enjoys a closed-form differentiable approximation. Thus, the density at each step can be parameterized by any generative model which alleviates the computational burden and makes it tractable in higher dimensions. Interestingly, we also show empirically that these gradient flows are strongly related to the usual Wasserstein gradient flows, and that they can be used to minimize efficiently diverse machine learning functionals.
翻訳日:2021-10-23 07:14:39 公開日:2021-10-21
# (参考訳) 深部話者照合のためのマルチテーパ特徴の最適化 [全文訳有]

Optimizing Multi-Taper Features for Deep Speaker Verification ( http://arxiv.org/abs/2110.10983v1 )

ライセンス: CC BY 4.0
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) マルチタスク推定器は、メル周波数ケプストラム係数(MFCC)などの音声特徴を抽出するために、ウィンドウ化された離散フーリエ変換(DFT)の代わりに使用できる低分散パワースペクトル推定を提供する。 過去の研究がガウス混合モデルに基づく分類器による有望な自動話者検証(ASV)結果を報告したとしても、深いASVシステムを備えたマルチテーパMFCCの性能は未解決のままである。 静的テーパ設計ではなく,asvタスク用にトレーニングされたディープニューラルネットワークと共同でマルチテーパ推定器を最適化することを提案する。 SITWコーパスの最大誤差率25.8%をスタティックタッパー上での等速誤差率で改善することにより,リークと分散のバランスを保ち,ロバスト性を高める。

Multi-taper estimators provide low-variance power spectrum estimates that can be used in place of the windowed discrete Fourier transform (DFT) to extract speech features such as mel-frequency cepstral coefficients (MFCCs). Even if past work has reported promising automatic speaker verification (ASV) results with Gaussian mixture model-based classifiers, the performance of multi-taper MFCCs with deep ASV systems remains an open question. Instead of a static-taper design, we propose to optimize the multi-taper estimator jointly with a deep neural network trained for ASV tasks. With a maximum improvement on the SITW corpus of 25.8% in terms of equal error rate over the static-taper, our method helps preserve a balanced level of leakage and variance, providing more robustness.
翻訳日:2021-10-23 06:44:04 公開日:2021-10-21
# (参考訳) 資源割当のための解釈可能な機械学習と人工呼吸器トリアージへの応用 [全文訳有]

Interpretable Machine Learning for Resource Allocation with Application to Ventilator Triage ( http://arxiv.org/abs/2110.10994v1 )

ライセンス: CC BY 4.0
Julien Grand-Cl\'ement, Carri Chan, Vineet Goyal, Elizabeth Chuang(参考訳) 医療資源の配給は、パンデミックや自然災害、あるいは大量死事故の間、政策立案者や提供者が強制的に行わなければならないという困難な決定である。 不足する救命資源をトリアージするための明確なガイドラインは、透明性、信頼、一貫性を促進するために設計されなければならない。 高ストレス時の購入と利用を容易にするためには、これらのガイドラインを解釈し、運用する必要がある。 本稿では,マルコフ決定プロセスのポリシーに基づいた解釈可能なトリアージガイドラインを,単純な決定木のシーケンスとして表現可能な新しいデータ駆動モデルを提案する。 特に、最適木ポリシーの特性を特徴付け、良い木ポリシーを計算するために動的計画帰納法に基づくアルゴリズムを提案する。 本手法を用いて,モンテフィオーレ病院の患者データをもとに,新型コロナウイルス患者に対する人工呼吸器配置のための簡便なトリアージガイドラインを得た。 また、私たちのガイドラインのパフォーマンスを、2015年に(新型コロナウイルスのパンデミックの直前に)開発されたニューヨーク州の公式ガイドラインと比較します。 人工呼吸器の不足に伴う過度の死亡件数は,我々の方針により著しく減少する可能性が示唆された。 私たちの研究は、新型コロナウイルス(covid-19)に特化する必要がある既存の公式トリアージガイドラインの制限を強調しています。

Rationing of healthcare resources is a challenging decision that policy makers and providers may be forced to make during a pandemic, natural disaster, or mass casualty event. Well-defined guidelines to triage scarce life-saving resources must be designed to promote transparency, trust, and consistency. To facilitate buy-in and use during high-stress situations, these guidelines need to be interpretable and operational. We propose a novel data-driven model to compute interpretable triage guidelines based on policies for Markov Decision Process that can be represented as simple sequences of decision trees ("tree policies"). In particular, we characterize the properties of optimal tree policies and present an algorithm based on dynamic programming recursions to compute good tree policies. We utilize this methodology to obtain simple, novel triage guidelines for ventilator allocations for COVID-19 patients, based on real patient data from Montefiore hospitals. We also compare the performance of our guidelines to the official New York State guidelines that were developed in 2015 (well before the COVID-19 pandemic). Our empirical study shows that the number of excess deaths associated with ventilator shortages could be reduced significantly using our policy. Our work highlights the limitations of the existing official triage guidelines, which need to be adapted specifically to COVID-19 before being successfully deployed.
翻訳日:2021-10-23 06:32:07 公開日:2021-10-21
# (参考訳) 適応型圧縮学習のための平均Nystr\"om Embeddings [全文訳有]

Mean Nystr\"om Embeddings for Adaptive Compressive Learning ( http://arxiv.org/abs/2110.10996v1 )

ライセンス: CC BY-SA 4.0
Antoine Chatalic, Luigi Carratino, Ernesto De Vito, Lorenzo Rosasco(参考訳) 圧縮学習は、データセット全体を単一の平均埋め込み(スケッチ)、すなわち一般化モーメントのベクトルにスケッチすることに基づく、効率的な大規模学習のためのアプローチである。 学習課題は、適応パラメトリックモデルを用いて逆問題として大まかに解決される。 この文脈での以前の作品は、ランダムな特徴を平均化することで得られたスケッチに焦点を当ててきたが、ユニバーサルは目の前の問題にうまく適応できない。 本稿では,データ依存型nystr\"om近似に基づいてスケッチを行うアイデアを提案し,検討する。 理論的観点から、スケッチから学習するパラメトリックモデルと、手前のタスクに関連する共分散演算子に関する幾何学的仮定の下で、余剰リスクを制御できることを証明した。 経験的に、k平均クラスタリングとガウスモデリングについて、固定されたスケッチサイズでは、Nystr\"om スケッチは、ランダムな特徴で構築されたスケッチよりも優れていることを示す。

Compressive learning is an approach to efficient large scale learning based on sketching an entire dataset to a single mean embedding (the sketch), i.e. a vector of generalized moments. The learning task is then approximately solved as an inverse problem using an adapted parametric model. Previous works in this context have focused on sketches obtained by averaging random features, that while universal can be poorly adapted to the problem at hand. In this paper, we propose and study the idea of performing sketching based on data-dependent Nystr\"om approximation. From a theoretical perspective we prove that the excess risk can be controlled under a geometric assumption relating the parametric model used to learn from the sketch and the covariance operator associated to the task at hand. Empirically, we show for k-means clustering and Gaussian modeling that for a fixed sketch size, Nystr\"om sketches indeed outperform those built with random features.
翻訳日:2021-10-23 05:54:28 公開日:2021-10-21
# (参考訳) Bristle: ビザンティンの非工業環境における分散フェデレーション学習 [全文訳有]

Bristle: Decentralized Federated Learning in Byzantine, Non-i.i.d. Environments ( http://arxiv.org/abs/2110.11006v1 )

ライセンス: CC BY 4.0
Joost Verbraeken, Martijn de Vos, Johan Pouwelse(参考訳) Federated Learning(FL)は、プライバシフレンドリーな機械学習の一種で、デバイスが自身のプライベートデータ上でモデルをローカルにトレーニングし、通常、モデル更新をサーバと通信する。 分散FL(DFL)では、ピアが互いにモデル更新を通信する。 しかし、(1)異なるピアが保持するトレーニングデータは、しばしば非i.d.(つまり、ピア間で異なる分散)であり、(2)悪意のある、またはByzantineは、攻撃者が他のピアと任意のモデル更新を共有してトレーニングプロセスを覆すことができるため、DFLは難しい。 我々はこの2つの課題に対処し,学習アプリケーションと分散ネットワーク層の間のミドルウェアであるbristleを提示する。 bristleはトランスファー・ラーニングを利用してニューラルネットワークの非出力層をあらかじめ凍結し、モデルのトレーニングを大幅にスピードアップし、通信コストを下げる。 出力層を他のピアからのモデル更新で確実に更新するために、高速距離優先器と新しいパフォーマンスベース積分器を設計する。 これらの組み合わせの効果により、ビザンツ人攻撃者に対する高い弾力性と、非i.d.クラスを扱う能力をもたらす。 実験の結果,ブリストルはビザンチン環境では95%の精度で収束し,評価基準を上回った。 非ビザンチン環境では、ブリストルは最先端の手法に比べて90%の精度を達成するために83%のイテレーションを必要とする。 トレーニングクラスが非i.i.d.の場合、bristleは最もビザンチン耐性のベースラインの精度を2.3倍に上回り、通信コストを90%削減した。

Federated learning (FL) is a privacy-friendly type of machine learning where devices locally train a model on their private data and typically communicate model updates with a server. In decentralized FL (DFL), peers communicate model updates with each other instead. However, DFL is challenging since (1) the training data possessed by different peers is often non-i.i.d. (i.e., distributed differently between the peers) and (2) malicious, or Byzantine, attackers can share arbitrary model updates with other peers to subvert the training process. We address these two challenges and present Bristle, middleware between the learning application and the decentralized network layer. Bristle leverages transfer learning to predetermine and freeze the non-output layers of a neural network, significantly speeding up model training and lowering communication costs. To securely update the output layer with model updates from other peers, we design a fast distance-based prioritizer and a novel performance-based integrator. Their combined effect results in high resilience to Byzantine attackers and the ability to handle non-i.i.d. classes. We empirically show that Bristle converges to a consistent 95% accuracy in Byzantine environments, outperforming all evaluated baselines. In non-Byzantine environments, Bristle requires 83% fewer iterations to achieve 90% accuracy compared to state-of-the-art methods. We show that when the training classes are non-i.i.d., Bristle significantly outperforms the accuracy of the most Byzantine-resilient baselines by 2.3x while reducing communication costs by 90%.
翻訳日:2021-10-23 04:56:09 公開日:2021-10-21
# (参考訳) オンラインデータから時間変化グラフを学習する [全文訳有]

Learning Time-Varying Graphs from Online Data ( http://arxiv.org/abs/2110.11017v1 )

ライセンス: CC BY 4.0
Alberto Natali, Elvin Isufi, Mario Coutino, Geert Leus(参考訳) 本研究では,オンラインデータから時間変化グラフを学習するアルゴリズムフレームワークを提案する。 フレームワークが提供する汎用性は、モデル非依存、すなわち、抽象的な定式化で理論的に分析され、様々なモデル依存のグラフ学習問題の下でインスタンス化される。 これは、異なる関数が異なるデシデラタ(例えば、データ忠実性、スパース性、滑らかさ)を制御する複合最適化問題としてのグラフ学習によって可能となる。 このデータに対するデータ駆動グラフ学習アルゴリズムの大多数(すべてではないとしても)の依存は、経験的共分散行列を通して実行され、推定問題に対する十分な統計量を示す。 ユーザ定義の再帰的アップデートにより、このフレームワークは非定常環境で動作し、新しい時間変化最適化ツール上に構築された反復アルゴリズムは、時間的ダイナミクスを明示的に考慮し、収束をスピードアップし、ソリューションの時間的規則化を暗黙的に含む。 我々は,このフレームワークを,低次元ベクトル空間での作業やストレージ要求の緩和に加えて,正確な勾配計算を行うのに不可欠である構造化行列(対称,中空など)に対するアドホックベクトル化スキーム(アドホックベクトル化スキーム)を導入し,ガウスグラフモデル(GGM)、構造方程式モデル(SEM)、スムーズネスベースモデル(SBM)の3つのよく知られたグラフ学習モデルに特化する。 提案するフレームワークの理論的保証について議論した後、合成および実データにおける広範な数値テストと相関する。

This work proposes an algorithmic framework to learn time-varying graphs from online data. The generality offered by the framework renders it model-independent, i.e., it can be theoretically analyzed in its abstract formulation and then instantiated under a variety of model-dependent graph learning problems. This is possible by phrasing (time-varying) graph learning as a composite optimization problem, where different functions regulate different desiderata, e.g., data fidelity, sparsity or smoothness. Instrumental for the findings is recognizing that the dependence of the majority (if not all) data-driven graph learning algorithms on the data is exerted through the empirical covariance matrix, representing a sufficient statistic for the estimation problem. Its user-defined recursive update enables the framework to work in non-stationary environments, while iterative algorithms building on novel time-varying optimization tools explicitly take into account the temporal dynamics, speeding up convergence and implicitly including a temporal-regularizat ion of the solution. We specialize the framework to three well-known graph learning models, namely, the Gaussian graphical model (GGM), the structural equation model (SEM), and the smoothness-based model (SBM), where we also introduce ad-hoc vectorization schemes for structured matrices (symmetric, hollows, etc.) which are crucial to perform correct gradient computations, other than enabling to work in low-dimensional vector spaces and hence easing storage requirements. After discussing the theoretical guarantees of the proposed framework, we corroborate it with extensive numerical tests in synthetic and real data.
翻訳日:2021-10-23 04:28:42 公開日:2021-10-21
# (参考訳) バックドア攻撃に基づく透かしグラフニューラルネットワーク [全文訳有]

Watermarking Graph Neural Networks based on Backdoor Attacks ( http://arxiv.org/abs/2110.11024v1 )

ライセンス: CC BY 4.0
Jing Xu, Stjepan Picek(参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで有望なパフォーマンスを実現している。 強力なGNNモデルの構築は、大量のトレーニングデータ、強力なコンピューティングリソース、モデルの微調整に関する人間の専門知識を必要とするため、簡単な作業ではない。 さらに、例えばモデル盗難攻撃のような敵攻撃の開発により、GNNは認証をモデル化する課題を提起する。 GNNの著作権侵害を避けるためには、GNNモデルの所有権を検証する必要がある。 本稿では,グラフとノードの分類タスクの両方に対して,gnn用の透かしフレームワークを提案する。 私たち 1) グラフ分類のための透かしデータとノード分類タスクのための2つの戦略を設計する。 2)watermarked gnnモデルを得るためのトレーニングを通じて、watermarkをホストモデルに組み込む。 3)ブラックボックス設定で不審なモデルのオーナシップを検証する。 実験の結果,両タスクにおいて非常に高い確率(約$100\%$)でgnnモデルの所有権を検証できることがわかった。 さらに, 所有者と異なるアーキテクチャから得られた疑わしいモデルを考える場合においても, 透かし手法が有効であることを示す。

Graph Neural Networks (GNNs) have achieved promising performance in various real-world applications. Building a powerful GNN model is not a trivial task, as it requires a large amount of training data, powerful computing resources, and human expertise on fine-tuning the model. What is more, with the development of adversarial attacks, e.g., model stealing attacks, GNNs raise challenges to model authentication. To avoid copyright infringement on GNNs, it is necessary to verify the ownership of the GNN models. In this paper, we present a watermarking framework for GNNs for both graph and node classification tasks. We 1) design two strategies to generate watermarked data for the graph classification and one for the node classification task, 2) embed the watermark into the host model through training to obtain the watermarked GNN model, and 3) verify the ownership of the suspicious model in a black-box setting. The experiments show that our framework can verify the ownership of GNN models with a very high probability (around $100\%$) for both tasks. In addition, we experimentally show that our watermarking approach is still effective even when considering suspicious models obtained from different architectures than the owner's.
翻訳日:2021-10-23 03:50:21 公開日:2021-10-21
# (参考訳) 変分ガウス過程によるベイズメタラーニング [全文訳有]

Bayesian Meta-Learning Through Variational Gaussian Processes ( http://arxiv.org/abs/2110.11044v1 )

ライセンス: CC BY 4.0
Vivek Myers, Nikhil Sardana(参考訳) メタラーニングの分野での最近の進歩は、多数の小さな(ファウショット)教師付き学習タスクからなる領域に取り組みつつある。 メタラーニングアルゴリズムは、タスク内の小さなサポートセットに適合し、タスクのクエリセットのラベルを予測するために使用する、個々の少数タスクに迅速に適応できなければなりません。 この問題設定はベイズ文脈にまで拡張することができ、クエリデータポイントごとに単一のラベルを予測するのではなく、モデルがその不確実性を捉えたラベルの分布を予測する。 この領域で成功した方法は、MAMLベースのモデルのベイズアンサンブル、ベイズニューラルネットワーク、学習された深層カーネルと平均関数を持つガウス過程である。 ガウス過程はメタラーニングの文脈ではベイズ的解釈が強いが、不確実性を表現するために非ガウス的予測後部を自然にモデル化するわけではない。 本稿では,gaussian-process-ba sed meta-learningを拡張し,高品質で任意の非ガウス的不確実性予測を可能にする理論的な手法であるvmgpを設計した。 複雑な非滑らかな構造や不連続な構造を持つベンチマーク環境では,我々のVMGP法は既存のベイズ的メタラーニングベースラインよりも優れた性能を示した。

Recent advances in the field of meta-learning have tackled domains consisting of large numbers of small ("few-shot") supervised learning tasks. Meta-learning algorithms must be able to rapidly adapt to any individual few-shot task, fitting to a small support set within a task and using it to predict the labels of the task's query set. This problem setting can be extended to the Bayesian context, wherein rather than predicting a single label for each query data point, a model predicts a distribution of labels capturing its uncertainty. Successful methods in this domain include Bayesian ensembling of MAML-based models, Bayesian neural networks, and Gaussian processes with learned deep kernel and mean functions. While Gaussian processes have a robust Bayesian interpretation in the meta-learning context, they do not naturally model non-Gaussian predictive posteriors for expressing uncertainty. In this paper, we design a theoretically principled method, VMGP, extending Gaussian-process-bas ed meta-learning to allow for high-quality, arbitrary non-Gaussian uncertainty predictions. On benchmark environments with complex non-smooth or discontinuous structure, we find our VMGP method performs significantly better than existing Bayesian meta-learning baselines.
翻訳日:2021-10-23 03:28:46 公開日:2021-10-21
# (参考訳) 3D-ANAS v2:ハイパースペクトル画像分類のための自動設計ConvNet上のグラフト変換モジュール [全文訳有]

3D-ANAS v2: Grafting Transformer Module on Automatically Designed ConvNet for Hyperspectral Image Classification ( http://arxiv.org/abs/2110.11084v1 )

ライセンス: CC BY 4.0
Xizhe Xue, Haokui Zhang, Zongwen Bai, Ying Li(参考訳) ハイパースペクトラル画像(hsi)の分類は、ハイパースペクトラル画像は空間的およびスペクトル的情報が多く、異なる土地被覆物体を識別するための強い基礎を提供するため、決定のホットな話題となっている。 ディープラーニング技術の発展により、ディープラーニングに基づくHSI分類手法は有望な性能を達成した。 近年,hsi分類のためのニューラルネットワーク探索(nas)アルゴリズムが提案されており,hsi分類の精度がさらに向上している。 本稿では,従来のhsi分類法で設計された探索空間を再検討し,3次元畳み込み,2次元空間畳み込み,2次元スペクトル畳み込みを用いた新しいハイブリッド探索空間を提案する。 先行研究で提案された探索空間と比較して,本論文で提案するセラッハ空間はhsiデータの特徴と一致しており,hsisは空間分解能が比較的低く,スペクトル分解能が極めて高い。 さらに,さらに分類精度を向上させるため,新たに開発されたトランスフォーマーモジュールを自動設計したconvnetに移植し,convnetが学習した局所的特徴にグローバル情報を付加する。 提案手法を評価するために,スペクトル特性が異なる3つのhsiデータセットの比較実験を行った。 実験の結果,提案手法は比較手法よりもはるかに優れた性能を示し,ハイブリッド検索空間とグラフト変換モジュールを併用することにより,分類精度が向上した。 特に最近撮影されたヒューストン大学のデータセットでは、全体の精度が最大6%向上している。 コードは、https://github.com/x mm/3D-ANAS-V2.comから入手できる。

Hyperspectral image (HSI) classification has been a hot topic for decides, as Hyperspectral image has rich spatial and spectral information, providing strong basis for distinguishing different land-cover objects. Benefiting from the development of deep learning technologies, deep learning based HSI classification methods have achieved promising performance. Recently, several neural architecture search (NAS) algorithms are proposed for HSI classification, which further improve the accuracy of HSI classification to a new level. In this paper, we revisit the search space designed in previous HSI classification NAS methods and propose a novel hybrid search space, where 3D convolution, 2D spatial convolution and 2D spectral convolution are employed. Compared search space proposed in previous works, the serach space proposed in this paper is more aligned with characteristic of HSI data that is HSIs have a relatively low spatial resolution and an extremely high spectral resolution. In addition, to further improve the classification accuracy, we attempt to graft the emerging transformer module on the automatically designed ConvNet to adding global information to local region focused features learned by ConvNet. We carry out comparison experiments on three public HSI datasets which have different spectral characteristics to evaluate the proposed method. Experimental results show that the proposed method achieves much better performance than comparison approaches, and both adopting the proposed hybrid search space and grafting transformer module improves classification accuracy. Especially on the most recently captured dataset Houston University, overall accuracy is improved by up to nearly 6 percentage points. Code will be available at: https://github.com/x mm/3D-ANAS-V2.
翻訳日:2021-10-23 03:10:34 公開日:2021-10-21
# (参考訳) 強化学習に基づく屋内シーンの深度観察のための最適カメラ配置 [全文訳有]

Reinforcement Learning Based Optimal Camera Placement for Depth Observation of Indoor Scenes ( http://arxiv.org/abs/2110.11106v1 )

ライセンス: CC BY 4.0
Yichuan Chen and Manabu Tsukada and Hiroshi Esaki(参考訳) 複数のカメラを使用するタスクにおいて、最もタスクに優しいカメラ設定 -- 最適なカメラ配置(OCP)問題 -- を探索することが非常に重要である。 しかし、屋内シーンの深度観察を専門とする既存のOCPソリューションはほとんどなく、ほとんどの汎用ソリューションはオフラインで動作する。 そこで本論文では,強化学習に基づく屋内シーンの深度観察のためのOCPオンラインソリューションを提案する。 提案手法は、シャドーマップを用いたシーン観察と報酬推定を実現するシミュレーション環境と、ソフトアクター・クリティック(SAC)ベースの強化学習バックボーンを含むエージェントネットワークと、観測点雲層から特徴を引き出す特徴抽出器とを備える。 2つの最先端最適化に基づくオフライン手法の比較実験を行った。 実験結果から,提案システムでは,10シーン中7シーンにおいて,より低い深度観察誤差が得られることがわかった。 全てのテストシーンの合計エラーは、ベースラインのエラーの90%未満である。 そこで,本システムは,シーンの事前知識がないシナリオや,低深度観測誤差が主目的であるシナリオにおいて,深度カメラの配置に適している。

Exploring the most task-friendly camera setting -- optimal camera placement (OCP) problem -- in tasks that use multiple cameras is of great importance. However, few existing OCP solutions specialize in depth observation of indoor scenes, and most versatile solutions work offline. To this problem, an OCP online solution to depth observation of indoor scenes based on reinforcement learning is proposed in this paper. The proposed solution comprises a simulation environment that implements scene observation and reward estimation using shadow maps and an agent network containing a soft actor-critic (SAC)-based reinforcement learning backbone and a feature extractor to extract features from the observed point cloud layer-by-layer. Comparative experiments with two state-of-the-art optimization-based offline methods are conducted. The experimental results indicate that the proposed system outperforms seven out of ten test scenes in obtaining lower depth observation error. The total error in all test scenes is also less than 90% of the baseline ones. Therefore, the proposed system is more competent for depth camera placement in scenarios where there is no prior knowledge of the scenes or where a lower depth observation error is the main objective.
翻訳日:2021-10-23 02:48:21 公開日:2021-10-21
# (参考訳) 非ゼロバイアスの抽選券の強力な刈り取りに向けて [全文訳有]

Towards strong pruning for lottery tickets with non-zero biases ( http://arxiv.org/abs/2110.11150v1 )

ライセンス: CC BY 4.0
Jonas Fischer, Rebekka Burkholz(参考訳) 強力な抽選切符仮説は、ランダムに初期化されたディープニューラルネットワークを刈り取ることで、確率的勾配降下を伴うディープラーニングの計算効率の高い代替手段を提供できることを約束している。 しかし、共通パラメータ初期化スキームと存在証明はバイアスゼロのネットワークに焦点を当てており、プルーニングの潜在的な普遍的近似性の前兆となる。 このギャップを埋めるために、複数の初期化スキームと存在証明を非ゼロバイアスに拡張し、reluアクティベーション関数に対する明示的な「ルックス線形」アプローチを含む。 これらは真の直交パラメータ初期化を可能にするだけでなく、潜在的なプルーニングエラーを低減する。 標準ベンチマークデータセットを用いた実験では,非ゼロバイアス初期化スキームの実用的メリットをさらに強調するとともに,最先端の宝くじプルーニングのための理論的にインスパイアされた拡張を提案する。

The strong lottery ticket hypothesis holds the promise that pruning randomly initialized deep neural networks could offer a computationally efficient alternative to deep learning with stochastic gradient descent. Common parameter initialization schemes and existence proofs, however, are focused on networks with zero biases, thus foregoing the potential universal approximation property of pruning. To fill this gap, we extend multiple initialization schemes and existence proofs to non-zero biases, including explicit 'looks-linear' approaches for ReLU activation functions. These do not only enable truly orthogonal parameter initialization but also reduce potential pruning errors. In experiments on standard benchmark data sets, we further highlight the practical benefits of non-zero bias initialization schemes, and present theoretically inspired extensions for state-of-the-art strong lottery ticket pruning.
翻訳日:2021-10-23 02:37:59 公開日:2021-10-21
# (参考訳) 時系列に基づく適応学習の手法とファイナンシャル・アプリケーション [全文訳有]

Adaptive Learning on Time Series: Method and Financial Applications ( http://arxiv.org/abs/2110.11156v1 )

ライセンス: CC BY 4.0
Parley Ruogu Yang, Ryan Lucas, Camilla Schelpe(参考訳) 本稿では,モデル選択,サンプル外予測,解釈をノイズの多い環境で処理できる適応学習という時系列統計学習手法を正式に導入する。 シミュレーション研究を通じて,AICやBICといった従来のモデル選択手法を,レジームスイッチングの有無で上回り,データ生成プロセスが時間変化した場合のウィンドウサイズ決定を容易にすることを実証した。 実験では,vix曲線と降伏曲線の情報を用いて,複数の予測地平線をまたいでs&p 500のリターン予測を行う。 我々は,適応学習モデルが一般的に,mseの観点で評価される最善のパラメトリックモデルと同等であると同時に,クロス検証下でも優れていることを見出した。 本稿では,2020年の市場崩壊における学習成果の財務的応用と学習体制の解釈について述べる。 これらの研究は、統計的方向と金融的用途の両方で拡張することができる。

We formally introduce a time series statistical learning method, called Adaptive Learning, capable of handling model selection, out-of-sample forecasting and interpretation in a noisy environment. Through simulation studies we demonstrate that the method can outperform traditional model selection techniques such as AIC and BIC in the presence of regime-switching, as well as facilitating window size determination when the Data Generating Process is time-varying. Empirically, we use the method to forecast S&P 500 returns across multiple forecast horizons, employing information from the VIX Curve and the Yield Curve. We find that Adaptive Learning models are generally on par with, if not better than, the best of the parametric models a posteriori, evaluated in terms of MSE, while also outperforming under cross validation. We present a financial application of the learning results and an interpretation of the learning regime during the 2020 market crash. These studies can be extended in both a statistical direction and in terms of financial applications.
翻訳日:2021-10-23 01:40:47 公開日:2021-10-21
# (参考訳) それぞれの属性: 文ベースの画像編集における対照的な注意 [全文訳有]

Each Attribute Matters: Contrastive Attention for Sentence-based Image Editing ( http://arxiv.org/abs/2110.11159v1 )

ライセンス: CC BY 4.0
Liuqing Zhao, Fan Lyu, Fuyuan Hu, Kaizhu Huang, Fenglei Xu, Linyan Li(参考訳) 文ベースの画像編集(SIE)は、画像の編集に自然言語をデプロイすることを目的としている。 高価な手作業による編集を減らす可能性を提供するSIEは最近、多くの関心を集めている。 しかし、既存の方法では正確な編集ができないため、クエリ文が複数の編集可能な属性を持つ場合、属性編集が失敗することさえある。 この問題に対処するため,属性間の差異の増大に着目し,コントラスト学習から着想を得たContrastive Attention Generative Adversarial Network (CA-GAN) と呼ばれる新しいモデルを提案する。 具体的には,訓練中に生成する属性のランダム組み合わせ間の編集差を増大させるために,新しいコントラストアテンションモジュールをまず設計する。 次に属性識別器を構築し,各属性の効率的な編集を保証する。 CUBおよびCOCOデータセット上の複数の属性を用いた文ベースの画像編集において,本手法が極めて有望な結果が得られることを示す。 私たちのコードはhttps://github.com/Z lq2021/CA-GANで利用可能です。

Sentence-based Image Editing (SIE) aims to deploy natural language to edit an image. Offering potentials to reduce expensive manual editing, SIE has attracted much interest recently. However, existing methods can hardly produce accurate editing and even lead to failures in attribute editing when the query sentence is with multiple editable attributes. To cope with this problem, by focusing on enhancing the difference between attributes, this paper proposes a novel model called Contrastive Attention Generative Adversarial Network (CA-GAN), which is inspired from contrastive training. Specifically, we first design a novel contrastive attention module to enlarge the editing difference between random combinations of attributes which are formed during training. We then construct an attribute discriminator to ensure effective editing on each attribute. A series of experiments show that our method can generate very encouraging results in sentence-based image editing with multiple attributes on CUB and COCO dataset. Our code is available at https://github.com/Z lq2021/CA-GAN
翻訳日:2021-10-23 01:16:13 公開日:2021-10-21
# (参考訳) 軽量アーキテクチャを用いた自己監督型視覚表現学習 [全文訳有]

Self-Supervised Visual Representation Learning Using Lightweight Architectures ( http://arxiv.org/abs/2110.11160v1 )

ライセンス: CC BY 4.0
Prathamesh Sonawane, Sparsh Drolia, Saqib Shamsi, Bhargav Jain(参考訳) 自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。 目的は、トレーニングされたウェイトを転送して、ターゲットドメインで下流タスクを実行することである。 画像データから特徴を抽出するための最も注目すべきプリテキストタスクを批判的に検討し、さらにリソース制約付きネットワークの実験を行い、より高速な実験とデプロイを支援する。 我々は,他のパラメータを均一に保持する様々な自己教師あり手法の性能について検討する。 我々は,モデルの種類やサイズ,事前トレーニングの量などによって生じるパターンを調査し,今後の研究と比較するための標準を確立する。 異なるアーキテクチャで学んだ表現の質を理解するために、包括的な研究も行います。

In self-supervised learning, a model is trained to solve a pretext task, using a data set whose annotations are created by a machine. The objective is to transfer the trained weights to perform a downstream task in the target domain. We critically examine the most notable pretext tasks to extract features from image data and further go on to conduct experiments on resource constrained networks, which aid faster experimentation and deployment. We study the performance of various self-supervised techniques keeping all other parameters uniform. We study the patterns that emerge by varying model type, size and amount of pre-training done for the backbone as well as establish a standard to compare against for future research. We also conduct comprehensive studies to understand the quality of representations learned by different architectures.
翻訳日:2021-10-23 00:56:26 公開日:2021-10-21
# (参考訳) PARADISEを用いたオープンドメイン対話のモデル化 [全文訳有]

Modeling Performance in Open-Domain Dialogue with PARADISE ( http://arxiv.org/abs/2110.11164v1 )

ライセンス: CC BY 4.0
Marilyn Walker, Colin Harmon, James Graupera, Davan Harrison and Steve Whittaker(参考訳) 最近、音声対話システムの研究が急増し、映画、本、音楽などの人気トピックでカジュアルな会話を行うオープンドメインシステムへの関心が高まっている。 これらのシステムは、ユーザーと社会的に関わり、楽しませ、さらには共感することを目的としている。 このような社会的目標の達成は測定が難しいため、近年では対話長や人間格付けを評価指標として用い、コヒーレンス、一貫性、妥当性、エンゲージメントなどの新しい指標を自動的に計算する方法が開発されている。 本稿では,alexa prizeのファイナリストとして競いながら,実際のユーザとの何千もの会話に参加した対話システムであるathenaの性能を予測する楽園モデルを開発した。 ユーザ評価と対話長の両方を対話品質の指標として使用し,システム依存と独立性の両方を備えた自動機能を用いて,これらの指標を予測する実験を行った。 我々の目標は、Alexa Prizeシステムの対話選択をリアルタイムで最適化し、その性能を評価するために使用できる汎用関数を学習することである。 ユーザの評価を予測する最良のモデルは、ditilbertモデルで.136のr$^2$、システムに依存しない機能で長さを予測する最良のモデルは.865のr$^2$であり、対話システムの自動トレーニングにおいてより信頼性の高い尺度であることを示唆している。

There has recently been an explosion of work on spoken dialogue systems, along with an increased interest in open-domain systems that engage in casual conversations on popular topics such as movies, books and music. These systems aim to socially engage, entertain, and even empathize with their users. Since the achievement of such social goals is hard to measure, recent research has used dialogue length or human ratings as evaluation metrics, and developed methods for automatically calculating novel metrics, such as coherence, consistency, relevance and engagement. Here we develop a PARADISE model for predicting the performance of Athena, a dialogue system that has participated in thousands of conversations with real users, while competing as a finalist in the Alexa Prize. We use both user ratings and dialogue length as metrics for dialogue quality, and experiment with predicting these metrics using automatic features that are both system dependent and independent. Our goal is to learn a general objective function that can be used to optimize the dialogue choices of any Alexa Prize system in real time and evaluate its performance. Our best model for predicting user ratings gets an R$^2$ of .136 with a DistilBert model, and the best model for predicting length with system independent features gets an R$^2$ of .865, suggesting that conversation length may be a more reliable measure for automatic training of dialogue systems.
翻訳日:2021-10-23 00:44:34 公開日:2021-10-21
# (参考訳) SLURP: 回帰問題に対するサイドラーニングの不確実性 [全文訳有]

SLURP: Side Learning Uncertainty for Regression Problems ( http://arxiv.org/abs/2110.11182v1 )

ライセンス: CC BY 4.0
Xuanlong Yu, Gianni Franchi, Emanuel Aldea(参考訳) 深層学習アルゴリズムは、信頼性の制約を満たすために出力の不確実性を定量化し、正確な結果を提供する。 回帰に対する不確実性の推定は、後者のタスクの標準化されたアウトプットと高い重要性のため、分類よりも注意が払われていない。 しかし、回帰問題はコンピュータビジョンの幅広い応用において発生する。 本稿では,主タスクモデルから生成した出力と中間表現を利用する側学習者による回帰不確かさ推定の汎用的手法であるSLURPを提案する。 コンピュータビジョンにおける2つの重要な回帰タスク、すなわち単眼深度と光フロー推定でSLURPをテストする。 さらに、異なるデータセットへの転送とアレタリックノイズの追加を含む徹底的なベンチマークを行う。 その結果,提案手法は様々な回帰問題に適用可能であり,既存の解に対して計算コストが低いことを示す。

It has become critical for deep learning algorithms to quantify their output uncertainties to satisfy reliability constraints and provide accurate results. Uncertainty estimation for regression has received less attention than classification due to the more straightforward standardized output of the latter class of tasks and their high importance. However, regression problems are encountered in a wide range of applications in computer vision. We propose SLURP, a generic approach for regression uncertainty estimation via a side learner that exploits the output and the intermediate representations generated by the main task model. We test SLURP on two critical regression tasks in computer vision: monocular depth and optical flow estimation. In addition, we conduct exhaustive benchmarks comprising transfer to different datasets and the addition of aleatoric noise. The results show that our proposal is generic and readily applicable to various regression problems and has a low computational cost with respect to existing solutions.
翻訳日:2021-10-23 00:25:35 公開日:2021-10-21
# (参考訳) メタラーニングのハードエピソードについて [全文訳有]

On Hard Episodes in Meta-Learning ( http://arxiv.org/abs/2110.11190v1 )

ライセンス: CC BY 4.0
Samyadeep Basu, Amr Sharaf, Nicolo Fusi, Soheil Feizi(参考訳) 既存のメタラーナーは、主に複数のエピソードの平均タスク精度の改善に焦点を当てている。 しかし、異なるエピソードは、難易度と品質が異なるため、メタ・ラーナーのパフォーマンスはエピソードによって大きく差している。 この問題を理解することは、通常エンドユーザーがアップロードするテストエピソードのコントロールが限られている、産業的な少数ショット設定において特に重要である。 本稿では,CIFAR-FS, mini-ImageNet, tiered-ImageNetの3つの標準ベンチマークデータセットを用いて,メタラーナーの動作を実験的に分析する。 驚くべきことに、私たちはすべての標準ベンチマークとメタラーナーで最も難しいエピソードと最も簡単なエピソードの間に、50%程度の精度の広いギャップを観察します。 さらに, ハードエピソードの諸特性について検討し, メタトレーニング中の破滅的忘れ込みとの関連を強調した。 ハードエピソードにおけるサブパーパフォーマンスの問題に対処するため、逆行訓練とカリキュラム学習に基づく異なるメタトレーニング戦略を検証・ベンチマークする。 ハードエピソードの予測性能向上には, 学習能力よりも, 敵対的学習戦略が優れていることが判明した。

Existing meta-learners primarily focus on improving the average task accuracy across multiple episodes. Different episodes, however, may vary in hardness and quality leading to a wide gap in the meta-learner's performance across episodes. Understanding this issue is particularly critical in industrial few-shot settings, where there is limited control over test episodes as they are typically uploaded by end-users. In this paper, we empirically analyse the behaviour of meta-learners on episodes of varying hardness across three standard benchmark datasets: CIFAR-FS, mini-ImageNet, and tiered-ImageNet. Surprisingly, we observe a wide gap in accuracy of around 50% between the hardest and easiest episodes across all the standard benchmarks and meta-learners. We additionally investigate various properties of hard episodes and highlight their connection to catastrophic forgetting during meta-training. To address the issue of sub-par performance on hard episodes, we investigate and benchmark different meta-training strategies based on adversarial training and curriculum learning. We find that adversarial training strategies are much more powerful than curriculum learning in improving the prediction performance on hard episodes.
翻訳日:2021-10-23 00:04:25 公開日:2021-10-21
# (参考訳) ヒト行動合成のための生成逆グラフ畳み込みネットワーク [全文訳有]

Generative Adversarial Graph Convolutional Networks for Human Action Synthesis ( http://arxiv.org/abs/2110.11191v1 )

ライセンス: CC BY-SA 4.0
Bruno Degardin, Jo\~ao Neves, Vasco Lopes, Jo\~ao Brito, Ehsan Yaghoubi and Hugo Proen\c{c}a(参考訳) 人体骨格の空間的および時間的ダイナミクスの合成は、生成した形状の品質だけでなく、その多様性、特に特定の作用の現実的な身体運動(アクションコンディショニング)を合成する上でも、依然として困難な課題である。 本稿では,人体の運動を合成するために,生成的敵対ネットワークとグラフ畳み込みネットワークの利点を利用する新しいアーキテクチャであるKineetic-GANを提案する。 提案する敵対的アーキテクチャは, 潜在空間のばらつきや確率的変動によるサンプル品質と多様性を改善しつつ, 局所的およびグローバルな身体運動に対して最大120の異なるアクションを条件付けることができる。 実験は,3つのよく知られたデータセットで実施され,キネティック-ganは分散品質指標において最先端の手法を特に上回り,異なるアクションの数について1桁以上の大きさの合成が可能であった。 私たちのコードとモデルはhttps://github.com/D egardinBruno/Kinetic -GAN.comで公開されています。

Synthesising the spatial and temporal dynamics of the human body skeleton remains a challenging task, not only in terms of the quality of the generated shapes, but also of their diversity, particularly to synthesise realistic body movements of a specific action (action conditioning). In this paper, we propose Kinetic-GAN, a novel architecture that leverages the benefits of Generative Adversarial Networks and Graph Convolutional Networks to synthesise the kinetics of the human body. The proposed adversarial architecture can condition up to 120 different actions over local and global body movements while improving sample quality and diversity through latent space disentanglement and stochastic variations. Our experiments were carried out in three well-known datasets, where Kinetic-GAN notably surpasses the state-of-the-art methods in terms of distribution quality metrics while having the ability to synthesise more than one order of magnitude regarding the number of different actions. Our code and models are publicly available at https://github.com/D egardinBruno/Kinetic -GAN.
翻訳日:2021-10-22 23:47:59 公開日:2021-10-21
# (参考訳) dair: データ拡張不変正規化 [全文訳有]

DAIR: Data Augmented Invariant Regularization ( http://arxiv.org/abs/2110.11205v1 )

ライセンス: CC BY 4.0
Tianjian Huang and Shaunak Halbe and Chinnadhurai Sankar and Pooyan Amini and Satwik Kottur and Alborz Geramifard and Meisam Razaviyayn and Ahmad Beirami(参考訳) 経験的リスク最小化(ERM)による深層学習は、様々な複雑なタスクにおいて人間レベルのパフォーマンスを達成することに成功したが、ERMは分散シフトに乏しい。 これは、画像の背景や自然言語の名前付きエンティティなど、スプリアスな特徴にオーバーフィットすることで部分的に説明されている。 合成データ拡張と経験的リスク最小化(DA-ERM)は、この問題を改善するための単純だが強力なソリューションである。 本稿では,データ拡張不変正規化(DAIR)を提案する。 DAIRの考え方は、モデルパフォーマンス(ロス)が、強化されたサンプルと元のサンプルに一貫性を持たせることが望ましいという観察に基づいている。 DAIRはDA-ERMに正規化器を導入し、そのような損失の矛盾を罰する。 理論的および経験的実験により, DAIR正則化器の特定の形態が, 様々な設定で常に良好に動作することを示す。 ドメインシフト、すなわち、堅牢な回帰、視覚的質問応答、堅牢なディープニューラルネットワークトレーニング、タスク指向ダイアログモデリングを含む複数の実世界の学習問題に適用する。 我々の実験によると、DAIRはEMMとDA-ERMを限界コストで一貫して上回り、いくつかのベンチマークで新しい最先端結果を設定している。

While deep learning through empirical risk minimization (ERM) has succeeded at achieving human-level performance at a variety of complex tasks, ERM generalizes poorly to distribution shift. This is partly explained by overfitting to spurious features such as background in images or named entities in natural language. Synthetic data augmentation followed by empirical risk minimization (DA-ERM) is a simple yet powerful solution to remedy this problem. In this paper, we propose data augmented invariant regularization (DAIR). The idea of DAIR is based on the observation that the model performance (loss) is desired to be consistent on the augmented sample and the original one. DAIR introduces a regularizer on DA-ERM to penalize such loss inconsistency. Both theoretically and through empirical experiments, we show that a particular form of the DAIR regularizer consistently performs well in a variety of settings. We apply it to multiple real-world learning problems involving domain shift, namely robust regression, visual question answering, robust deep neural network training, and task-oriented dialog modeling. Our experiments show that DAIR consistently outperforms ERM and DA-ERM with little marginal cost and setting new state-of-the-art results in several benchmarks.
翻訳日:2021-10-22 23:11:28 公開日:2021-10-21
# (参考訳) トピックガイド付き抽象的多文書要約 [全文訳有]

Topic-Guided Abstractive Multi-Document Summarization ( http://arxiv.org/abs/2110.11207v1 )

ライセンス: CC BY 4.0
Peng Cui, Le Hu(参考訳) 多文書要約(MDS)の重要なポイントは、様々な文書間の関係を学習することである。 本稿では,複数の文書を異種グラフとして表現し,異なる粒度のセマンティックノードを考慮に入れ,要約を生成するためのグラフ・ツー・シーケンス・フレームワークを適用する,新しい抽象MDSモデルを提案する。 さらに,異なる文書をブリッジするクロスドキュメントセマンティックユニットとして機能し,要約生成を導くグローバル情報を提供する潜在トピックを協調的に発見するために,ニューラルトピックモデルを用いる。 トピック抽出は、テキストをより抽象的な形式、すなわちトピック分布に"要約"する特別な要約のタイプとみなすことができるため、トピックと要約モジュールを共同でトレーニングするためにマルチタスク学習戦略を採用し、相互の促進を可能にしている。 また,Multi-Newsデータセットを用いた実験結果から,我々のモデルは,Ruegeメトリクスと人的評価の両方において,従来の最先端MDSモデルよりも優れており,高品質なトピックが学習されていることが示された。

A critical point of multi-document summarization (MDS) is to learn the relations among various documents. In this paper, we propose a novel abstractive MDS model, in which we represent multiple documents as a heterogeneous graph, taking semantic nodes of different granularities into account, and then apply a graph-to-sequence framework to generate summaries. Moreover, we employ a neural topic model to jointly discover latent topics that can act as cross-document semantic units to bridge different documents and provide global information to guide the summary generation. Since topic extraction can be viewed as a special type of summarization that "summarizes" texts into a more abstract format, i.e., a topic distribution, we adopt a multi-task learning strategy to jointly train the topic and summarization module, allowing the promotion of each other. Experimental results on the Multi-News dataset demonstrate that our model outperforms previous state-of-the-art MDS models on both Rouge metrics and human evaluation, meanwhile learns high-quality topics.
翻訳日:2021-10-22 22:37:30 公開日:2021-10-21
# (参考訳) planerecnet:単一rgb画像からの分割平面検出と再構成のためのクロスタスク一貫性を備えたマルチタスク学習 [全文訳有]

PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for Piece-Wise Plane Detection and Reconstruction from a Single RGB Image ( http://arxiv.org/abs/2110.11219v1 )

ライセンス: CC BY 4.0
Yaxu Xie, Fangwen Shu, Jason Rambach, Alain Pagani, Didier Stricker(参考訳) 部分的な3次元平面再構成は、特に屋内シナリオにおいて、人工環境の全体的理解を提供する。 最新のアプローチは、高度なネットワークアーキテクチャを導入してセグメント化と再構築結果の改善に重点を置いているが、オブジェクトや幾何学モデルとしてのピースワイド平面の二重特性を見落としている。 他の既存のアプローチとは異なり、私たちはマルチタスク畳み込みニューラルネットワークであるplanerecnetに対して、クロスタスク一貫性を強制することから始めます。planerecnetは、1つのrgbイメージからシーンを再構築するために、1段階のインスタンスセグメンテーションネットワークと深さデコーダを統合しています。 そこで本研究では,平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を提案する。 一方、新しいPlane Prior Attentionモジュールは、平面インスタンスの認識による深さ推定をガイドするために使用される。 本研究は,本手法の有効性と有効性を検証するための実験である。

Piece-wise 3D planar reconstruction provides holistic scene understanding of man-made environments, especially for indoor scenarios. Most recent approaches focused on improving the segmentation and reconstruction results by introducing advanced network architectures but overlooked the dual characteristics of piece-wise planes as objects and geometric models. Different from other existing approaches, we start from enforcing cross-task consistency for our multi-task convolutional neural network, PlaneRecNet, which integrates a single-stage instance segmentation network for piece-wise planar segmentation and a depth decoder to reconstruct the scene from a single RGB image. To achieve this, we introduce several novel loss functions (geometric constraint) that jointly improve the accuracy of piece-wise planar segmentation and depth estimation. Meanwhile, a novel Plane Prior Attention module is used to guide depth estimation with the awareness of plane instances. Exhaustive experiments are conducted in this work to validate the effectiveness and efficiency of our method.
翻訳日:2021-10-22 22:25:31 公開日:2021-10-21
# (参考訳) スペクトル変換と色三角形の被覆による色再現のためのいくつかの低パラメータモデルの特性について [全文訳有]

On the properties of some low-parameter models for color reproduction in terms of spectrum transformations and coverage of a color triangle ( http://arxiv.org/abs/2110.11255v1 )

ライセンス: CC BY 4.0
Alexey Kroshnin, Viacheslav Vasilev, Egor Ershov, Denis Shepelev, Dmitry Nikolaev, Mikhail Tchobanou(参考訳) 色適応や色空間変換といった色再現問題に対する古典的なアプローチの1つは、低パラメータスペクトルモデルを使用することである。 このアプローチの強みは、モデルが持つべき特性の集合を選択する能力であり、例えば、色三角形の大きなカバレッジ領域、スペクトルの追加や乗算の正確な記述であり、それらに対応する三刺激のみを知ることである。 欠点は、上記のスペクトルモデルのいくつかの特性が実験的にのみ確認されることである。 この研究は、スペクトルモデルの様々な性質を理論的に証明することに専念している。 特に,加法および乗算による閉包特性を同時に有するバンドモデルが唯一のモデルであることを証明した。 また、ガウス模型はフォン・ミセス模型の極限の場合であり、フォン・ミセス模型の原点の集合が凸と非凸のスペクトル軌跡の両方の色の三角形を曖昧にカバーしていることを証明する。

One of the classical approaches to solving color reproduction problems, such as color adaptation or color space transform, is the use of low-parameter spectral models. The strength of this approach is the ability to choose a set of properties that the model should have, be it a large coverage area of a color triangle, an accurate description of the addition or multiplication of spectra, knowing only the tristimulus corresponding to them. The disadvantage is that some of the properties of the mentioned spectral models are confirmed only experimentally. This work is devoted to the theoretical substantiation of various properties of spectral models. In particular, we prove that the banded model is the only model that simultaneously possesses the properties of closure under addition and multiplication. We also show that the Gaussian model is the limiting case of the von Mises model and prove that the set of protomers of the von Mises model unambiguously covers the color triangle in both the case of convex and non-convex spectral locus.
翻訳日:2021-10-22 22:11:14 公開日:2021-10-21
# (参考訳) 画像コレクションからのマルチカテゴリメッシュ再構成 [全文訳有]

Multi-Category Mesh Reconstruction From Image Collections ( http://arxiv.org/abs/2110.11256v1 )

ライセンス: CC BY-SA 4.0
Alessandro Simoni, Stefano Pini, Roberto Vezzani, Rita Cucchiara(参考訳) 近年、学習フレームワークでは、単一のrgb画像からオブジェクトの正確な形状、ポーズ、テクスチャを推測する能力が示されている。 しかし、現在の手法は、特定の優先順位を利用するために単一のカテゴリの画像コレクションで訓練されており、しばしばカテゴリ固有の3dテンプレートを使用する。 本稿では, 一連の変形可能な3次元モデルとインスタンス固有の変形, ポーズ, テクスチャのセットを組み合わせた, オブジェクトのテクスチャメッシュを推定する手法を提案する。 従来の作業と異なり,前景マスクと粗いカメラのポーズのみを監督として,複数の被写体カテゴリの画像を訓練する。 特定の3dテンプレートがなければ、フレームワークは表現されたオブジェクトの3d形状を復元するために変形するカテゴリレベルのモデルを学ぶ。 学習した3Dメッシュの各頂点に対して、インスタンス固有の変形を独立して予測し、トレーニングプロセス中にメッシュの動的分割を可能にする。 実験の結果,提案フレームワークは異なる対象カテゴリを区別し,教師なしの方法でカテゴリ固有の形状を学習できることがわかった。 予測された形状は滑らかで、トレーニングプロセス中に複数のステップから活用でき、2つの公開データセットで同等あるいは最先端の結果を得ることができる。 モデルとコードは公開されています。

Recently, learning frameworks have shown the capability of inferring the accurate shape, pose, and texture of an object from a single RGB image. However, current methods are trained on image collections of a single category in order to exploit specific priors, and they often make use of category-specific 3D templates. In this paper, we present an alternative approach that infers the textured mesh of objects combining a series of deformable 3D models and a set of instance-specific deformation, pose, and texture. Differently from previous works, our method is trained with images of multiple object categories using only foreground masks and rough camera poses as supervision. Without specific 3D templates, the framework learns category-level models which are deformed to recover the 3D shape of the depicted object. The instance-specific deformations are predicted independently for each vertex of the learned 3D mesh, enabling the dynamic subdivision of the mesh during the training process. Experiments show that the proposed framework can distinguish between different object categories and learn category-specific shape priors in an unsupervised manner. Predicted shapes are smooth and can leverage from multiple steps of subdivision during the training process, obtaining comparable or state-of-the-art results on two public datasets. Models and code are publicly released.
翻訳日:2021-10-22 21:45:13 公開日:2021-10-21
# (参考訳) 線形回帰における最適補間について [全文訳有]

On Optimal Interpolation In Linear Regression ( http://arxiv.org/abs/2110.11258v1 )

ライセンス: CC BY 4.0
Eduard Oravkin, Patrick Rebeschini(参考訳) 補間法がうまく一般化する時期と理由を理解することは、最近統計学習理論の関心事となっている。 しかし, 補間法と最適性の概念を体系的に結合することは, 部分的にしか注目されていない。 本稿では,応答変数に線形な関数(リッジ回帰におけるベイズ最適推定器の場合)を用いて線形回帰で補間する最適な方法が何か,データに依存するか,データの集団共分散,信号対雑音比,事前の共分散について検討するが,学習データにおける信号そのものの値やノイズベクトルには依存しない。 この最適性の概念を達成し、特定の初期化を伴う事前条件付き勾配降下の極限として導出できることを示す補間器の閉形式式を提供する。 我々は、最小ノルム補間器が最適応答-線形到達可能な補間器よりも任意に悪い一般化を行う仕組みを同定し、等方的事前の場合、トレーニングデータのみを入力として使用する方法を用いて、最適性の概念が実現できることを数値実験で検証する。 最後に,従来文献で研究されてきた線形データ生成モデルの下で,最適応答線形補間の概念をランダム特徴回帰へ拡張する。

Understanding when and why interpolating methods generalize well has recently been a topic of interest in statistical learning theory. However, systematically connecting interpolating methods to achievable notions of optimality has only received partial attention. In this paper, we investigate the question of what is the optimal way to interpolate in linear regression using functions that are linear in the response variable (as the case for the Bayes optimal estimator in ridge regression) and depend on the data, the population covariance of the data, the signal-to-noise ratio and the covariance of the prior for the signal, but do not depend on the value of the signal itself nor the noise vector in the training data. We provide a closed-form expression for the interpolator that achieves this notion of optimality and show that it can be derived as the limit of preconditioned gradient descent with a specific initialization. We identify a regime where the minimum-norm interpolator provably generalizes arbitrarily worse than the optimal response-linear achievable interpolator that we introduce, and validate with numerical experiments that the notion of optimality we consider can be achieved by interpolating methods that only use the training data as input in the case of an isotropic prior. Finally, we extend the notion of optimal response-linear interpolation to random features regression under a linear data-generating model that has been previously studied in the literature.
翻訳日:2021-10-22 21:25:59 公開日:2021-10-21
# (参考訳) 主成分分析と因子分析

Principal Component Analysis versus Factor Analysis ( http://arxiv.org/abs/2110.11261v1 )

ライセンス: CC BY 4.0
Zenon Gniazdowski(参考訳) 本稿では、主成分分析(PCA)と因子分析(FA)の両方に関連する選択問題について論じる。 特に,2種類の分析結果を比較した。 PCAとFAの両方に対するベクトル解釈も提案されている。 pcaにおける主成分数とfaにおける因子数を決定する問題について詳細に論じた。 分析された各一次変数のばらつきのほとんどを提示できる、要素数と主成分数を決定するための新しい基準について論じる。 この基準に適合するFAの因子数を決定するための効率的なアルゴリズムも提案した。 このアルゴリズムはPCAの主成分数に適応した。 また,主成分数を決定する新しい手法を用いて,pcaアルゴリズムを修正することを提案した。 得られた結果について考察した。

The article discusses selected problems related to both principal component analysis (PCA) and factor analysis (FA). In particular, both types of analysis were compared. A vector interpretation for both PCA and FA has also been proposed. The problem of determining the number of principal components in PCA and factors in FA was discussed in detail. A new criterion for determining the number of factors and principal components is discussed, which will allow to present most of the variance of each of the analyzed primary variables. An efficient algorithm for determining the number of factors in FA, which complies with this criterion, was also proposed. This algorithm was adapted to find the number of principal components in PCA. It was also proposed to modify the PCA algorithm using a new method of determining the number of principal components. The obtained results were discussed.
翻訳日:2021-10-22 20:54:19 公開日:2021-10-21
# (参考訳) 確率部分微分方程式のオンライン制御のための深層強化学習 [全文訳有]

Deep Reinforcement Learning for Online Control of Stochastic Partial Differential Equations ( http://arxiv.org/abs/2110.11265v1 )

ライセンス: CC BY 4.0
Erfan Pirmorad, Faraz Khoshbakhtian, Farnam Mansouri, Amir-massoud Farahmand(参考訳) 物理科学、生命科学、金融など多くの分野において、制御アプローチは微分方程式によって支配される複雑な力学系において望ましい目標を達成するために用いられる。 本研究では,確率偏微分方程式(spde)を強化学習問題として制御する問題を定式化する。 本稿では,高次元状態動作空間を有するspdシステムのオンライン制御のための,深い決定論的ポリシー勾配法を用いた学習に基づく分散制御手法を提案する。 本研究では, 確率バーガー方程式の制御問題に対して, 無限大領域における乱流を記述する手法の性能を検証した。

In many areas, such as the physical sciences, life sciences, and finance, control approaches are used to achieve a desired goal in complex dynamical systems governed by differential equations. In this work we formulate the problem of controlling stochastic partial differential equations (SPDE) as a reinforcement learning problem. We present a learning-based, distributed control approach for online control of a system of SPDEs with high dimensional state-action space using deep deterministic policy gradient method. We tested the performance of our method on the problem of controlling the stochastic Burgers' equation, describing a turbulent fluid flow in an infinitely large domain.
翻訳日:2021-10-22 20:53:22 公開日:2021-10-21
# (参考訳) 自己教師付き単眼シーン分解と深度推定 [全文訳有]

Self-Supervised Monocular Scene Decomposition and Depth Estimation ( http://arxiv.org/abs/2110.11275v1 )

ライセンス: CC BY 4.0
Sadra Safadoust, Fatma G\"uney(参考訳) 自己教師付き単眼深度推定アプローチは、シーン内の独立に動くオブジェクトを無視したり、それらを識別するために別個のセグメンテーションステップが必要となる。 我々は,モノクルビデオから深度と移動物体のセグメントを接地木ラベルを使わずに共同で推定するMonoDepthSegを提案する。 シーンを一定数のコンポーネントに分解し、各コンポーネントがその動きを表す独自の変換行列を持つ画像上の領域に対応する。 共用エンコーダを用いて,各成分のマスクと動作の両方を効率的に推定する。 提案手法を3つの駆動データセット上で評価し,シーンを別々に移動したコンポーネントに分解しながら深度推定を改善することを示す。

Self-supervised monocular depth estimation approaches either ignore independently moving objects in the scene or need a separate segmentation step to identify them. We propose MonoDepthSeg to jointly estimate depth and segment moving objects from monocular video without using any ground-truth labels. We decompose the scene into a fixed number of components where each component corresponds to a region on the image with its own transformation matrix representing its motion. We estimate both the mask and the motion of each component efficiently with a shared encoder. We evaluate our method on three driving datasets and show that our model clearly improves depth estimation while decomposing the scene into separately moving components.
翻訳日:2021-10-22 20:46:57 公開日:2021-10-21
# (参考訳) 生成逆ネットワークを用いた相補的2次元・3次元画像データを組み合わせた多相材料の超解像 [全文訳有]

Super-resolution of multiphase materials by combining complementary 2D and 3D image data using generative adversarial networks ( http://arxiv.org/abs/2110.11281v1 )

ライセンス: CC BY 4.0
Amir Dahari, Steve Kench, Isaac Squires, Samuel J. Cooper(参考訳) デバイスレベルのパフォーマンスに対する材料のメソ構造の影響をモデル化するには、シミュレーション領域の幾何学を定義するために、すべての関連する情報を含む3D画像データにアクセスする必要がある。 この画像データは、各材料を区別するための位相間の十分なコントラストを含み、キーの詳細を捉えるのに十分な解像度を持つと同時に、一般に材料を表現するのに十分な視野を持つ必要がある。 単一の撮像技術からこれらすべての特性を持つデータを得ることは滅多に不可能である。 本稿では,多相,高分解能,代表3次元画像の正確な再構成のために,一対の相補的画像技術からの情報を組み合わせる手法を提案する。 具体的には,超解像,スタイル転送,次元展開を実現するために,深層畳み込み生成対向ネットワークを用いる。 このツールの適用性を示すために、2組のデータセットを使用して、ペア画像技術から情報を融合して生成されたボリュームの品質を検証する。 各ケースで3つの重要なメソストラクチャメトリックが計算され、この手法の精度を示す。 提案手法の精度に自信を持って,リチウムイオン電池電極の実際のデータ対に適用することで,そのパワーを実証する。 本手法は, 従来報告されていた材料復元法よりも, 信頼性と使いやすさの両面において優れていると考えられる。 さらに、このアルゴリズムのトレーニングに必要なデータの多くは、文献にすでに存在し、結合されるのを待っている。 そのため、我々のオープンアクセスコードは、メソスケールでの動作をシミュレートするために必要な高品質な画像量を生成することで、ステップ変更を早めることができる。

Modelling the impact of a material's mesostructure on device level performance typically requires access to 3D image data containing all the relevant information to define the geometry of the simulation domain. This image data must include sufficient contrast between phases to distinguish each material, be of high enough resolution to capture the key details, but also have a large enough field-of-view to be representative of the material in general. It is rarely possible to obtain data with all of these properties from a single imaging technique. In this paper, we present a method for combining information from pairs of distinct but complementary imaging techniques in order to accurately reconstruct the desired multi-phase, high resolution, representative, 3D images. Specifically, we use deep convolutional generative adversarial networks to implement super-resolution, style transfer and dimensionality expansion. To demonstrate the widespread applicability of this tool, two pairs of datasets are used to validate the quality of the volumes generated by fusing the information from paired imaging techniques. Three key mesostructural metrics are calculated in each case to show the accuracy of this method. Having confidence in the accuracy of our method, we then demonstrate its power by applying to a real data pair from a lithium ion battery electrode, where the required 3D high resolution image data is not available anywhere in the literature. We believe this approach is superior to previously reported statistical material reconstruction methods both in terms of its fidelity and ease of use. Furthermore, much of the data required to train this algorithm already exists in the literature, waiting to be combined. As such, our open-access code could precipitate a step change by generating the hard to obtain high quality image volumes necessary to simulate behaviour at the mesoscale.
翻訳日:2021-10-22 20:29:21 公開日:2021-10-21
# (参考訳) 組み込みニューラルネットワークの物理的サイドチャネル攻撃:サーベイ [全文訳有]

Physical Side-Channel Attacks on Embedded Neural Networks: A Survey ( http://arxiv.org/abs/2110.11290v1 )

ライセンス: CC BY 4.0
Maria M\'endez Real, Rub\'en Salvador(参考訳) 過去10年間で、Deep Neural Networks(DNN)は、データセンターから低消費電力プロセッサを含む組み込みシステム、最近ではFPGAなど、あらゆるタイプのプラットフォームに徐々に統合されてきた。 ニューラルネットワーク(NN)は、安全クリティカルでセキュリティに敏感なドメインのアプリケーションを含む、あらゆる種類の現実世界のアプリケーションを変換することによって、IoTシステムにおいてユビキタスになることが期待されている。 しかし、組み込みNN実装のハードウェアセキュリティの脆弱性は未解決のままである。 特に、組み込みDNN実装は、特にIoTおよびエッジコンピューティングのコンテキストにおいて、攻撃者が通常ターゲットデバイスに物理的にアクセス可能な、サイドチャネル分析(SCA)攻撃に対して脆弱である。 そのため、研究分野が出現し、NN組み込み実装をターゲットにしたタイミング、電磁攻撃、電力攻撃を含むSCAの利用で急速に成長している。 2018年以降、調査論文では、攻撃者が推論モデルアーキテクチャとパラメータを復元し、産業用IPを公開し、データの機密性とプライバシーを危険にさらすことができることが示されている。 本稿は,これまでの文献におけるこの新興分野の完全なレビューを伴わず,マイクロコントローラやFPGAへの組み込みDNNの実装に対して,最先端の物理的SCA攻撃を調査し,現状を詳細に分析する。 分類学と現在の攻撃の詳細な分類を提供する。 最初は緩和技術について論じ、その後、将来の研究リーダーに洞察を与える。

During the last decade, Deep Neural Networks (DNN) have progressively been integrated on all types of platforms, from data centers to embedded systems including low-power processors and, recently, FPGAs. Neural Networks (NN) are expected to become ubiquitous in IoT systems by transforming all sorts of real-world applications, including applications in the safety-critical and security-sensitive domains. However, the underlying hardware security vulnerabilities of embedded NN implementations remain unaddressed. In particular, embedded DNN implementations are vulnerable to Side-Channel Analysis (SCA) attacks, which are especially important in the IoT and edge computing contexts where an attacker can usually gain physical access to the targeted device. A research field has therefore emerged and is rapidly growing in terms of the use of SCA including timing, electromagnetic attacks and power attacks to target NN embedded implementations. Since 2018, research papers have shown that SCA enables an attacker to recover inference models architectures and parameters, to expose industrial IP and endangers data confidentiality and privacy. Without a complete review of this emerging field in the literature so far, this paper surveys state-of-the-art physical SCA attacks relative to the implementation of embedded DNNs on micro-controllers and FPGAs in order to provide a thorough analysis on the current landscape. It provides a taxonomy and a detailed classification of current attacks. It first discusses mitigation techniques and then provides insights for future research leads.
翻訳日:2021-10-22 20:12:13 公開日:2021-10-21
# (参考訳) OpenABC-D: 機械学習誘導集積回路合成のための大規模データセット [全文訳有]

OpenABC-D: A Large-Scale Dataset For Machine Learning Guided Integrated Circuit Synthesis ( http://arxiv.org/abs/2110.11292v1 )

ライセンス: CC BY 4.0
Animesh Basak Chowdhury and Benjamin Tan and Ramesh Karri and Siddharth Garg(参考訳) 論理合成は集積回路(IC)設計において困難かつ広く研究されている組合せ最適化問題である。 Verilogのようなプログラミング言語におけるハードウェアの高レベルな記述を、相互接続されたブール論理ゲートのネットワークである最適化されたデジタル回路網リストに変換する。 MLが他の領域における組合せやグラフの問題を解くことに成功し、ML誘導論理合成ツールの設計への関心が高まっている。 しかし、この問題領域で定義された標準データセットやプロトタイプ学習タスクは存在しない。 本稿では,オープンソース設計を主要なオープンソース論理合成ツールで合成した大規模ラベル付きデータセットであるopenabc-dについて述べるとともに,ml誘導論理合成の開発と評価,ベンチマークにおけるその利用について述べる。 OpenABC-Dは870,000 And-Inverter-Graphs (AIGs) という形式で中間出力と最終出力を持ち、1500の合成ランと最適化ノード数やデレイなどのラベルを出力する。 このデータセット上で汎用学習問題を定義し,既存のソリューションをベンチマークする。 データセット作成とベンチマークモデルに関連するコードはhttps://github.com/N YU-MLDA/OpenABC.gitで公開されている。 生成されたデータセットは、https://archive.nyu. edu/handle/2451/6331 1で利用可能である。

Logic synthesis is a challenging and widely-researched combinatorial optimization problem during integrated circuit (IC) design. It transforms a high-level description of hardware in a programming language like Verilog into an optimized digital circuit netlist, a network of interconnected Boolean logic gates, that implements the function. Spurred by the success of ML in solving combinatorial and graph problems in other domains, there is growing interest in the design of ML-guided logic synthesis tools. Yet, there are no standard datasets or prototypical learning tasks defined for this problem domain. Here, we describe OpenABC-D,a large-scale, labeled dataset produced by synthesizing open source designs with a leading open-source logic synthesis tool and illustrate its use in developing, evaluating and benchmarking ML-guided logic synthesis. OpenABC-D has intermediate and final outputs in the form of 870,000 And-Inverter-Graphs (AIGs) produced from 1500 synthesis runs plus labels such as the optimized node counts, and de-lay. We define a generic learning problem on this dataset and benchmark existing solutions for it. The codes related to dataset creation and benchmark models are available athttps://github.com /NYU-MLDA/OpenABC.gi t. The dataset generated is available athttps://archive.ny u.edu/handle/2451/63 311
翻訳日:2021-10-22 19:45:17 公開日:2021-10-21
# (参考訳) 条件付き埋め込みによるビデオとテキストのマッチング [全文訳有]

Video and Text Matching with Conditioned Embeddings ( http://arxiv.org/abs/2110.11298v1 )

ライセンス: CC BY 4.0
Ameen Ali, Idan Schwartz, Tamir Hazan, Lior Wolf(参考訳) 本稿では,あるコーパスから与えられたビデオクリップにテキストをマッチングする方法と,その逆について述べる。 伝統的に、ビデオとテキストのマッチングは共有埋め込み空間を学習することで行われ、一方のモダリティの符号化は他方とは独立である。 本研究では,クエリの関連情報を考慮し,データセットデータを符号化する。 この手法のパワーは、単語とフレーム間の相互作用データをプールすることで得られる。 ビデオクリップのエンコーディングは、それと比較して文に依存するため、潜在的なマッチごとに表現を再計算する必要がある。 そこで我々は,効率的な浅層ニューラルネットワークを提案する。 その訓練は、段落/ビデオマッチングに拡張可能な階層的な三重項損失を用いる。 この方法はシンプルで、説明可能性を提供し、ActivityNet, DiDeMo, YouCook2, MSR-VTT, LSMDCの5つの異なるデータセットにまたがって、文クリップとビデオテキストの両方の最先端の結果を得る。 また、条件付き表現はビデオ誘導機械翻訳に転送可能であることを示し、VATEXの現在の結果を改善した。 ソースコードはhttps://github.com/A meenAli/VideoMatch.c omで入手できる。

We present a method for matching a text sentence from a given corpus to a given video clip and vice versa. Traditionally video and text matching is done by learning a shared embedding space and the encoding of one modality is independent of the other. In this work, we encode the dataset data in a way that takes into account the query's relevant information. The power of the method is demonstrated to arise from pooling the interaction data between words and frames. Since the encoding of the video clip depends on the sentence compared to it, the representation needs to be recomputed for each potential match. To this end, we propose an efficient shallow neural network. Its training employs a hierarchical triplet loss that is extendable to paragraph/video matching. The method is simple, provides explainability, and achieves state-of-the-art results for both sentence-clip and video-text by a sizable margin across five different datasets: ActivityNet, DiDeMo, YouCook2, MSR-VTT, and LSMDC. We also show that our conditioned representation can be transferred to video-guided machine translation, where we improved the current results on VATEX. Source code is available at https://github.com/A meenAli/VideoMatch.
翻訳日:2021-10-22 19:32:04 公開日:2021-10-21
# (参考訳) 動的スパース注意による変圧器加速 [全文訳有]

Transformer Acceleration with Dynamic Sparse Attention ( http://arxiv.org/abs/2110.11299v1 )

ライセンス: CC BY 4.0
Liu Liu, Zheng Qu, Zhaodong Chen, Yufei Ding, Yuan Xie(参考訳) トランスフォーマーはNLPアプリケーションの主流であり、コンピュータビジョンなど他の領域でも人気が高まっている。 モデル品質の改善にもかかわらず、膨大な計算コストは、特に新興アプリケーションでシーケンス長が大きい場合、展開においてトランスフォーマーを困難にする。 Transformerの重要なコンポーネントとしての処理の注意機構は、二次的な複雑さによる実行のボトルネックである。 先行技術は、長いシーケンスモデリングをサポートするために注意を払ってスパースパターンを探索するが、これらの作業は静的または固定パターンに基づいている。 入力シーケンスに依存して,スパースパターンが動的であることを実証する。 そこで本稿では,トランスフォーマーの注意における動的間隔を効率的に活用する動的スパース注意(DSA)を提案する。 他の手法と比較して、我々の手法は精度とモデルの複雑さのトレードオフを良くできる。 今後,Transformerの実行の高速化と効率向上を実現するため,既存のハードウェア(GPU)と専用ハードウェアにDSAを実装するための課題を特定し,ソリューションを提供する。

Transformers are the mainstream of NLP applications and are becoming increasingly popular in other domains such as Computer Vision. Despite the improvements in model quality, the enormous computation costs make Transformers difficult at deployment, especially when the sequence length is large in emerging applications. Processing attention mechanism as the essential component of Transformer is the bottleneck of execution due to the quadratic complexity. Prior art explores sparse patterns in attention to support long sequence modeling, but those pieces of work are on static or fixed patterns. We demonstrate that the sparse patterns are dynamic, depending on input sequences. Thus, we propose the Dynamic Sparse Attention (DSA) that can efficiently exploit the dynamic sparsity in the attention of Transformers. Compared with other methods, our approach can achieve better trade-offs between accuracy and model complexity. Moving forward, we identify challenges and provide solutions to implement DSA on existing hardware (GPUs) and specialized hardware in order to achieve practical speedup and efficiency improvements for Transformer execution.
翻訳日:2021-10-22 19:16:24 公開日:2021-10-21
# (参考訳) 複合データ構造へのアクセシビリティ向上のための生存指向埋め込み [全文訳有]

Survival-oriented embeddings for improving accessibility to complex data structures ( http://arxiv.org/abs/2110.11303v1 )

ライセンス: CC BY 4.0
Tobias Weber, Michael Ingrisch, Matthias Fabritius, Bernd Bischl, David R\"ugamer(参考訳) 深層学習は非構造化データの解析に優れ、最近の進歩によりこれらの技術は生存分析にまで拡張できる。 臨床放射線学の文脈では、例えば、非構造化ボリューム画像とリスクスコアや平均寿命の予後を関連付け、臨床意思決定を支援することができる。 しかし、医療応用は高い批判に結びついているので、医療従事者も患者も通常、意思決定の理由や根拠としてブラックボックスモデルを受け入れない。 新しい技術への逆性とは別に、これは多くの機械学習手法の解釈可能性、透明性、説明責任が欠けているためである。 そこで本研究では,医療分野のサバイバル分析の文脈において,ディープニューラルアーキテクチャの分かりやすい解釈を支援する,ハザードレギュラライズド変分オートエンコーダを提案する。 肝腫瘍患者の腹部CT検査と生存時間について検討した。

Deep learning excels in the analysis of unstructured data and recent advancements allow to extend these techniques to survival analysis. In the context of clinical radiology, this enables, e.g., to relate unstructured volumetric images to a risk score or a prognosis of life expectancy and support clinical decision making. Medical applications are, however, associated with high criticality and consequently, neither medical personnel nor patients do usually accept black box models as reason or basis for decisions. Apart from averseness to new technologies, this is due to missing interpretability, transparency and accountability of many machine learning methods. We propose a hazard-regularized variational autoencoder that supports straightforward interpretation of deep neural architectures in the context of survival analysis, a field highly relevant in healthcare. We apply the proposed approach to abdominal CT scans of patients with liver tumors and their corresponding survival times.
翻訳日:2021-10-22 18:56:22 公開日:2021-10-21
# 物理インフォームドニューラルネットワークのワンショットトランスファー学習

One-Shot Transfer Learning of Physics-Informed Neural Networks ( http://arxiv.org/abs/2110.11286v1 )

ライセンス: Link先を確認
Shaan Desai, Marios Mattheakis, Hayden Joy, Pavlos Protopapas, Stephen Roberts(参考訳) 微分方程式を効率的に正確に解くことは、古典力学系から量子力学まで、科学研究の多くの分野の進歩の中心にある。 物理情報ニューラルネットワーク(PINN)は、従来の数値手法よりも多くの利点を提供するため、このような問題に対処する関心が高まっている。 微分方程式を解くための潜在的な利点にもかかわらず、転送学習は検討されている。 本研究では, 常微分方程式と偏微分方程式の両方の線形系に対して, ワンショット推論を行うトランスファー学習ピンの汎用フレームワークを提案する。 これは、多くの未知の微分方程式に対する高精度な解は、ネットワーク全体を再訓練することなく瞬時に得られることを意味する。 本研究では,一階および二階線形正規方程式,ポアソン方程式,時間依存シュロディンガー複素値偏微分方程式などの実世界問題を解くことで,深層学習手法の有効性を示す。

Solving differential equations efficiently and accurately sits at the heart of progress in many areas of scientific research, from classical dynamical systems to quantum mechanics. There is a surge of interest in using Physics-Informed Neural Networks (PINNs) to tackle such problems as they provide numerous benefits over traditional numerical approaches. Despite their potential benefits for solving differential equations, transfer learning has been under explored. In this study, we present a general framework for transfer learning PINNs that results in one-shot inference for linear systems of both ordinary and partial differential equations. This means that highly accurate solutions to many unknown differential equations can be obtained instantaneously without retraining an entire network. We demonstrate the efficacy of the proposed deep learning approach by solving several real-world problems, such as first- and second-order linear ordinary equations, the Poisson equation, and the time-dependent Schrodinger complex-value partial differential equation.
翻訳日:2021-10-22 18:48:02 公開日:2021-10-21
# コマンド・アンド・コントロールのための人工知能開発プラットフォームとしてのゲームとシミュレータ

On games and simulators as a platform for development of artificial intelligence for command and control ( http://arxiv.org/abs/2110.11305v1 )

ライセンス: Link先を確認
Vinicius G. Goecks, Nicholas Waytowich, Derrik E. Asher, Song Jun Park, Mark Mittrick, John Richardson, Manuel Vindiola, Anne Logie, Mark Dennison, Theron Trout, Priya Narayanan, Alexander Kott(参考訳) ゲームやシミュレータは、複雑なマルチエージェント、マルチプレイヤー、不完全な情報シナリオを軍事アプリケーションと大幅に平行して実行する上で、貴重なプラットフォームとなり得る。 これらの特徴は人工知能(ai)コミュニティを惹き付け、複雑なベンチマークによるアルゴリズムの開発と、新しいアイデアを迅速に反復する能力をサポートする。 StarCraft IIのようなリアルタイム戦略ゲームにおける人工知能アルゴリズムの成功は、軍事的なシナリオで同様の技術を探求することを目的とした軍事研究コミュニティの注目を集めている。 本研究は,ゲームと軍事アプリケーションとの関係の橋渡しを目的として,ゲームとシミュレータが,人工知能アルゴリズムとともに,軍事任務の特定の側面をシミュレートし,それが将来の戦場にどのように影響するか,という過去と現在の取り組みについて論じる。 また,バーチャルリアリティと視覚拡張システムの進歩が,ゲームプラットフォームとそれらの軍事的並列性との人間インターフェースの新たな可能性を開くかを検討する。

Games and simulators can be a valuable platform to execute complex multi-agent, multiplayer, imperfect information scenarios with significant parallels to military applications: multiple participants manage resources and make decisions that command assets to secure specific areas of a map or neutralize opposing forces. These characteristics have attracted the artificial intelligence (AI) community by supporting development of algorithms with complex benchmarks and the capability to rapidly iterate over new ideas. The success of artificial intelligence algorithms in real-time strategy games such as StarCraft II have also attracted the attention of the military research community aiming to explore similar techniques in military counterpart scenarios. Aiming to bridge the connection between games and military applications, this work discusses past and current efforts on how games and simulators, together with the artificial intelligence algorithms, have been adapted to simulate certain aspects of military missions and how they might impact the future battlefield. This paper also investigates how advances in virtual reality and visual augmentation systems open new possibilities in human interfaces with gaming platforms and their military parallels.
翻訳日:2021-10-22 18:47:48 公開日:2021-10-21
# ディープフォレストに基づくプライバシアウェアidのクローン検出

Privacy-Aware Identity Cloning Detection based on Deep Forest ( http://arxiv.org/abs/2110.10897v1 )

ライセンス: Link先を確認
Ahmed Alharbi, Hai Dong, Xun Yi, Prabath Abeysekara(参考訳) 本稿では,ソーシャル・センサー・クラウドサービス・プロバイダのアイデンティティ・クローニングを検知し,アイデンティティ・デセプションによる有害な結果を防止する新しい手法を提案する。 このアプローチでは、ソーシャルネットワークから収集されたプライバシーに敏感なユーザプロファイルデータと強力なディープラーニングモデルを活用して、クローンID検出を行う。 提案手法は,実世界のデータセット上での最先端のアイデンティティクローン検出手法や,他の一般的なアイデンティティ偽装検出モデルに対する評価を行った。 その結果,本手法は精度とF1スコアの点でこれらの手法やモデルよりも優れていた。

We propose a novel method to detect identity cloning of social-sensor cloud service providers to prevent the detrimental outcomes caused by identity deception. This approach leverages non-privacy-sensitiv e user profile data gathered from social networks and a powerful deep learning model to perform cloned identity detection. We evaluated the proposed method against the state-of-the-art identity cloning detection techniques and the other popular identity deception detection models atop a real-world dataset. The results show that our method significantly outperforms these techniques/models in terms of Precision and F1-score.
翻訳日:2021-10-22 18:46:04 公開日:2021-10-21
# 視野を超えた移動:非教師なし領域適応による高密度パノラマ意味セグメンテーション

Transfer beyond the Field of View: Dense Panoramic Semantic Segmentation via Unsupervised Domain Adaptation ( http://arxiv.org/abs/2110.11062v1 )

ライセンス: Link先を確認
Jiaming Zhang, Chaoxiang Ma, Kailun Yang, Alina Roitberg, Kunyu Peng, Rainer Stiefelhagen(参考訳) 自動運転車は、明らかに360度センサーの拡張視野(fov)の恩恵を受けているが、現代のセマンティックセグメンテーションのアプローチは、パノラマ画像ではめったに利用できない注釈付きトレーニングデータに大きく依存している。 我々は、ドメイン適応の観点からこの問題を考察し、従来のピンホールカメラ画像の異なる分布からラベル付きトレーニングデータが導出される設定にパノラマセマンティックセマンティックセマンティックセマンティックスセグメンテーションをもたらす。 本研究では,パノラマ意味セグメンテーションに対する教師なし領域適応のタスクを定式化し,クロスドメイン条件下でパノラマセグメンテーションのための新しい密注釈データセットであるdungpassを収集する。 DensePASSは、ラベル付きおよび未ラベルの360度画像の両方をカバーし、ラベル付きデータは、ソース(ピンホール)ドメインで利用可能なカテゴリに明示的に適合する19のクラスで構成されている。 データ駆動モデルは特にデータ分散の変化に影響を受けやすいため、ピンホールからパノラマ意味セグメンテーションのための汎用フレームワークであるp2pdaを導入する。 p2pdaは、不一致予測を伴う注意ヘッドを介して、オンザフライで規制された信頼度値を用いた不確実性認識適応を行う。 本フレームワークは,ドメイン対応学習時のコンテキスト交換を容易にし,精度と効率を重視したモデルの適応性能を劇的に向上させる。 包括的な実験により、我々のフレームワークが教師なしのドメイン適応と特別なパノラマセグメンテーションアプローチを明らかに超えていることを確認した。

Autonomous vehicles clearly benefit from the expanded Field of View (FoV) of 360-degree sensors, but modern semantic segmentation approaches rely heavily on annotated training data which is rarely available for panoramic images. We look at this problem from the perspective of domain adaptation and bring panoramic semantic segmentation to a setting, where labelled training data originates from a different distribution of conventional pinhole camera images. To achieve this, we formalize the task of unsupervised domain adaptation for panoramic semantic segmentation and collect DensePASS - a novel densely annotated dataset for panoramic segmentation under cross-domain conditions, specifically built to study the Pinhole-to-Panoramic domain shift and accompanied with pinhole camera training examples obtained from Cityscapes. DensePASS covers both, labelled- and unlabelled 360-degree images, with the labelled data comprising 19 classes which explicitly fit the categories available in the source (i.e. pinhole) domain. Since data-driven models are especially susceptible to changes in data distribution, we introduce P2PDA - a generic framework for Pinhole-to-Panoramic semantic segmentation which addresses the challenge of domain divergence with different variants of attention-augmented domain adaptation modules, enabling the transfer in output-, feature-, and feature confidence spaces. P2PDA intertwines uncertainty-aware adaptation using confidence values regulated on-the-fly through attention heads with discrepant predictions. Our framework facilitates context exchange when learning domain correspondences and dramatically improves the adaptation performance of accuracy- and efficiency-focused models. Comprehensive experiments verify that our framework clearly surpasses unsupervised domain adaptation- and specialized panoramic segmentation approaches.
翻訳日:2021-10-22 18:45:18 公開日:2021-10-21
# 部分的同定に基づく個別意思決定:3視点,2つの最適結果,1つのパラドックス

Individualized Decision-Making Under Partial Identification: Three Perspectives, Two Optimality Results, and One Paradox ( http://arxiv.org/abs/2110.10961v1 )

ライセンス: Link先を確認
Yifan Cui(参考訳) 測定されていない結合は因果推論の脅威であり、偏りのある見積もりを引き起こす。 本稿では,部分的識別に基づく個別化意思決定の問題について考察する。 第一に,不確実性に直面する場合には,部分的識別を包括的手法で個別化意思決定を追求すべきである。 我々は、値/ユーティリティ関数の下位境界視点を考慮し、部分的識別に基づく個別化意思決定と古典的決定理論の間の公式なリンクを確立する。 第二に、この統一されたフレームワークに基づいて、個別化された意思決定/政策割り当てのための新しいミニマックスソリューション(すなわち、いわゆる日和見主義者の最大の後悔を最小限にするルール)を提供する。 最後に,2つの挑戦的領域,すなわち個別化意思決定と非計測的コンファウンディングの間の新しい関係について,興味深いパラドックスを描いている。 器楽変数境界によって動機付けられるが、本稿で提案される一般的な枠組みは、原則として、部分的識別の下で利用できるようなリッチな境界集合に適用可能であることを強調する。

Unmeasured confounding is a threat to causal inference and gives rise to biased estimates. In this article, we consider the problem of individualized decision-making under partial identification. Firstly, we argue that when faced with unmeasured confounding, one should pursue individualized decision-making using partial identification in a comprehensive manner. We establish a formal link between individualized decision-making under partial identification and classical decision theory by considering a lower bound perspective of value/utility function. Secondly, building on this unified framework, we provide a novel minimax solution (i.e., a rule that minimizes the maximum regret for so-called opportunists) for individualized decision-making/poli cy assignment. Lastly, we provide an interesting paradox drawing on novel connections between two challenging domains, that is, individualized decision-making and unmeasured confounding. Although motivated by instrumental variable bounds, we emphasize that the general framework proposed in this article would in principle apply for a rich set of bounds that might be available under partial identification.
翻訳日:2021-10-22 18:44:38 公開日:2021-10-21
# 拡張非線形双曲保存則に対する有限体積最小二乗ニューラルネットワーク(FV-LSNN)法

Finite Volume Least-Squares Neural Network (FV-LSNN) Method for Scalar Nonlinear Hyperbolic Conservation Laws ( http://arxiv.org/abs/2110.10895v1 )

ライセンス: Link先を確認
Zhiqiang Cai, Jingshuang Chen, Min Liu(参考訳) 4]では,不連続解を用いた線形随伴反応問題を解くための最小二乗reluニューラルネットワーク (lsnn) 法を導入し,lsnn法の自由度数が従来のメッシュベース法に比べて有意に少ないことを示した。 lsnn法は、relu活性化関数を持つニューラルネットワーク関数のクラスにおける等価な最小二乗(ls)定式化の離散化であり、数値積分と適切な数値微分を用いてls関数の評価を行う。 分散演算子に対する新しい有限体積近似(FVA)を開発することにより、スカラー非線形双曲保存則のLSNN法について検討する。 本論文で導入されたFVAはLSNN法に適合し,メッシュベース数値法で使用される従来のよく研究されたFV方式よりも精度が高い。 凸流束と非凸流束のベンチマーク試験問題の数値結果から、有限体積LSNN法は、レアファクテーション波問題に対する物理解を計算し、ReLUニューラルネットワークの自由超平面を介して、基礎問題の衝撃を自動的に捉えることができることが示された。 さらに、この方法は不連続な界面に沿って共通のギブス現象を示さない。

In [4], we introduced the least-squares ReLU neural network (LSNN) method for solving the linear advection-reaction problem with discontinuous solution and showed that the number of degrees of freedom for the LSNN method is significantly less than that of traditional mesh-based methods. The LSNN method is a discretization of an equivalent least-squares (LS) formulation in the class of neural network functions with the ReLU activation function; and evaluation of the LS functional is done by using numerical integration and proper numerical differentiation. By developing a novel finite volume approximation (FVA) to the divergence operator, this paper studies the LSNN method for scalar nonlinear hyperbolic conservation laws. The FVA introduced in this paper is tailored to the LSNN method and is more accurate than traditional, well-studied FV schemes used in mesh-based numerical methods. Numerical results of some benchmark test problems with both convex and non-convex fluxes show that the finite volume LSNN (FV-LSNN) method is capable of computing the physical solution for problems with rarefaction waves and capturing the shock of the underlying problem automatically through the free hyper-planes of the ReLU neural network. Moreover, the method does not exhibit the common Gibbs phenomena along the discontinuous interface.
翻訳日:2021-10-22 18:40:43 公開日:2021-10-21
# 量子場理論、マルコフ確率場、機械学習

Quantum field theories, Markov random fields and machine learning ( http://arxiv.org/abs/2110.10928v1 )

ライセンス: Link先を確認
Dimitrios Bachtis, Gert Aarts, Biagio Lucini(参考訳) ユークリッド空間への遷移と、空間的あるいは時空格子上の場の量子論の離散化は、量子場理論の観点から確率的機械学習を研究する機会を開く。 ここでは、マルコフ確率場の数学的枠組みの中で、離散化されたユークリッド場の理論をどのように再キャストするかについて議論する。 具体的には、正方格子上の$\phi^{4}$スカラー場理論がハマーズリー=クリフォードの定理を満たすことを証明し、それゆえ、ニューラルネットワークがさらに導出されるマルコフ確率場として再キャストする。 次に、$\phi^{4}$機械学習アルゴリズムの確率分布とターゲット確率分布との非対称距離の最小化に関連するアプリケーションについて議論する。

The transition to Euclidean space and the discretization of quantum field theories on spatial or space-time lattices opens up the opportunity to investigate probabilistic machine learning from the perspective of quantum field theory. Here, we will discuss how discretized Euclidean field theories can be recast within the mathematical framework of Markov random fields, which is a notable class of probabilistic graphical models with applications in a variety of research areas, including machine learning. Specifically, we will demonstrate that the $\phi^{4}$ scalar field theory on a square lattice satisfies the Hammersley-Clifford theorem, therefore recasting it as a Markov random field from which neural networks are additionally derived. We will then discuss applications pertinent to the minimization of an asymmetric distance between the probability distribution of the $\phi^{4}$ machine learning algorithms and that of target probability distributions.
翻訳日:2021-10-22 18:40:15 公開日:2021-10-21
# PAPRおよびACLR制約を用いたOFDM波形の学習

Learning OFDM Waveforms with PAPR and ACLR Constraints ( http://arxiv.org/abs/2110.10987v1 )

ライセンス: Link先を確認
Mathieu Goutay, Fay\c{c}al Ait Aoudia, Jakob Hoydis, Jean-Marie Gorce(参考訳) 将来の通信システムの魅力的な研究方向は、高いスループットと有利な信号特性の両方をサポートする新しい波形の設計である。 現代のほとんどのシステムは、その効率的な等化に直交周波数分割多重化(OFDM)を使用しているが、この波形は、高隣接チャネルリーク比(ACLR)や高ピーク対平均パワー比(PAPR)といった複数の制限に悩まされている。 本稿では,選択された制約を満たすofdmに基づく波形を,実現可能な情報レートを最大化しながら設計する学習ベース手法を提案する。 そこで我々は,送信機と受信機を,それぞれ高次元変調方式を実装した畳み込みニューラルネットワーク(CNN)としてモデル化し,送信ビットの検出を行う。 これは拡張ラグランジアン法を用いて解く最適化問題につながる。 評価結果から,エンド・ツー・エンドシステムはPAPRとACLRの制約を満たすことができ,トーン予約(TR)ベースラインと比較してスループットが大幅に向上することが示された。 その他の利点は、専用のパイロットは必要ないことである。

An attractive research direction for future communication systems is the design of new waveforms that can both support high throughputs and present advantageous signal characteristics. Although most modern systems use orthogonal frequency-division multiplexing (OFDM) for its efficient equalization, this waveform suffers from multiple limitations such as a high adjacent channel leakage ratio (ACLR) and high peak-to-average power ratio (PAPR). In this paper, we propose a learning-based method to design OFDM-based waveforms that satisfy selected constraints while maximizing an achievable information rate. To that aim, we model the transmitter and the receiver as convolutional neural networks (CNNs) that respectively implement a high-dimensional modulation scheme and perform the detection of the transmitted bits. This leads to an optimization problem that is solved using the augmented Lagrangian method. Evaluation results show that the end-to-end system is able to satisfy target PAPR and ACLR constraints and allows significant throughput gains compared to a tone reservation (TR) baseline. An additional advantage is that no dedicated pilots are needed.
翻訳日:2021-10-22 18:39:59 公開日:2021-10-21
# DeLag: サービスベースのシステムにおける遅延劣化パターンの検出

DeLag: Detecting Latency Degradation Patterns in Service-based Systems ( http://arxiv.org/abs/2110.11155v1 )

ライセンス: Link先を確認
Luca Traini, Vittorio Cortellessa(参考訳) プロダクションにおけるパフォーマンスデバッギングは、現代のサービスベースのシステムにおいて基本的な活動である。 大量のトレースとパフォーマンス指標を徹底的に検査する必要があるため、パフォーマンス問題の診断には時間を要することが多い。 本稿では,サービスベースシステムの性能問題を診断する新しい検索手法であるDeLagを提案する。 DeLagは、リモートプロシージャコールの実行時間の組み合わせで、潜在的に関連するパフォーマンス問題の兆候を示すリクエストのサブセットを特定する。 このような症状を遅延劣化パターンと呼ぶ。 DeLagは、精度、リコール、レイテンシの相違を最適化しながら、複数の遅延劣化パターンを同時に検索する。 2つのマイクロサービスベースのシステムから生成された700の要求データセットを実験した結果、このアプローチは3つの最先端アプローチと汎用機械学習クラスタリングアルゴリズムよりも、よりよい、より安定した効率を提供することがわかった。 さらに、delagは、評価に使用される最大のデータセットにおいて、第2および第3の効果的なベースライン技術よりも効率の点で優れています。

Performance debugging in production is a fundamental activity in modern service-based systems. The diagnosis of performance issues is often time-consuming, since it requires thorough inspection of large volumes of traces and performance indices. In this paper we present DeLag, a novel automated search-based approach for diagnosing performance issues in service-based systems. DeLag identifies subsets of requests that show, in the combination of their Remote Procedure Call execution times, symptoms of potentially relevant performance issues. We call such symptoms Latency Degradation Patterns. DeLag simultaneously search for multiple latency degradation patterns while optimizing precision, recall and latency dissimilarity. Experimentation on 700 datasets of requests generated from two microservice-based systems shows that our approach provide better and more stable effectiveness than three state-of-the-art approaches and general purpose machine learning clustering algorithms. Moreover, DeLag outperforms in terms of efficiency the second and the third most effective baseline techniques on the largest datasets used in our evaluation.
翻訳日:2021-10-22 18:39:39 公開日:2021-10-21
# 関連サンプリングによるユーザレベルプライベートラーニング

User-Level Private Learning via Correlated Sampling ( http://arxiv.org/abs/2110.11208v1 )

ライセンス: Link先を確認
Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) ディファレンシャルプライバシ(DP)を学習する作業の多くは、各ユーザが単一のサンプルを持つ設定に重点を置いている。 本研究では,各ユーザが$m$のサンプルを持ち,各ユーザのデータレベルでプライバシ保護が実施される設定について検討する。 この設定では、より少ない数のユーザーで学習できることが示されます。 具体的には、各ユーザが十分な数のサンプルを受け取る限り、$o(\log(1/\delta)/\e psilon)$ユーザのみを使用して、$(\epsilon, \delta)$-dpアルゴリズムを使ってプライベートに学習可能なクラスを学習できることを示します。 $\epsilon$-dp アルゴリズムでは、ローカルモデルでも $o_{\epsilon}(d)$ ユーザしか学べず、ここで $d$ は確率的表現次元である。 いずれの場合も、要求するユーザ数にほぼ一致している下限を示します。 我々の結果の重要な要素は、一般のランダム性を利用することができるグローバルな安定性の一般化である[Bun et al., FOCS 2020]。 この緩和された概念の下では、大域的な安定性を任意に1つに近く、サンプル数において多項式費用で高めることができることを示すために相関サンプリング戦略を用いる。

Most works in learning with differential privacy (DP) have focused on the setting where each user has a single sample. In this work, we consider the setting where each user holds $m$ samples and the privacy protection is enforced at the level of each user's data. We show that, in this setting, we may learn with a much fewer number of users. Specifically, we show that, as long as each user receives sufficiently many samples, we can learn any privately learnable class via an $(\epsilon, \delta)$-DP algorithm using only $O(\log(1/\delta)/\e psilon)$ users. For $\epsilon$-DP algorithms, we show that we can learn using only $O_{\epsilon}(d)$ users even in the local model, where $d$ is the probabilistic representation dimension. In both cases, we show a nearly-matching lower bound on the number of users required. A crucial component of our results is a generalization of global stability [Bun et al., FOCS 2020] that allows the use of public randomness. Under this relaxed notion, we employ a correlated sampling strategy to show that the global stability can be boosted to be arbitrarily close to one, at a polynomial expense in the number of samples.
翻訳日:2021-10-22 18:39:25 公開日:2021-10-21
# 最適コンパクトニューラルネットワークを用いた交流力流方程式のモデリング:ユニットコミットへの応用

Modeling the AC Power Flow Equations with Optimally Compact Neural Networks: Application to Unit Commitment ( http://arxiv.org/abs/2110.11269v1 )

ライセンス: Link先を確認
Alyssa Kody, Samuel Chevalier, Spyros Chatzivasileiadis, Daniel Molzahn(参考訳) 非線形のパワーフロー制約は、計算的に難解な様々な電力系統最適化問題をレンダリングする。 しかし, ニューラルネットワーク (NN) を用いて非線形交流電力流方程式をモデル化できることが, 新たな研究で示されている。 これらのNNは、正確にmixed Integer Linear Programs (MILP) に変換され、挑戦的な最適化問題に埋め込まれ、多くのアプリケーションで難解な非線形性を置き換えることができる。 しかし、そのようなアプローチはNNを表すのに必要なバイナリ変数の数が爆発的に増えている。 そこで本稿では「最適コンパクト」 nn を訓練する手法,すなわち,連立変数を扱いやすい数に保ちながら,十分な精度でパワーフロー方程式を表現できる手法を開発した。 本稿では,DCと線形化電力フローの両モデルよりも,難解な最適化問題(ACユニットコミットメント問題)に埋め込まれた場合のNNモデルの方が表現力が高いことを示す。

Nonlinear power flow constraints render a variety of power system optimization problems computationally intractable. Emerging research shows, however, that the nonlinear AC power flow equations can be successfully modeled using Neural Networks (NNs). These NNs can be exactly transformed into Mixed Integer Linear Programs (MILPs) and embedded inside challenging optimization problems, thus replacing nonlinearities that are intractable for many applications with tractable piecewise linear approximations. Such approaches, though, suffer from an explosion of the number of binary variables needed to represent the NN. Accordingly, this paper develops a technique for training an "optimally compact" NN, i.e., one that can represent the power flow equations with a sufficiently high degree of accuracy while still maintaining a tractable number of binary variables. We show that the resulting NN model is more expressive than both the DC and linearized power flow approximations when embedded inside of a challenging optimization problem (i.e., the AC unit commitment problem).
翻訳日:2021-10-22 18:39:03 公開日:2021-10-21
# (参考訳) 勾配型潜在補間を用いた非構造データ空間のハザード要因のモデル化 [全文訳有]

Towards modelling hazard factors in unstructured data spaces using gradient-based latent interpolation ( http://arxiv.org/abs/2110.11312v1 )

ライセンス: CC BY 4.0
Tobias Weber, Michael Ingrisch, Bernd Bischl, David R\"ugamer(参考訳) 生存分析(SA)における深層学習の適用は、従来の生存法では珍しい非構造的・高次元データ型を利用する機会を与える。 これにより、デジタルヘルス、予測保守、チャーン分析などの分野の手法を進化させることができるが、深層学習に基づくアプローチのブラックボックス特性のため、解釈が低く直感的に理解できるモデルが得られることが多い。 私たちはこのギャップを提案によって埋める 1)生存目標を有するマルチタスク変分オートエンコーダ(VAE)で、生存指向の埋め込みを実現し、 2)元のデータ空間における危険因子をモデル化する新しい手法HazardWalk。 HazardWalkは、オートエンコーダの潜伏分布を最大化/最小化の領域に変換し、デコーダを使用して元のドメインの変更を投影します。 本手法は肝転移患者のCT画像データとシミュレーションデータセットを用いて評価した。

The application of deep learning in survival analysis (SA) gives the opportunity to utilize unstructured and high-dimensional data types uncommon in traditional survival methods. This allows to advance methods in fields such as digital health, predictive maintenance and churn analysis, but often yields less interpretable and intuitively understandable models due to the black-box character of deep learning-based approaches. We close this gap by proposing 1) a multi-task variational autoencoder (VAE) with survival objective, yielding survival-oriented embeddings, and 2) a novel method HazardWalk that allows to model hazard factors in the original data space. HazardWalk transforms the latent distribution of our autoencoder into areas of maximized/minimized hazard and then uses the decoder to project changes to the original domain. Our procedure is evaluated on a simulated dataset as well as on a dataset of CT imaging data of patients with liver metastases.
翻訳日:2021-10-22 18:37:21 公開日:2021-10-21
# Vis-TOP:ビジュアルトランスフォーマーオーバーレイプロセッサ

Vis-TOP: Visual Transformer Overlay Processor ( http://arxiv.org/abs/2110.10957v1 )

ライセンス: Link先を確認
Wei Hu, Dian Xu, Zimeng Fan, Fang Liu, Yanxiang He(参考訳) 近年、Transformerは自然言語処理(NLP)において優れた成果を上げ、コンピュータビジョン(CV)にも拡張し始めている。 Vision TransformerやSwin Transformerのような優れたモデルが登場した。 同時に、トランスフォーマーモデルのプラットフォームは、リソースに敏感なアプリケーションシナリオを満たすために、組み込みデバイスに拡張された。 しかし、多くのパラメータ、複雑な計算フロー、およびトランスフォーマーモデルの多くの異なる構造的変異のため、ハードウェア設計において対処すべき問題がいくつかある。 これは機会であり、挑戦でもある。 様々な視覚変換器モデルのためのオーバーレイプロセッサであるVis-TOP(Visual Transformer Overlay Processor)を提案する。 CPU、GPU、NEPのような粗粒のオーバーレイプロセッサと、特定のモデルのためのきめ細かいカスタマイズされた設計とは異なる。 Vis-TOPは、全てのビジュアルトランスフォーマーモデルの特徴を要約し、ハードウェアアーキテクチャを変更することなく3層および2層変換構造を実装している。 同時に、対応する命令バンドルとハードウェアアーキテクチャは、3層および2層変換構造で設計される。 8ビット固定点(fix_8)を用いたSwin Transformer小モデルの量子化後,ZCU102上にオーバーレイプロセッサを実装した。 GPUと比較して、TOPスループットは1.5倍高い。 既存のトランスフォーマー加速器と比較して、dspあたりのスループットは2.2倍から11.7倍高い。 一言で言えば,本論文のアプローチは,資源消費と推論速度の両方の観点から,リアルタイムAIの要件を満たすものである。 Vis-TOPは、エッジでのコンピュータビジョンのための再構成可能なデバイスに基づくコスト効率と電力効率のソリューションを提供する。

In recent years, Transformer has achieved good results in Natural Language Processing (NLP) and has also started to expand into Computer Vision (CV). Excellent models such as the Vision Transformer and Swin Transformer have emerged. At the same time, the platform for Transformer models was extended to embedded devices to meet some resource-sensitive application scenarios. However, due to the large number of parameters, the complex computational flow and the many different structural variants of Transformer models, there are a number of issues that need to be addressed in its hardware design. This is both an opportunity and a challenge. We propose Vis-TOP (Visual Transformer Overlay Processor), an overlay processor for various visual Transformer models. It differs from coarse-grained overlay processors such as CPU, GPU, NPE, and from fine-grained customized designs for a specific model. Vis-TOP summarizes the characteristics of all visual Transformer models and implements a three-layer and two-level transformation structure that allows the model to be switched or changed freely without changing the hardware architecture. At the same time, the corresponding instruction bundle and hardware architecture are designed in three-layer and two-level transformation structure. After quantization of Swin Transformer tiny model using 8-bit fixed points (fix_8), we implemented an overlay processor on the ZCU102. Compared to GPU, the TOP throughput is 1.5x higher. Compared to the existing Transformer accelerators, our throughput per DSP is between 2.2x and 11.7x higher than others. In a word, the approach in this paper meets the requirements of real-time AI in terms of both resource consumption and inference speed. Vis-TOP provides a cost-effective and power-effective solution based on reconfigurable devices for computer vision at the edge.
翻訳日:2021-10-22 18:29:43 公開日:2021-10-21
# 2020 CATARACTSセマンティックセグメンテーションチャレンジ

2020 CATARACTS Semantic Segmentation Challenge ( http://arxiv.org/abs/2110.10965v1 )

ライセンス: Link先を確認
Imanol Luengo, Maria Grammatikopoulou, Rahim Mohammadi, Chris Walsh, Chinedu Innocent Nwoye, Deepak Alapatt, Nicolas Padoy, Zhen-Liang Ni, Chen-Chen Fan, Gui-Bin Bian, Zeng-Guang Hou, Heonjin Ha, Jiacheng Wang, Haojie Wang, Dong Guo, Lu Wang, Guotai Wang, Mobarakol Islam, Bharat Giddwani, Ren Hongliang, Theodoros Pissas, Claudio Ravasio Martin Huber, Jeremy Birch, Joan M.Nunez Do Rio, Lyndon da Cruz, Christos Bergeles, Hongyu Chen, Fucang Jia, Nikhil KumarTomar, Debesh Jha, Michael A. Riegler, Pal Halvorsen, Sophia Bano, Uddhav Vaghela, Jianyuan Hong, Haili Ye, Feihong Huang, Da-Han Wang, Danail Stoyanov(参考訳) 外科的シーンセグメンテーションは解剖学や計測器の局在に必須であり、手術中の組織-組織間相互作用の評価にも利用できる。 2017年、the challenge on automatic tool annotation for cataract surgery (cataracts) が50本の白内障手術ビデオをリリースした。 これらのアノテーションにはフレームレベルの楽器の存在情報が含まれていた。 2020年、私たちはCATARACTSトレーニングセットの25の動画から採取された4670枚の画像に対して、解剖学と計器に関するピクセル単位のセマンティックアノテーションをリリースした。 2020 CATARACTS Semantic Segmentation Challengeは、2020 MICCAIendoscopic Vision (EndoVis) Challengeのサブチャレンジであり、解剖学的構造と機器セグメンテーションに関する参加ソリューションを評価するための3つのサブタスクを提示した。 彼らのパフォーマンスは、CATARACTSテストセットの10ビデオから531枚の画像が隠されたテストセットで評価された。

Surgical scene segmentation is essential for anatomy and instrument localization which can be further used to assess tissue-instrument interactions during a surgical procedure. In 2017, the Challenge on Automatic Tool Annotation for cataRACT Surgery (CATARACTS) released 50 cataract surgery videos accompanied by instrument usage annotations. These annotations included frame-level instrument presence information. In 2020, we released pixel-wise semantic annotations for anatomy and instruments for 4670 images sampled from 25 videos of the CATARACTS training set. The 2020 CATARACTS Semantic Segmentation Challenge, which was a sub-challenge of the 2020 MICCAI Endoscopic Vision (EndoVis) Challenge, presented three sub-tasks to assess participating solutions on anatomical structure and instrument segmentation. Their performance was assessed on a hidden test set of 531 images from 10 videos of the CATARACTS test set.
翻訳日:2021-10-22 18:29:17 公開日:2021-10-21
# 医用画像の異常低減に向けて

Towards Reducing Aleatoric Uncertainty for Medical Imaging Tasks ( http://arxiv.org/abs/2110.11012v1 )

ライセンス: Link先を確認
Abhishek Singh Sambyal, Narayanan C. Krishnan, Deepti R. Bathula(参考訳) 医療診断のような安全クリティカルな応用では、モデルの予測に関連する確実性はその正確性と同じくらい重要である。 その結果、不確実性の推定と削減が重要な役割を果たす。 予測の不確実性は、データにおけるノイズやランダム性(アレータティック)や不正確なモデル推論(epistemic)によって引き起こされる。 モデルの不確かさは、より多くのデータやより大きなモデルで減らすことができるが、アレエータ的不確実性はより複雑である。 本研究は,自己教師付きタスクから推定されるデータ不確かさを,データ固有のノイズとして解釈し,データ拡張によって同一のデータセットに関連する他のタスクにおけるアレエータ的不確実性を低減する手法を提案する。 提案手法は,画像再構成を自己教師タスクとし,セグメント化を画像解析タスクとするベンチマーク医療画像データセットで評価した。 提案手法は,画像分割作業におけるアリーエータ的不確かさを著しく低減すると同時に,標準拡張手法と比較して良好な性能と同等の性能を達成できることを示す。

In safety-critical applications like medical diagnosis, certainty associated with a model's prediction is just as important as its accuracy. Consequently, uncertainty estimation and reduction play a crucial role. Uncertainty in predictions can be attributed to noise or randomness in data (aleatoric) and incorrect model inferences (epistemic). While model uncertainty can be reduced with more data or bigger models, aleatoric uncertainty is more intricate. This work proposes a novel approach that interprets data uncertainty estimated from a self-supervised task as noise inherent to the data and utilizes it to reduce aleatoric uncertainty in another task related to the same dataset via data augmentation. The proposed method was evaluated on a benchmark medical imaging dataset with image reconstruction as the self-supervised task and segmentation as the image analysis task. Our findings demonstrate the effectiveness of the proposed approach in significantly reducing the aleatoric uncertainty in the image segmentation task while achieving better or on-par performance compared to the standard augmentation techniques.
翻訳日:2021-10-22 18:29:02 公開日:2021-10-21
# CNNエッジ検出とシトマイコーナー最適化に基づくロバストエッジ-ダイレクトビジュアルオドメトリー

Robust Edge-Direct Visual Odometry based on CNN edge detection and Shi-Tomasi corner optimization ( http://arxiv.org/abs/2110.11064v1 )

ライセンス: Link先を確認
Kengdong Lu, Jintao Cheng, Yubin Zhou, Juncan Deng, Rui Fan, Kaiqing Luo(参考訳) 本稿では,cnnエッジ検出とshi-tomasiコーナー最適化に基づくロバストなエッジ指向視覚オドメトリ(vo)を提案する。 提案手法では, フレーム間の動作誤差を低減するため, 画像からピラミッドの4層を抽出した。 この解はCNNエッジ検出とシトマイコーナー最適化を用いて画像から情報を取り出す。 そして、levenberg-marquardt( lm)アルゴリズムを用いてポーズ推定を行い、キーフレームを更新する。 提案手法は,RGB-D TUMベンチマークを用いた高密度直接法,改良されたカニーエッジ検出法,ORB-SLAM2システムと比較した。 実験の結果,本手法はロバスト性と精度が向上した。

In this paper, we propose a robust edge-direct visual odometry (VO) based on CNN edge detection and Shi-Tomasi corner optimization. Four layers of pyramids were extracted from the image in the proposed method to reduce the motion error between frames. This solution used CNN edge detection and Shi-Tomasi corner optimization to extract information from the image. Then, the pose estimation is performed using the Levenberg-Marquardt (LM) algorithm and updating the keyframes. Our method was compared with the dense direct method, the improved direct method of Canny edge detection, and ORB-SLAM2 system on the RGB-D TUM benchmark. The experimental results indicate that our method achieves better robustness and accuracy.
翻訳日:2021-10-22 18:28:44 公開日:2021-10-21
# フェイスマスク装着が顔画像品質に及ぼす影響

The Effect of Wearing a Face Mask on Face Image Quality ( http://arxiv.org/abs/2110.11283v1 )

ライセンス: Link先を確認
Biying Fu, Florian Kirchbuchner, Naser Damer(参考訳) 新型コロナウイルス(COVID-19)の影響で、マスクは私たちの日常生活の中心となっている。 新型コロナウイルスの感染拡大を防ぐため、多くの公共の場所で口と鼻の保護が義務付けられている。 しかし,顔マスクは顔の大部分を覆っているため,顔認識性能に影響を及ぼす。 協調環境における顔認証システムの異なる構成要素に対するフェイスマスクの着用の効果は、まだ十分に研究されていない問題である。 本研究は, 顔にマスクを装着することによる顔の画質への影響を, 異なる性質の最先端顔画像評価法を用いて, 初めて検討するものである。 これは、顔マスクがシステム全体の顔認識操作に与える影響をよりよく理解することを目的としている。 さらに,実顔マスクと比較して,顔画像の有用性に対するシミュレーションマスクの効果についても検討した。 顔画像品質に対するマスク効果と、自動システムと人間専門家による顔認証性能の相関について検討し、両要因間の一貫した傾向を示す。 NISTプロトコル[1,23]に従って、(1)非マスク面、(2)実顔マスク、(3)模擬顔マスクを含むデータベース上で、非マスク面にデジタル顔マスクを合成して評価を行う。 最後に、選択した一連の品質評価方法の品質スコアに寄与する顔領域の視覚的解釈を提供し、マスク面と非マスク面のネットワーク決定の違いについて深い洞察を与える。

Due to the COVID-19 situation, face masks have become a main part of our daily life. Wearing mouth-and-nose protection has been made a mandate in many public places, to prevent the spread of the COVID-19 virus. However, face masks affect the performance of face recognition, since a large area of the face is covered. The effect of wearing a face mask on the different components of the face recognition system in a collaborative environment is a problem that is still to be fully studied. This work studies, for the first time, the effect of wearing a face mask on face image quality by utilising state-of-the-art face image quality assessment methods of different natures. This aims at providing better understanding on the effect of face masks on the operation of face recognition as a whole system. In addition, we further studied the effect of simulated masks on face image utility in comparison to real face masks. We discuss the correlation between the mask effect on face image quality and that on the face verification performance by automatic systems and human experts, indicating a consistent trend between both factors. The evaluation is conducted on the database containing (1) no-masked faces, (2) real face masks, and (3) simulated face masks, by synthetically generating digital facial masks on no-masked faces according to the NIST protocols [1, 23]. Finally, a visual interpretation of the face areas contributing to the quality score of a selected set of quality assessment methods is provided to give a deeper insight into the difference of network decisions in masked and non-masked faces, among other variations.
翻訳日:2021-10-22 18:28:30 公開日:2021-10-21
# ランジュバンダイナミクスによる統計有限要素

Statistical Finite Elements via Langevin Dynamics ( http://arxiv.org/abs/2110.11131v1 )

ライセンス: Link先を確認
\"Omer Deniz Akyildiz, Connor Duffin, Sotirios Sabanis, Mark Girolami(参考訳) 最近の統計有限要素法(statFEM)は、観測データを用いて有限要素モデルを合成するコヒーレントな統計フレームワークを提供する。 支配方程式の内部に不確実性を埋め込むことにより、有限要素解はモデルに関連する不確実性の全ての源を定量化する後方分布を与えるように更新される。 しかし、全ての不確実性源を組み込むには、モデルパラメータに関連する不確実性、不確実性定量化の既知の前方問題を統合する必要がある。 本稿では, スタットFEM前方問題の解法としてランゲヴィン力学を用いて, メトロポリス自由マルコフ連鎖モンテカルロサンプリング器である未調整ランゲヴィンアルゴリズム(ULA)の有効性について検討し, この難解な尺度のサンプルベースの特徴付けを構築する。 statFEM 問題の構造のため、これらの手法は完全な PDE の解を明示せずに前方の問題を解くことができ、まばらな行列ベクトル積しか必要としない。 ULAは勾配に基づくため、高い自由度までスケーラブルなアプローチを提供する。 ランジュバンベースのサンプラーの背後にある理論を活用し,kullback-leibler 発散とwasserstein-2 におけるプリコンディショニングの効果について,サンプラーの性能,前後の収束性について理論的に保証する。 サンプルの有効性を実証するために、前と後の両方で数値実験も提供されており、Pythonパッケージも含んでいる。

The recent statistical finite element method (statFEM) provides a coherent statistical framework to synthesise finite element models with observed data. Through embedding uncertainty inside of the governing equations, finite element solutions are updated to give a posterior distribution which quantifies all sources of uncertainty associated with the model. However to incorporate all sources of uncertainty, one must integrate over the uncertainty associated with the model parameters, the known forward problem of uncertainty quantification. In this paper, we make use of Langevin dynamics to solve the statFEM forward problem, studying the utility of the unadjusted Langevin algorithm (ULA), a Metropolis-free Markov chain Monte Carlo sampler, to build a sample-based characterisation of this otherwise intractable measure. Due to the structure of the statFEM problem, these methods are able to solve the forward problem without explicit full PDE solves, requiring only sparse matrix-vector products. ULA is also gradient-based, and hence provides a scalable approach up to high degrees-of-freedom. Leveraging the theory behind Langevin-based samplers, we provide theoretical guarantees on sampler performance, demonstrating convergence, for both the prior and posterior, in the Kullback-Leibler divergence, and, in Wasserstein-2, with further results on the effect of preconditioning. Numerical experiments are also provided, for both the prior and posterior, to demonstrate the efficacy of the sampler, with a Python package also included.
翻訳日:2021-10-22 18:25:34 公開日:2021-10-21
# NASAの衛星データソースと幾何学的深層学習を使って、新型コロナウイルスの重症度に隠れたパターンを発見

Using NASA Satellite Data Sources and Geometric Deep Learning to Uncover Hidden Patterns in COVID-19 Clinical Severity ( http://arxiv.org/abs/2110.10849v1 )

ライセンス: Link先を確認
Ignacio Segovia-Dominguez, Huikyo Lee, Zhiwei Zhen, Yuzhou Chen, Michael Garay, Daniel Crichton, Rishabh Wagh, Yulia R. Gel(参考訳) 2021年に起きた複数の副作用が示すように、水や食料の安全、エネルギーの供給、医療など社会機能のほとんどすべての側面は、環境要因のダイナミクスに依存している。 それでも、天気と気候の社会的側面は、信頼性が高く、データへのアクセスが容易なため、機械学習コミュニティによって明らかに探検されていない。 ここでは、エアロゾル光学的深さ(aod)、温度、相対湿度に関するnasaの衛星データセットが広く利用できないユニークな特徴を示し、新型コロナウイルスのバイオサーベイランスにおけるこれらの新しいデータの有用性について論じる。 特に、アメリカ合衆国における郡レベルの半教師付き分類のための幾何学的深層学習モデルを用いて、大気変数が新型コロナウイルスの臨床重症度にかなりの影響を及ぼすかどうかという社会問題について検討した。

As multiple adverse events in 2021 illustrated, virtually all aspects of our societal functioning -- from water and food security to energy supply to healthcare -- more than ever depend on the dynamics of environmental factors. Nevertheless, the social dimensions of weather and climate are noticeably less explored by the machine learning community, largely, due to the lack of reliable and easy access to use data. Here we present a unique not yet broadly available NASA's satellite dataset on aerosol optical depth (AOD), temperature and relative humidity and discuss the utility of these new data for COVID-19 biosurveillance. In particular, using the geometric deep learning models for semi-supervised classification on a county-level basis over the contiguous United States, we investigate the pressing societal question whether atmospheric variables have considerable impact on COVID-19 clinical severity.
翻訳日:2021-10-22 18:19:36 公開日:2021-10-21
# 分散最適化と学習におけるレジリエンスのためのコスト関数の冗長性の利用

Utilizing Redundancy in Cost Functions for Resilience in Distributed Optimization and Learning ( http://arxiv.org/abs/2110.10858v1 )

ライセンス: Link先を確認
Shuo Liu, Nirupam Gupta, Nitin Vaidya(参考訳) 本稿では,サーバアーキテクチャにおけるレジリエント分散最適化と確率的機械学習の問題について考察する。 システムはサーバと複数のエージェントから構成され、各エージェントはローカルなコスト関数を持つ。 エージェントはサーバと協調して、彼らの総コスト関数の最小値を見つける。 エージェントのいくつかが非同期で、あるいはビザンチンに障害がある場合を考える。 この場合、分散勾配降下法(DGD)の古典的アルゴリズムは非効率である。 我々の目標は、非同期およびビザンチン障害によるDGDの有効性を改善する技術の設計である。 f, \,r; \epsilon)$-冗長(ここで、$f$ と $r$ はそれぞれビザンチン失敗と非同期のパラメータであり、$\epsilon$ はエージェントのコスト関数間の密接性を特徴付ける。 これにより、任意の分散最適化問題に対して、エージェントのコスト関数に含まれる冗長性のレベルを定量化できる。 提案する冗長性モデルにより,非同期およびビザンチンエージェントに対するdgdのロバスト性向上と,非同期およびビザンチンエージェントを用いたロバスト分散機械学習のための分散確率勾配降下(d-sgd)への拡張が実証された。

This paper considers the problem of resilient distributed optimization and stochastic machine learning in a server-based architecture. The system comprises a server and multiple agents, where each agent has a local cost function. The agents collaborate with the server to find a minimum of their aggregate cost functions. We consider the case when some of the agents may be asynchronous and/or Byzantine faulty. In this case, the classical algorithm of distributed gradient descent (DGD) is rendered ineffective. Our goal is to design techniques improving the efficacy of DGD with asynchrony and Byzantine failures. To do so, we start by proposing a way to model the agents' cost functions by the generic notion of $(f, \,r; \epsilon)$-redundanc y where $f$ and $r$ are the parameters of Byzantine failures and asynchrony, respectively, and $\epsilon$ characterizes the closeness between agents' cost functions. This allows us to quantify the level of redundancy present amongst the agents' cost functions, for any given distributed optimization problem. We demonstrate, both theoretically and empirically, the merits of our proposed redundancy model in improving the robustness of DGD against asynchronous and Byzantine agents, and their extensions to distributed stochastic gradient descent (D-SGD) for robust distributed machine learning with asynchronous and Byzantine agents.
翻訳日:2021-10-22 18:19:18 公開日:2021-10-21
# クロスドメインレコメンデーションのためのユーザ嗜好のパーソナライズされた転送

Personalized Transfer of User Preferences for Cross-domain Recommendation ( http://arxiv.org/abs/2110.11154v1 )

ライセンス: Link先を確認
Yongchun Zhu, Zhenwei Tang, Yudan Liu, Fuzhen Zhuang, Ruobing Xie, Xu Zhang, Leyu Lin, Qing He(参考訳) コールドスタート問題はまだレコメンデーションシステムにおいて非常に難しい問題です。 幸いなことに、補助ソースドメインのコールドスタートユーザのインタラクションは、ターゲットドメインのコールドスタートレコメンデーションに役立つ。 ユーザの好みをソースドメインからターゲットドメインに転送する方法は、コールドスタート問題に対処するための有望なソリューションであるクロスドメイン勧告(CDR)において重要な問題である。 既存のほとんどのメソッドは、すべてのユーザの好みを転送するための共通の嗜好ブリッジをモデル化する。 直感的には、好みはユーザーによって異なるため、異なるユーザの好みのブリッジは異なるべきである。 本稿では,PTUPCDR(Personalize d Transfer of User Preferences for Cross-domain Recommendation)という新しいフレームワークを提案する。 具体的には,ユーザの特徴を組み込んだメタネットワークを学習し,個別化されたブリッジ関数を生成し,各ユーザの好みの伝達を実現する。 メタネットワークを安定的に学習するために,タスク指向最適化手法を用いる。 メタ生成パーソナライズドブリッジ機能により、ソースドメインへのユーザの嗜好埋め込みをターゲットドメインに変換し、変換されたユーザ嗜好埋め込みを、ターゲットドメインにおけるコールドスタートユーザの初期埋め込みとして利用することができる。 大規模な実世界のデータセットを用いて,PTUPCDRの冷間開始と暖間開始の両段階における有効性を評価するための広範な実験を行った。 コードは \url{https://github.com/e asezyc/WSDM2022-PTUP CDR} で公開されている。

Cold-start problem is still a very challenging problem in recommender systems. Fortunately, the interactions of the cold-start users in the auxiliary source domain can help cold-start recommendations in the target domain. How to transfer user's preferences from the source domain to the target domain, is the key issue in Cross-domain Recommendation (CDR) which is a promising solution to deal with the cold-start problem. Most existing methods model a common preference bridge to transfer preferences for all users. Intuitively, since preferences vary from user to user, the preference bridges of different users should be different. Along this line, we propose a novel framework named Personalized Transfer of User Preferences for Cross-domain Recommendation (PTUPCDR). Specifically, a meta network fed with users' characteristic embeddings is learned to generate personalized bridge functions to achieve personalized transfer of preferences for each user. To learn the meta network stably, we employ a task-oriented optimization procedure. With the meta-generated personalized bridge function, the user's preference embedding in the source domain can be transformed into the target domain, and the transformed user preference embedding can be utilized as the initial embedding for the cold-start user in the target domain. Using large real-world datasets, we conduct extensive experiments to evaluate the effectiveness of PTUPCDR on both cold-start and warm-start stages. The code has been available at \url{https://github.com/e asezyc/WSDM2022-PTUP CDR}.
翻訳日:2021-10-22 18:18:08 公開日:2021-10-21
# 非一様データを用いた推薦学習

Learning to Recommend Using Non-Uniform Data ( http://arxiv.org/abs/2110.11248v1 )

ライセンス: Link先を確認
Wanning Chen and Mohsen Bayati(参考訳) 過去の購入やレビューに基づいて製品のユーザ好みを学ぶことは、モダンなレコメンデーションエンジンの基盤である。 この学習タスクの複雑さのひとつは、一部のユーザが製品を購入したりレビューしたりしやすく、また一部の製品がユーザによって購入またはレビューされる傾向にあることだ。 この一様でないパターンは、観測されたデータがユーザとプロダクトのペア間でランダムにサンプリングされることを前提として、既存の推奨アルゴリズムのパワーを低下させる。 加えて、非一様性のモデリングに関する既存の文献は、ユーザーの興味が製品から独立しているか、理論的理解が欠けているかを仮定している。 本稿では,まず,非一様観察パターンを持つ部分観察行列としてユーザ製品選択をモデル化する。 次に,低ランク行列推定に関する文献に基づいて,新しい重み付きトレースノルムペナライズ回帰を導入し,行列の観測されていない値を予測する。 次に,提案手法の予測誤差の上限を証明した。 我々の上界は、ユーザと製品の共同分布に依存するある種の重み行列に基づく、多数のパラメータの関数である。 この観測を利用して、予測誤差の上限を最小化する重み行列を選択するための新しい最適化問題を導入する。 最後の製品は、新しい推定器nu-recommendで、合成データと実際のデータセットの両方で既存のメソッドよりも優れています。

Learning user preferences for products based on their past purchases or reviews is at the cornerstone of modern recommendation engines. One complication in this learning task is that some users are more likely to purchase products or review them, and some products are more likely to be purchased or reviewed by the users. This non-uniform pattern degrades the power of many existing recommendation algorithms, as they assume that the observed data is sampled uniformly at random among user-product pairs. In addition, existing literature on modeling non-uniformity either assume user interests are independent of the products, or lack theoretical understanding. In this paper, we first model the user-product preferences as a partially observed matrix with non-uniform observation pattern. Next, building on the literature about low-rank matrix estimation, we introduce a new weighted trace-norm penalized regression to predict unobserved values of the matrix. We then prove an upper bound for the prediction error of our proposed approach. Our upper bound is a function of a number of parameters that are based on a certain weight matrix that depends on the joint distribution of users and products. Utilizing this observation, we introduce a new optimization problem to select a weight matrix that minimizes the upper bound on the prediction error. The final product is a new estimator, NU-Recommend, that outperforms existing methods in both synthetic and real datasets.
翻訳日:2021-10-22 18:17:43 公開日:2021-10-21
# (参考訳) 2次元画像監督のみによる3次元意味セグメンテーションの学習 [全文訳有]

Learning 3D Semantic Segmentation with only 2D Image Supervision ( http://arxiv.org/abs/2110.11325v1 )

ライセンス: CC BY 4.0
Kyle Genova, Xiaoqi Yin, Abhijit Kundu, Caroline Pantofaru, Forrester Cole, Avneesh Sud, Brian Brewington, Brian Shucker, Thomas Funkhouser(参考訳) 最近の都市地図と自動運転の取り組みにより、lidarスキャナーとカラーカメラを備えた地上プラットフォームから収集された生の3dデータが爆発的に増加した。 しかし,高ラベリングコストのため,地中3次元セマンティックセマンティックアノテーションは量的・地理的多様性に制限があり,センサ間の移動も困難である。 対照的に、地上意味セグメンテーションを持つ大規模な画像コレクションは、様々なシーンのセットで容易に利用可能である。 本稿では,ラベル付き2次元画像コレクションのみを使用して3次元意味セグメンテーションモデルのトレーニングを監督する方法について検討する。 本研究では,マルチビュー融合を用いた2次元意味画像セグメンテーションから得られた擬似ラベルから3次元モデルを学習する。 このアプローチでは,信頼された擬似ラベルの選択方法,希少なオブジェクトカテゴリを持つ3Dシーンのサンプリング方法,トレーニング中に擬似ラベルから2D画像から入力特徴を分離する方法など,いくつかの新しい課題に対処する。 提案したネットワークアーキテクチャである2D3DNetは、5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において、ベースラインよりもはるかに優れたパフォーマンス(+6.2-11.4 mIoU)を達成する。

With the recent growth of urban mapping and autonomous driving efforts, there has been an explosion of raw 3D data collected from terrestrial platforms with lidar scanners and color cameras. However, due to high labeling costs, ground-truth 3D semantic segmentation annotations are limited in both quantity and geographic diversity, while also being difficult to transfer across sensors. In contrast, large image collections with ground-truth semantic segmentations are readily available for diverse sets of scenes. In this paper, we investigate how to use only those labeled 2D image collections to supervise training 3D semantic segmentation models. Our approach is to train a 3D model from pseudo-labels derived from 2D semantic image segmentations using multiview fusion. We address several novel issues with this approach, including how to select trusted pseudo-labels, how to sample 3D scenes with rare object categories, and how to decouple input features from 2D images from pseudo-labels during training. The proposed network architecture, 2D3DNet, achieves significantly better performance (+6.2-11.4 mIoU) than baselines during experiments on a new urban dataset with lidar and images captured in 20 cities across 5 continents.
翻訳日:2021-10-22 18:15:04 公開日:2021-10-21
# 深層ニューラルネットワークを用いた各種オープンセット医用イメージングタスクの評価

Evaluation of Various Open-Set Medical Imaging Tasks with Deep Neural Networks ( http://arxiv.org/abs/2110.10888v1 )

ライセンス: Link先を確認
Zongyuan Ge, Xin Wang(参考訳) 現在のディープニューラルネットワークは、「クローズドセット」画像認識において人間に近い結果を得た;すなわち、評価されたクラスはトレーニングクラスと重複している。 近年では「オープンセット」認識アルゴリズムと呼ばれる未知のクラスの重要性に対処し、未知のクラスを拒絶し、未知のクラスに対して高い認識精度を維持する手法が数多く提案されている。 しかし、imagenetの一般的なドメイン訓練されたオープンセットメソッドが、医療ドメインなど、異なるがより特定のドメインでどのように機能するかはまだ不明である。 これらの一般的なオープンセット手法の有効性を測定するための原則と形式的な評価がなければ、人工知能(AI)ベースの医療診断は、非効率な採用を経験し、悪い意思決定のリスクを高めるだろう。 本稿では,最先端のオープンセット法における厳密な評価を行い,「類似ドメイン」から「異なるドメイン」までの異なるオープンセットシナリオを探索し,様々な一般および医療領域のデータセットで比較する。 結果と基本概念を要約し、モデルがどのように様々な開度と開クラスの異なる分布に反応するかを説明する。 一般領域学習モデルと医学領域学習モデルの主な相違点を定量的および定性的な分析により示す。 また、信頼度校正と推論効率に応じて、実際の臨床ワークフロー使用におけるモデルロバスト性の側面を特定する。

The current generation of deep neural networks has achieved close-to-human results on "closed-set" image recognition; that is, the classes being evaluated overlap with the training classes. Many recent methods attempt to address the importance of the unknown, which are termed "open-set" recognition algorithms, try to reject unknown classes as well as maintain high recognition accuracy on known classes. However, it is still unclear how different general domain-trained open-set methods from ImageNet would perform on a different but more specific domain, such as the medical domain. Without principled and formal evaluations to measure the effectiveness of those general open-set methods, artificial intelligence (AI)-based medical diagnostics would experience ineffective adoption and increased risks of bad decision making. In this paper, we conduct rigorous evaluations amongst state-of-the-art open-set methods, exploring different open-set scenarios from "similar-domain" to "different-domain&quo t; scenarios and comparing them on various general and medical domain datasets. We summarise the results and core ideas and explain how the models react to various degrees of openness and different distributions of open classes. We show the main difference between general domain-trained and medical domain-trained open-set models with our quantitative and qualitative analysis of the results. We also identify aspects of model robustness in real clinical workflow usage according to confidence calibration and the inference efficiency.
翻訳日:2021-10-22 17:40:46 公開日:2021-10-21
# (参考訳) 分布シフトの細粒度解析

A Fine-Grained Analysis on Distribution Shift ( http://arxiv.org/abs/2110.11328v1 )

ライセンス: CC BY 4.0
Olivia Wiles and Sven Gowal and Florian Stimberg and Sylvestre Alvise-Rebuffi and Ira Ktena and Krishnamurthy (Dj) Dvijotham and Taylan Cemgil(参考訳) 分散シフトに対するロバストさは、実世界で機械学習モデルをデプロイするために重要である。 この必要性にもかかわらず、これらのシフトの原因となるメカニズムを定義し、複数の異なる分散シフトにわたるアルゴリズムの堅牢性を評価する作業はほとんど行われていない。 そこで本研究では,分布変化の微粒化解析を可能にするフレームワークを提案する。 合成と実世界の両方のデータセットにまたがる5つのカテゴリに分類される19の異なる手法を評価することにより、現在の最先端手法の総合分析を行う。 全体として、85Kモデル以上をトレーニングしています。 我々の実験フレームワークは簡単に拡張でき、新しいメソッド、シフト、データセットを含むことができます。 従来の研究とは違って、標準的なERMベースライン上での進歩は行われており、特に事前学習と拡張(学習またはヒューリスティック)は多くの場合大きな利益をもたらす。 しかし、最良の方法は異なるデータセットやシフトに対して一貫性がない。

Robustness to distribution shifts is critical for deploying machine learning models in the real world. Despite this necessity, there has been little work in defining the underlying mechanisms that cause these shifts and evaluating the robustness of algorithms across multiple, different distribution shifts. To this end, we introduce a framework that enables fine-grained analysis of various distribution shifts. We provide a holistic analysis of current state-of-the-art methods by evaluating 19 distinct methods grouped into five categories across both synthetic and real-world datasets. Overall, we train more than 85K models. Our experimental framework can be easily extended to include new methods, shifts, and datasets. We find, unlike previous work~\citep{Gulrajani20}, that progress has been made over a standard ERM baseline; in particular, pretraining and augmentations (learned or heuristic) offer large gains in many cases. However, the best methods are not consistent over different datasets and shifts.
翻訳日:2021-10-22 17:39:28 公開日:2021-10-21
# 歩行者とドライバーのインタラクションの実用的最大化モデル

A Utility Maximization Model of Pedestrian and Driver Interactions ( http://arxiv.org/abs/2110.11015v1 )

ライセンス: Link先を確認
Yi-Shin Lin, Aravinda Ramakrishnan Srinivasan, Matteo Leonetti, Jac Billington, Gustav Markkula(参考訳) 多くのモデルが道路利用者の交通の流れを考慮しているが、地域間相互作用の詳細を考慮に入れ、安全クリティカルな状況にどのように悪化するかを考慮に入れることは少ない。 センサモジュレータ制御の概念に基づき,道路利用者間の対話行動の詳細を考慮し,実用的最大化,モータプリミティブ,間欠的行動決定の原理を適用したモデリングフレームワークを開発した。 この枠組みは、これらの原理を決定理論と結びつけ、このアプローチが以下の現象を再現できるかどうかを判断するために適用される。 (a)その相互作用は初期非対称性に敏感であり、 (b) それらの行動に適応することで衝突紛争を迅速に解決する。 接近する車に向かって歩行者が道路を横切るとき (c)一方の道路利用者は、衝突を解決するために他方に降伏し、歩行者との相互作用に類似し、 (d) 結果から, 車両加速の性質に関連する特定の状況運動学が明らかになった。 これらの現象は、モデルがパラメータを進化させることによって、モデリングフレームワークから自然に現れることを示す。 モデリングフレームワークと現象中心分析は,道路ユーザのインタラクションを理解するための有望なツールを提供すると考えている。 我々は,道路利用者のインタラクションに他の変数を含む場合の安全・クリティカルな状況を研究する上で,モデルがどのように有効かについて議論した。

Many models account for the traffic flow of road users but few take the details of local interactions into consideration and how they could deteriorate into safety-critical situations. Building on the concept of sensorimotor control, we develop a modeling framework applying the principles of utility maximization, motor primitives, and intermittent action decisions to account for the details of interactive behaviors among road users. The framework connects these principles to the decision theory and is applied to determine whether such an approach can reproduce the following phenomena: When two pedestrians travel on crossing paths, (a) their interaction is sensitive to initial asymmetries, and (b) based on which, they rapidly resolve collision conflict by adapting their behaviors. When a pedestrian crosses the road while facing an approaching car, (c) either road user yields to the other to resolve their conflict, akin to the pedestrian interaction, and (d) the outcome reveals a specific situational kinematics, associated with the nature of vehicle acceleration. We show that these phenomena emerge naturally from our modeling framework when the model can evolve its parameters as a consequence of the situations. We believe that the modeling framework and phenomenon-centered analysis offer promising tools to understand road user interactions. We conclude with a discussion on how the model can be instrumental in studying the safety-critical situations when including other variables in road-user interactions.
翻訳日:2021-10-22 17:34:23 公開日:2021-10-21
# スケーラブルな探索のための反集中型信頼ボーナス

Anti-Concentrated Confidence Bonuses for Scalable Exploration ( http://arxiv.org/abs/2110.11202v1 )

ライセンス: Link先を確認
Jordan T. Ash, Cyril Zhang, Surbhi Goel, Akshay Krishnamurthy, Sham Kakade(参考訳) 内在的な報酬は、基礎理論と最先端の深層強化学習の両方において、シーケンシャルな意思決定アルゴリズムを設計する際の探索と探索のトレードオフを扱う上で中心的な役割を果たす。 LinUCBアルゴリズムは確率線形バンドイット文学の中心であり、大きなアクション空間における共有情報の活用という課題に対処する楕円ボーナスを規定する。 このボーナススキームは高次元探索問題に直接転送することはできないが、作用特徴の逆共分散行列を維持する計算コストのためである。 本稿では,政策ネットワークの特徴からランダムノイズを予測できるレグレッシャのアンサンブルを用いて,効率良く楕円ボーナスの近似を行うために,emph{anti-concentrating confidence bounds}を導入する。 この近似を用いて、確率線形バンディットアルゴリズムを求め、$\tilde O(d \sqrt{T})$ regret bounds for $\mathrm{poly}(d)$ fixed actionsを得る。 我々は,Atariベンチマーク上での現代の固有報酬ヒューリスティックと競合する,深層強化学習のための実用的変種を開発する。

Intrinsic rewards play a central role in handling the exploration-exploita tion trade-off when designing sequential decision-making algorithms, in both foundational theory and state-of-the-art deep reinforcement learning. The LinUCB algorithm, a centerpiece of the stochastic linear bandits literature, prescribes an elliptical bonus which addresses the challenge of leveraging shared information in large action spaces. This bonus scheme cannot be directly transferred to high-dimensional exploration problems, however, due to the computational cost of maintaining the inverse covariance matrix of action features. We introduce \emph{anti-concentrated confidence bounds} for efficiently approximating the elliptical bonus, using an ensemble of regressors trained to predict random noise from policy network-derived features. Using this approximation, we obtain stochastic linear bandit algorithms which obtain $\tilde O(d \sqrt{T})$ regret bounds for $\mathrm{poly}(d)$ fixed actions. We develop a practical variant for deep reinforcement learning that is competitive with contemporary intrinsic reward heuristics on Atari benchmarks.
翻訳日:2021-10-22 17:34:01 公開日:2021-10-21
# アクター批判は暗黙的に高エントロピー最適ポリシーに偏っている

Actor-critic is implicitly biased towards high entropy optimal policies ( http://arxiv.org/abs/2110.11280v1 )

ライセンス: Link先を確認
Yuzheng Hu, Ziwei Ji, Matus Telgarsky(参考訳) 我々は,最も単純なアクタ・クリティックな手法である線形mdpとの相互作用によりtdで更新されるリニア・ソフトマックス・ポリシーは,単に最適なポリシーを見つけるだけでなく,高いエントロピーの最適ポリシーを好むことを示した。 このバイアスの強さを示すために、アルゴリズムは正規化もプロジェクションも行わず、$\epsilon$-greedyのような探索も行わない。 高いエントロピーバイアスの鍵となる結果は、全ての先行研究において何らかの形で存在するMDP上の均一な混合仮定を下げることである: 高いエントロピーバイアスの暗黙の正規化は、すべての連鎖と最適なポリシーが高い確率で混合されることを保証するのに十分である。 補助的な貢献として、アクター更新を明示的なミラー降下として記述することでアクターと批評家の懸念を分離し、ポリシー空間のKL球内での混合時間を均一に拘束するツールを提供し、未混合開始分布から実行できる独自の暗黙のバイアスを持つプロジェクションフリーなTD分析を提供する。

We show that the simplest actor-critic method -- a linear softmax policy updated with TD through interaction with a linear MDP, but featuring no explicit regularization or exploration -- does not merely find an optimal policy, but moreover prefers high entropy optimal policies. To demonstrate the strength of this bias, the algorithm not only has no regularization, no projections, and no exploration like $\epsilon$-greedy, but is moreover trained on a single trajectory with no resets. The key consequence of the high entropy bias is that uniform mixing assumptions on the MDP, which exist in some form in all prior work, can be dropped: the implicit regularization of the high entropy bias is enough to ensure that all chains mix and an optimal policy is reached with high probability. As auxiliary contributions, this work decouples concerns between the actor and critic by writing the actor update as an explicit mirror descent, provides tools to uniformly bound mixing times within KL balls of policy space, and provides a projection-free TD analysis with its own implicit bias which can be run from an unmixed starting distribution.
翻訳日:2021-10-22 17:33:39 公開日:2021-10-21
# オフライン・オンライン強化学習とゴール認識状態情報による効率的なロボットマニピュレーション

Efficient Robotic Manipulation Through Offline-to-Online Reinforcement Learning and Goal-Aware State Information ( http://arxiv.org/abs/2110.10905v1 )

ライセンス: Link先を確認
Jin Li, Xianyuan Zhan, Zixu Xiao, Guyue Zhou(参考訳) データ効率の高いエンドツーエンドの学習ロボット操作は、ロボティクスの重要な課題の1つだ。 人間の実演データと教師なし表現学習を利用する最新の手法は、RL学習効率を向上させるための有望な方向であることが証明されている。 デモデータを使用することで、模倣学習や最近登場したオフライン強化学習アルゴリズムを使用したオフラインデータを使用したRLポリシの“ウォーミングアップ”が可能になる。 しかしながら、既存の作業では、オフラインポリシの学習とオンライン探索を2つのプロセスとして扱うことが多く、オフラインからオンラインへの移行時にパフォーマンスが低下することが多い。 さらに、多くのロボット操作タスクには複雑なサブタスク構造が含まれており、スパース報酬でRLで解決することが非常に困難である。 そこで本研究では,トランジッション性能低下を解消するオフライン-オフラインRLフレームワークを提案する。 さらに,RLエージェントに目標認識状態情報を導入し,タスクの複雑さを大幅に低減し,政策学習を加速させる。 高度な教師なし表現学習モジュールと組み合わせることで,ロボット操作タスクにおける最先端手法と比較して,優れたトレーニング効率と性能を実現する。

End-to-end learning robotic manipulation with high data efficiency is one of the key challenges in robotics. The latest methods that utilize human demonstration data and unsupervised representation learning has proven to be a promising direction to improve RL learning efficiency. The use of demonstration data also allows "warming-up" the RL policies using offline data with imitation learning or the recently emerged offline reinforcement learning algorithms. However, existing works often treat offline policy learning and online exploration as two separate processes, which are often accompanied by severe performance drop during the offline-to-online transition. Furthermore, many robotic manipulation tasks involve complex sub-task structures, which are very challenging to be solved in RL with sparse reward. In this work, we propose a unified offline-to-online RL framework that resolves the transition performance drop issue. Additionally, we introduce goal-aware state information to the RL agent, which can greatly reduce task complexity and accelerate policy learning. Combined with an advanced unsupervised representation learning module, our framework achieves great training efficiency and performance compared with the state-of-the-art methods in multiple robotic manipulation tasks.
翻訳日:2021-10-22 17:30:36 公開日:2021-10-21
# PipAttack: アイテムプロモーションのためのフェデレーションレコメンダシステム

PipAttack: Poisoning Federated Recommender Systems forManipulating Item Promotion ( http://arxiv.org/abs/2110.10926v1 )

ライセンス: Link先を確認
Shijie Zhang and Hongzhi Yin and Tong Chen and Zi Huang and Quoc Viet Hung Nguyen and Lizhen Cui(参考訳) プライバシーの懸念が高まっているため、分散化はパーソナライズされたサービス、特にレコメンデーションに急速に現れる。 また、近年の研究では、集中型モデルは毒殺攻撃に対して脆弱であり、その整合性を損なうことが示されている。 推薦システムの文脈では、このような中毒攻撃の典型的な目標は、トレーニングデータセットや/またはプロセスに干渉することによって敵のターゲットアイテムを促進することである。 これにより、すべてのユーザデバイスが、すべての機密データをローカルに保持しながら、グローバルなレコメンダを共同学習することが可能になる。 エンドユーザにレコメンデータとデータセット全体の知識を公開せずに、このようなフェデレートされたレコメンデーションは、攻撃に対する‘安全’と広く見なされている。 そこで本稿では,対象商品の促進を目的としたフェデレーションレコメンデータシステムへの体系的アプローチを提案する。 中心的な戦略は、データ駆動型レコメンダに共通に存在する固有の人気バイアスを活用することである。 人気アイテムはレコメンデーションリストに表示されやすいため、我々の革新的なデザインのアタックモデルは、ターゲットアイテムに埋め込みスペースにおける人気アイテムの特徴を持たせることができる。 そして、モデル更新中に少数の悪意のあるユーザを通じて慎重に作成した勾配をアップロードすることで、結果のフェデレーションレコメンデータ内のターゲット(不人気)項目の露出率を効果的に増加させることができる。 2つの実世界のデータセットによる評価 1) 攻撃モデルは, 毒殺勧告者の精度を損なうことなく, ターゲット項目の被曝率をステルス的に著しく向上させる。 2)既存の防御は十分に効果的ではなく,フェデレーションドレコメンダシステムに対するローカルモデル中毒攻撃に対する新たな防御の必要性を浮き彫りにしている。

Due to the growing privacy concerns, decentralization emerges rapidly in personalized services, especially recommendation. Also, recent studies have shown that centralized models are vulnerable to poisoning attacks, compromising their integrity. In the context of recommender systems, a typical goal of such poisoning attacks is to promote the adversary's target items by interfering with the training dataset and/or process. Hence, a common practice is to subsume recommender systems under the decentralized federated learning paradigm, which enables all user devices to collaboratively learn a global recommender while retaining all the sensitive data locally. Without exposing the full knowledge of the recommender and entire dataset to end-users, such federated recommendation is widely regarded `safe' towards poisoning attacks. In this paper, we present a systematic approach to backdooring federated recommender systems for targeted item promotion. The core tactic is to take advantage of the inherent popularity bias that commonly exists in data-driven recommenders. As popular items are more likely to appear in the recommendation list, our innovatively designed attack model enables the target item to have the characteristics of popular items in the embedding space. Then, by uploading carefully crafted gradients via a small number of malicious users during the model update, we can effectively increase the exposure rate of a target (unpopular) item in the resulted federated recommender. Evaluations on two real-world datasets show that 1) our attack model significantly boosts the exposure rate of the target item in a stealthy way, without harming the accuracy of the poisoned recommender; and 2) existing defenses are not effective enough, highlighting the need for new defenses against our local model poisoning attacks to federated recommender systems.
翻訳日:2021-10-22 17:30:19 公開日:2021-10-21
# G\"odel's Ontological Proofにおける二階量子化器除去の適用

Applying Second-Order Quantifier Elimination in Inspecting G\"odel's Ontological Proof ( http://arxiv.org/abs/2110.11108v1 )

ライセンス: Link先を確認
Christoph Wernhard(参考訳) 近年、g\"odelのオントロジな証明とバリエーションは、様々な方法で自動化されたツールで形式化され、分析された。 述語量化によって拡張された一階述語論理に基づく自動環境でのモデリングにより,これらの分析を補完する。 式マクロは複雑な式やタスクを構成するために使われる。 この分析は、非公式な説明と、一階定理証明と二階量子化器除去のための推論器の出力とが混在する生成されたタイプセット文書として提示される。 以前は、G\"odel's proof の未確認あるいは曖昧な側面や詳細は明らかである。 第2次量子化子除去の実用的な応用可能性を示し、遭遇した除去タスクがベンチマークとして機能する可能性がある。

In recent years, G\"odel's ontological proof and variations of it were formalized and analyzed with automated tools in various ways. We supplement these analyses with a modeling in an automated environment based on first-order logic extended by predicate quantification. Formula macros are used to structure complex formulas and tasks. The analysis is presented as a generated type-set document where informal explanations are interspersed with pretty-printed formulas and outputs of reasoners for first-order theorem proving and second-order quantifier elimination. Previously unnoticed or obscured aspects and details of G\"odel's proof become apparent. Practical application possibilities of second-order quantifier elimination are shown and the encountered elimination tasks may serve as benchmarks.
翻訳日:2021-10-22 17:29:48 公開日:2021-10-21
# 提案するai法に基づく説明可能性評価のための方法と指標に関する調査

A Survey on Methods and Metrics for the Assessment of Explainability under the Proposed AI Act ( http://arxiv.org/abs/2110.11168v1 )

ライセンス: Link先を確認
Francesco Sovrano, Salvatore Sapienza, Monica Palmirani, Fabio Vitali(参考訳) 本研究では、AIシステムの説明可能性を測定するために使用されるメトリクスと、提案するEU人工知能法との間の相互作用について論じる。 標準化プロセスが進行中で、いくつかのエンティティ(isoなど)や学者が、今後の法律に準拠したシステムの設計方法や説明可能性メトリクスが重要な役割を果たしている。 この研究は、そのようなメトリクスがAI法へのコンプライアンスを容易にするために持つべき要件を特定する。 これは学際的なアプローチ、すなわち説明可能性という哲学的な概念から離れ、提案されたai法によって設定された説明可能性義務のレンズを通して学者や標準化団体によって提案されたいくつかの指標について議論することで行われる。 提案するai法が支持する説明可能性を測定する指標は,リスク重視,モデル非依存,目標認識,知性,アクセス性を有するものとする。 これが、現在議論中のメトリクスによって、これらの要件がどの程度満たされているかを議論する理由です。

This study discusses the interplay between metrics used to measure the explainability of the AI systems and the proposed EU Artificial Intelligence Act. A standardisation process is ongoing: several entities (e.g. ISO) and scholars are discussing how to design systems that are compliant with the forthcoming Act and explainability metrics play a significant role. This study identifies the requirements that such a metric should possess to ease compliance with the AI Act. It does so according to an interdisciplinary approach, i.e. by departing from the philosophical concept of explainability and discussing some metrics proposed by scholars and standardisation entities through the lenses of the explainability obligations set by the proposed AI Act. Our analysis proposes that metrics to measure the kind of explainability endorsed by the proposed AI Act shall be risk-focused, model-agnostic, goal-aware, intelligible & accessible. This is why we discuss the extent to which these requirements are met by the metrics currently under discussion.
翻訳日:2021-10-22 17:29:36 公開日:2021-10-21
# 概念関連興味度尺度を用いた重要パターンの検出

Detecting Important Patterns Using Conceptual Relevance Interestingness Measure ( http://arxiv.org/abs/2110.11262v1 )

ライセンス: Link先を確認
Mohamed-Hamza Ibrahim, Rokia Missaoui and Jean Vaillancourt(参考訳) 意味のある概念構造の発見は、データマイニングと知識発見のアプリケーションにおいて重要なタスクである。 形式的概念分析で定義されている既定の興味深い指標は、いくつかの状況において効果的な妥当性評価を提供するが、大規模な形式的文脈(および概念格子)と無関係な概念の存在において、しばしば不適切な結果を与える。 本稿では,概念関連性(CR)スコア(Conceptual Relevance:概念関連性(CR)スコア)について紹介する。 概念的な観点から、最小限のジェネレータは、関連する概念意図に関する重要な情報を提供する。 さらに、概念の関連する属性は、その閉包条件の満足度を維持するものである。 したがって、CRの指導的考え方は、最小限のジェネレータと関連する属性が概念の関連性を評価するために効率的に使用できるという事実を利用する。 ゆえに、crインデックスは概念的に関連する属性の量と概念の意図ごとの最小限のジェネレータの数の両方を定量化する。 合成および実世界のデータセットに関する我々の実験は、よく知られた安定性指標よりも、この測定の効率性を示している。

Discovering meaningful conceptual structures is a substantial task in data mining and knowledge discovery applications. While off-the-shelf interestingness indices defined in Formal Concept Analysis may provide an effective relevance evaluation in several situations, they frequently give inadequate results when faced with massive formal contexts (and concept lattices), and in the presence of irrelevant concepts. In this paper, we introduce the Conceptual Relevance (CR) score, a new scalable interestingness measurement for the identification of actionable concepts. From a conceptual perspective, the minimal generators provide key information about their associated concept intent. Furthermore, the relevant attributes of a concept are those that maintain the satisfaction of its closure condition. Thus, the guiding idea of CR exploits the fact that minimal generators and relevant attributes can be efficiently used to assess concept relevance. As such, the CR index quantifies both the amount of conceptually relevant attributes and the number of the minimal generators per concept intent. Our experiments on synthetic and real-world datasets show the efficiency of this measure over the well-known stability index.
翻訳日:2021-10-22 17:29:18 公開日:2021-10-21
# (参考訳) twitter上の反ワクチンユーザを検出するpythonパッケージ [全文訳有]

A Python Package to Detect Anti-Vaccine Users on Twitter ( http://arxiv.org/abs/2110.11333v1 )

ライセンス: CC BY-SA 4.0
Matheus Schmitz, Goran Muri\'c, Keith Burghardt(参考訳) ワクチン中毒は長い歴史があるが、最近はオンラインでシェアされた抗ワクチンの物語によって引き起こされ、新型コロナウイルスなどの予防接種戦略の有効性は著しく低下している。 利用可能なワクチンの安全性と有効性に関する医療界の幅広い合意にもかかわらず、多くのソーシャルメディア利用者はワクチンに関する虚偽の情報に没頭し続けており、その原因の一部はワクチン接種に消極的あるいは望ましくないものになった。 本研究の目的は、抗ワクチンの感情をよりよく理解し、抗ワクチンの物語を広める責任のあるユーザーを自動的に識別できるシステムを開発することである。 私たちは、twitterのプロファイルを分析して、プロファイルが将来反ワクチン感情を広める可能性を評価することのできる、一般公開されたpythonパッケージを紹介します。 ソフトウェアパッケージは、テキスト埋め込み方法、ニューラルネットワーク、自動データセット生成を使用して構築されている。 10万以上のアカウントと数百万のツイートでトレーニングされている。 このモデルは、研究者や政策立案者が反ワクチンの議論や誤った情報戦略を理解するのに役立つ。 さらに,このような利用者のデータを利用して,抗ワクチンスプレッドラーの道徳的・感情的な特徴を理解する。

Vaccine hesitancy has a long history but has been recently driven by the anti-vaccine narratives shared online, which significantly degrades the efficacy of vaccination strategies, such as those for COVID-19. Despite broad agreement in the medical community about the safety and efficacy of available vaccines, a large number of social media users continue to be inundated with false information about vaccines and, partly because of this, became indecisive or unwilling to be vaccinated. The goal of this study is to better understand anti-vaccine sentiment, and work to reduce its impact, by developing a system capable of automatically identifying the users responsible for spreading anti-vaccine narratives. We introduce a publicly available Python package capable of analyzing Twitter profiles to assess how likely that profile is to spread anti-vaccine sentiment in the future. The software package is built using text embedding methods, neural networks, and automated dataset generation. It is trained on over one hundred thousand accounts and several million tweets. This model will help researchers and policy-makers understand anti-vaccine discussion and misinformation strategies, which can further help tailor targeted campaigns seeking to inform and debunk the harmful anti-vaccination myths currently being spread. Additionally, we leverage the data on such users to understand what are the moral and emotional characteristics of anti-vaccine spreaders.
翻訳日:2021-10-22 17:27:24 公開日:2021-10-21
# マルチドメイン画像翻訳のための生成逆ネットワークを考慮したドメインギャップ

A Domain Gap Aware Generative Adversarial Network for Multi-domain Image Translation ( http://arxiv.org/abs/2110.10837v1 )

ライセンス: Link先を確認
Wenju Xu and Guanghui Wang(参考訳) 最近の画像から画像への変換モデルは、2つのドメイン間の局所的なテクスチャのマッピングにおいて大きな成功を収めている。 既存のアプローチは、ジェネレータが逆写像を学ぶのを監督するサイクルコンシスタンス制約に依存している。 しかし、逆写像を学ぶことは余分な訓練可能なパラメータをもたらし、いくつかの領域の逆写像を学べない。 結果として、それらはシナリオにおいて効果がない。 i)複数の視覚画像領域が関与している。 (ii)構造とテクスチャの変換が必要である。 (iii)意味一貫性が保存される。 これらの課題を解決するため,本稿では,複数の領域にまたがる画像の翻訳モデルを提案する。 生成元をユビキタスなサイクル一貫性制約で制約する従来のモデルとは異なり、提案モデルは知覚的自己規則化制約を用いる。 単一の統一ジェネレータにより、モデルはグローバルな形状と複数のドメインにわたる局所的なテクスチャ情報の一貫性を維持することができる。 広範囲な質的定量的評価は最先端モデルの有効性と優れた性能を示している。 複数の領域にまたがる大きなデータセット変動を伴う挑戦的なマッピングにおいて、形状変形を表現するのがより効果的である。

Recent image-to-image translation models have shown great success in mapping local textures between two domains. Existing approaches rely on a cycle-consistency constraint that supervises the generators to learn an inverse mapping. However, learning the inverse mapping introduces extra trainable parameters and it is unable to learn the inverse mapping for some domains. As a result, they are ineffective in the scenarios where (i) multiple visual image domains are involved; (ii) both structure and texture transformations are required; and (iii) semantic consistency is preserved. To solve these challenges, the paper proposes a unified model to translate images across multiple domains with significant domain gaps. Unlike previous models that constrain the generators with the ubiquitous cycle-consistency constraint to achieve the content similarity, the proposed model employs a perceptual self-regularization constraint. With a single unified generator, the model can maintain consistency over the global shapes as well as the local texture information across multiple domains. Extensive qualitative and quantitative evaluations demonstrate the effectiveness and superior performance over state-of-the-art models. It is more effective in representing shape deformation in challenging mappings with significant dataset variation across multiple domains.
翻訳日:2021-10-22 17:15:24 公開日:2021-10-21
# クラス識別型CNN圧縮

Class-Discriminative CNN Compression ( http://arxiv.org/abs/2110.10864v1 )

ライセンス: Link先を確認
Yuchen Liu, David Wentzlaff, S.Y. Kung(参考訳) 刈り込みと蒸留による畳み込みニューラルネットワーク(CNN)の圧縮は、コミュニティで常に注目されている。 特に、クラス差別に基づくアプローチの設計は、cnnsのトレーニング目標にシームレスに適合するため望ましい。 本稿では,CNNのトレーニング目標を達成するために,プルーニングと蒸留の両方でクラス識別を注入するクラス識別圧縮(CDC)を提案する。 まず, チャネルプルーニングにおける識別関数群の有効性について検討し, 学生のt-testのような一変量二進数統計を, 直感的一般化を用いて検討した。 次に,新しい階層適応型階層型プルーニング手法を提案し,初期層には粗いクラス識別方式,後期層には細かなクラス識別方式を提案する。 この方法は、cnnが初期の層で粗い意味論を処理し、後で細かい概念を抽出するという事実と自然に一致する。 さらに,識別成分分析(DCA)を利用して,識別情報の豊富な部分空間における中間表現の知識を抽出し,隠れ層の線形分離性と学生の分類精度を高める。 CIFAR と ILSVRC 2012 でプルーニングと蒸留を併用してCDC の評価を行った。

Compressing convolutional neural networks (CNNs) by pruning and distillation has received ever-increasing focus in the community. In particular, designing a class-discrimination based approach would be desired as it fits seamlessly with the CNNs training objective. In this paper, we propose class-discriminative compression (CDC), which injects class discrimination in both pruning and distillation to facilitate the CNNs training goal. We first study the effectiveness of a group of discriminant functions for channel pruning, where we include well-known single-variate binary-class statistics like Student's T-Test in our study via an intuitive generalization. We then propose a novel layer-adaptive hierarchical pruning approach, where we use a coarse class discrimination scheme for early layers and a fine one for later layers. This method naturally accords with the fact that CNNs process coarse semantics in the early layers and extract fine concepts at the later. Moreover, we leverage discriminant component analysis (DCA) to distill knowledge of intermediate representations in a subspace with rich discriminative information, which enhances hidden layers' linear separability and classification accuracy of the student. Combining pruning and distillation, CDC is evaluated on CIFAR and ILSVRC 2012, where we consistently outperform the state-of-the-art results.
翻訳日:2021-10-22 17:15:07 公開日:2021-10-21
# LC3Net:有意物体検出のためのラダーコンテキスト相関補完ネットワーク

LC3Net: Ladder context correlation complementary network for salient object detection ( http://arxiv.org/abs/2110.10869v1 )

ライセンス: Link先を確認
Xian Fang and Jinchao Zhu and Xiuli Shao and Hongpeng Wang(参考訳) 現在,畳み込みニューラルネットワークに基づく有能な物体検出手法では,高次・低次特徴を集約する識別ネットワークの構築が一般的である。 しかし、コンテキスト情報は必ずしも完全かつ合理的に利用されないため、通常、有用な特徴の欠如や冗長な特徴の汚染を引き起こす。 これらの課題に対処するために,3つの重要なコンポーネントを備えた新しいラダーコンテキスト相関補完ネットワーク (LC3Net) を提案する。 まず,初期特徴の多様性に関する情報の自動収集を支援するため,フィルタ可能な畳み込みブロック(FCB)を提案する。 さらに,隣接層と非隣接層の両方のセマンティック情報と詳細情報を有効に統合することにより,特徴量の密集化を容易にする密接なクロスモジュール(DCM)を提案する。 さらに,複数対の交代型トップダウンおよびボトムアップ機能間相互作用フローを活用することで,マルチスケール特徴の粗大化から微細化の進行的縮小を支援する双方向圧縮デコーダ(BCD)を提案する。 大規模実験により16種類の最先端手法に対する本手法の優位性を実証した。

Currently, existing salient object detection methods based on convolutional neural networks commonly resort to constructing discriminative networks to aggregate high level and low level features. However, contextual information is always not fully and reasonably utilized, which usually causes either the absence of useful features or contamination of redundant features. To address these issues, we propose a novel ladder context correlation complementary network (LC3Net) in this paper, which is equipped with three crucial components. At the beginning, we propose a filterable convolution block (FCB) to assist the automatic collection of information on the diversity of initial features, and it is simple yet practical. Besides, we propose a dense cross module (DCM) to facilitate the intimate aggregation of different levels of features by validly integrating semantic information and detailed information of both adjacent and non-adjacent layers. Furthermore, we propose a bidirectional compression decoder (BCD) to help the progressive shrinkage of multi-scale features from coarse to fine by leveraging multiple pairs of alternating top-down and bottom-up feature interaction flows. Extensive experiments demonstrate the superiority of our method against 16 state-of-the-art methods.
翻訳日:2021-10-22 17:14:44 公開日:2021-10-21
# HENet:ネットワークにフォント認識をより深く考えるよう強制する

HENet: Forcing a Network to Think More for Font Recognition ( http://arxiv.org/abs/2110.10872v1 )

ライセンス: Link先を確認
Jingchao Chen, Shiyi Mu, Shugong Xu, Youdong Ding(参考訳) 近年、テキスト認識/ocrでは多くの進歩が見られたが、フォント認識の課題は依然として困難である。 主な課題は、これらの類似フォント間の微妙な違いであり、区別が難しいことである。 本稿では,フォント認識タスクを解決するプラグインモジュールを備えた新しいフォント認識器を提案する。 プラグイン可能なモジュールは最も識別しやすい機能を隠蔽し、他の複雑な機能を考慮させ、HEブロックと呼ばれる類似フォントの難しい例を解決する。 利用可能なフォント認識システムと比較して,提案手法は推論段階での相互作用を必要としない。 HENetは文字レベルのデータセットExplore_allや単語レベルのデータセットであるAdobeVFRなど、高いパフォーマンスを実現している。

Although lots of progress were made in Text Recognition/OCR in recent years, the task of font recognition is remaining challenging. The main challenge lies in the subtle difference between these similar fonts, which is hard to distinguish. This paper proposes a novel font recognizer with a pluggable module solving the font recognition task. The pluggable module hides the most discriminative accessible features and forces the network to consider other complicated features to solve the hard examples of similar fonts, called HE Block. Compared with the available public font recognition systems, our proposed method does not require any interactions at the inference stage. Extensive experiments demonstrate that HENet achieves encouraging performance, including on character-level dataset Explor_all and word-level dataset AdobeVFR
翻訳日:2021-10-22 17:14:24 公開日:2021-10-21
# 伝達可能なプルーニング関数の進化

Evolving Transferable Pruning Functions ( http://arxiv.org/abs/2110.10876v1 )

ライセンス: Link先を確認
Yuchen Liu, S.Y. Kung, David Wentzlaff(参考訳) チャネルプルーニングは効率的なディープラーニングモデルの設計において大きな一歩を踏み出した。 従来のアプローチでは、チャネルのプルーニングの重要性を評価するために人為的なプルーニング機能を採用していた。 本研究では,強い刈り取り量を自動的に検出するエンドツーエンドフレームワークを提案する。 具体的には, プランニング関数を表現し, 進化戦略である遺伝的プログラミングを活用し, 高品質で転送可能なプランニング関数を進化させる新しい設計空間を構築する。 従来の手法とは異なり,提案手法は,効率的な推論のためにコンパクトなプルーニングネットワークを提供するだけでなく,数学的に説明可能で異なるプルーニングタスクに一般化可能な新しいクローズドフォームプルーニングメトリクスを提供することができる。 この進化は小さなデータセット上で行われ、学習された関数は手動で修正することなくより大きなデータセットに転送可能である。 大規模なデータセット上での直接進化と比較して、我々の戦略はコスト効率が良い。 ILSVRC-2012のような進化過程で使われるものとは異なる、より困難なデータセットに適用すると、進化した関数は最先端のプルーニング結果を達成する。

Channel pruning has made major headway in the design of efficient deep learning models. Conventional approaches adopt human-made pruning functions to score channels' importance for channel pruning, which requires domain knowledge and could be sub-optimal. In this work, we propose an end-to-end framework to automatically discover strong pruning metrics. Specifically, we craft a novel design space for expressing pruning functions and leverage an evolution strategy, genetic programming, to evolve high-quality and transferable pruning functions. Unlike prior methods, our approach can not only provide compact pruned networks for efficient inference, but also novel closed-form pruning metrics that are mathematically explainable and thus generalizable to different pruning tasks. The evolution is conducted on small datasets while the learned functions are transferable to larger datasets without any manual modification. Compared to direct evolution on a large dataset, our strategy shows better cost-effectiveness. When applied to more challenging datasets, different from those used in the evolution process, e.g., ILSVRC-2012, an evolved function achieves state-of-the-art pruning results.
翻訳日:2021-10-22 17:14:13 公開日:2021-10-21
# LARNet:人間行動合成のための潜在行動表現

LARNet: Latent Action Representation for Human Action Synthesis ( http://arxiv.org/abs/2110.10899v1 )

ライセンス: Link先を確認
Naman Biyani, Aayush J Rana, Shruti Vyas, Yogesh S Rawat(参考訳) 我々は、人間のアクションビデオを生成するための新しいエンドツーエンドアプローチであるLARNetを提案する。 映像合成のための外観とダイナミクスの合同生成モデルは非常に困難であり、ビデオ合成における最近の研究はこれら2つの因子を分解することを提案した。 しかし、これらの手法は動画力学をモデル化するために駆動ビデオを必要とする。 本研究では,推論中に動画を再生する必要をなくし,潜在空間における動作ダイナミクスを明示的に学習する生成手法を提案する。 生成したアクションダイナミクスは、異なるスケールでの動きを、粗さと細かなレベルのアクション詳細の両方に集中させる反復的な階層構造を用いて、外観と統合される。 さらに,合成ビデオの時間的コヒーレンシー向上を目的とした,新しい混合対逆損失関数を提案する。 提案手法の有効性を実証した4つの実世界の人間行動データセットに対する提案手法の評価を行った。 コードとモデルは公開される予定だ。

We present LARNet, a novel end-to-end approach for generating human action videos. A joint generative modeling of appearance and dynamics to synthesize a video is very challenging and therefore recent works in video synthesis have proposed to decompose these two factors. However, these methods require a driving video to model the video dynamics. In this work, we propose a generative approach instead, which explicitly learns action dynamics in latent space avoiding the need of a driving video during inference. The generated action dynamics is integrated with the appearance using a recurrent hierarchical structure which induces motion at different scales to focus on both coarse as well as fine level action details. In addition, we propose a novel mix-adversarial loss function which aims at improving the temporal coherency of synthesized videos. We evaluate the proposed approach on four real-world human action datasets demonstrating the effectiveness of the proposed approach in generating human actions. The code and models will be made publicly available.
翻訳日:2021-10-22 17:13:52 公開日:2021-10-21
# 物体検出に基づく超疎点雲の高速位置推定アルゴリズム

A Fast Location Algorithm for Very Sparse Point Clouds Based on Object Detection ( http://arxiv.org/abs/2110.10901v1 )

ライセンス: Link先を確認
Shiyu Fan(参考訳) 性能要因によって制限されているため、ターゲットオブジェクトを認識して、特に単眼カメラを使用するローエンドモバイルデバイス上の拡張現実(AR)シーンに配置することは困難である。 本稿では,特徴点の少ない状況下で,画像オブジェクト検出によって対象物体を素早く検出できるアルゴリズムを提案する。 本アルゴリズムでは,可能な点をフィルタリングするオブジェクト検出モジュールとしてYOLOv3-Tinyを導入し,主成分分析(PCA)を用いて位置を決定する。 スマートフォンを持って手動で設計したシーンで実験を行い,提案手法の高精度な位置決め速度と精度を示す。

Limited by the performance factor, it is arduous to recognize target object and locate it in Augmented Reality (AR) scenes on low-end mobile devices, especially which using monocular cameras. In this paper, we proposed an algorithm which can quickly locate the target object through image object detection in the circumstances of having very sparse feature points. We introduce YOLOv3-Tiny to our algorithm as the object detection module to filter the possible points and using Principal Component Analysis (PCA) to determine the location. We conduct the experiment in a manually designed scene by holding a smartphone and the results represent high positioning speed and accuracy of our method.
翻訳日:2021-10-22 17:12:49 公開日:2021-10-21
# セマンティックセグメンテーションのための教師なし領域適応における画素間相関の爆発

Exploiting Inter-pixel Correlations in Unsupervised Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2110.10916v1 )

ライセンス: Link先を確認
Inseop Chung, Jayeon Yoo, Nojun Kwak(参考訳) 自己学習」は、教師なしドメイン適応(UDA)によるセマンティックセグメンテーションの主流となっている。 明示的な監督を与えるために、ターゲットドメインの擬似ラベルのセットを生成する。 しかし、擬似ラベルはノイズが多く、スパースであり、画素間相関に関する情報を提供していない。 意味セグメンテーションは高度に構造化された画素レベルの出力を予測するタスクであるため,画素間相関は非常に重要である。 そこで本稿では,本研究では,自己アテンションモジュールを用いて,画素間相関関係をソースドメインからターゲットドメインに転送する方法を提案する。 このモジュールはセグメンテーションネットワークの予測を入力として、類似のピクセルを関連付ける自己修正予測を生成する。 モジュールはソースドメインでのみトレーニングされ、ドメイン不変の画素間相関を学習し、その後、ターゲットドメイン上のセグメンテーションネットワークをトレーニングするために使用される。 ネットワークは疑似ラベルからだけでなく、ピクセル間の相関に関する追加の知識を提供するセルフアテンションモジュールの出力にも従って学習する。 広範にわたる実験により,本手法は2つの標準UDAベンチマークの性能を著しく向上させるとともに,最新の最先端手法と組み合わせて性能向上を図ることができることを示した。

"Self-training" has become a dominant method for semantic segmentation via unsupervised domain adaptation (UDA). It creates a set of pseudo labels for the target domain to give explicit supervision. However, the pseudo labels are noisy, sparse and do not provide any information about inter-pixel correlations. We regard inter-pixel correlation quite important because semantic segmentation is a task of predicting highly structured pixel-level outputs. Therefore, in this paper, we propose a method of transferring the inter-pixel correlations from the source domain to the target domain via a self-attention module. The module takes the prediction of the segmentation network as an input and creates a self-attended prediction that correlates similar pixels. The module is trained only on the source domain to learn the domain-invariant inter-pixel correlations, then later, it is used to train the segmentation network on the target domain. The network learns not only from the pseudo labels but also by following the output of the self-attention module which provides additional knowledge about the inter-pixel correlations. Through extensive experiments, we show that our method significantly improves the performance on two standard UDA benchmarks and also can be combined with recent state-of-the-art method to achieve better performance.
翻訳日:2021-10-22 17:12:37 公開日:2021-10-21
# クラス認識選択的損失を用いた部分アノテーションによるマルチラベル分類

Multi-label Classification with Partial Annotations using Class-aware Selective Loss ( http://arxiv.org/abs/2110.10955v1 )

ライセンス: Link先を確認
Emanuel Ben-Baruch, Tal Ridnik, Itamar Friedman, Avi Ben-Cohen, Nadav Zamir, Asaf Noy, Lihi Zelnik-Manor(参考訳) 大規模マルチラベル分類データセットは一般的に、おそらく必然的に部分的に注釈付けされている。 つまり、サンプル毎にアノテートされるラベルの小さなサブセットのみである。 欠落ラベルを扱うための異なる方法は、モデルに異なる特性を誘導し、その正確性に影響を与える。 本研究では, 部分ラベリング問題を分析し, 2つの重要なアイデアに基づく解を提案する。 まず、注釈のないラベルは、データセット全体のクラス分布と与えられたデータサンプルの特定のラベル確率の2つの確率量に応じて選択的に扱うべきである。 本稿では,専用仮モデルを用いてクラス分布を推定する方法を提案し,データセットの部分的アノテーションを用いて計算したナイーブ推定よりもその効率性が向上することを示す。 第2に,対象モデルのトレーニング中に,無記名ラベルに対する無記名ラベルの寄与を,専用非対称損失を用いて強調する。 われわれの新しいアプローチでは、OpenImagesデータセット(例えばV6で87.3 mAPに達するなど)で最先端の結果が得られる。 さらに, LVIS と simulated-COCO を用いて実験を行い, 本手法の有効性を示した。 コードはhttps://github.com/A libaba-MIIL/PartialL abelingCSLで公開されている。

Large-scale multi-label classification datasets are commonly, and perhaps inevitably, partially annotated. That is, only a small subset of labels are annotated per sample. Different methods for handling the missing labels induce different properties on the model and impact its accuracy. In this work, we analyze the partial labeling problem, then propose a solution based on two key ideas. First, un-annotated labels should be treated selectively according to two probability quantities: the class distribution in the overall dataset and the specific label likelihood for a given data sample. We propose to estimate the class distribution using a dedicated temporary model, and we show its improved efficiency over a naive estimation computed using the dataset's partial annotations. Second, during the training of the target model, we emphasize the contribution of annotated labels over originally un-annotated labels by using a dedicated asymmetric loss. With our novel approach, we achieve state-of-the-art results on OpenImages dataset (e.g. reaching 87.3 mAP on V6). In addition, experiments conducted on LVIS and simulated-COCO demonstrate the effectiveness of our approach. Code is available at https://github.com/A libaba-MIIL/PartialL abelingCSL.
翻訳日:2021-10-22 17:12:17 公開日:2021-10-21
# 説明可能な顔認識のための画素レベル顔画像品質評価

Pixel-Level Face Image Quality Assessment for Explainable Face Recognition ( http://arxiv.org/abs/2110.11001v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Marco Huber, Naser Damer, Florian Kirchbuchner, Kiran Raja, Arjan Kuijper(参考訳) 顔認識システムにおいて高い性能を達成するための重要な要因は、そのサンプルの品質である。 これらのシステムは様々な日常生活に関わっているため、顔認識プロセスが人間にとって理解しやすくする必要がある。 本研究では,画像認識における画素の有効性を決定する,画素レベルの顔画像品質の概念を導入する。 本研究では,任意の顔認識ネットワークが与えられた場合,顔画像の画素レベル特性を評価するためのトレーニングフリーな手法を提案する。 これを実現するために、入力画像のモデル固有品質値を推定し、サンプル固有品質回帰モデルを構築する。 このモデルに基づいて、品質ベースの勾配はバックプロパゲーションされ、ピクセルレベルの品質推定に変換される。 実験では,実・人工的乱れに基づく画素レベルの画質の有意性について質的,定量的に検討し,ICAO対応顔の説明地図を比較した。 あらゆるシナリオにおいて,提案手法が有意義なピクセルレベルの品質をもたらすことを示す。 コードは公開されている。

An essential factor to achieve high performance in face recognition systems is the quality of its samples. Since these systems are involved in various daily life there is a strong need of making face recognition processes understandable for humans. In this work, we introduce the concept of pixel-level face image quality that determines the utility of pixels in a face image for recognition. Given an arbitrary face recognition network, in this work, we propose a training-free approach to assess the pixel-level qualities of a face image. To achieve this, a model-specific quality value of the input image is estimated and used to build a sample-specific quality regression model. Based on this model, quality-based gradients are back-propagated and converted into pixel-level quality estimates. In the experiments, we qualitatively and quantitatively investigated the meaningfulness of the pixel-level qualities based on real and artificial disturbances and by comparing the explanation maps on ICAO-incompliant faces. In all scenarios, the results demonstrate that the proposed solution produces meaningful pixel-level qualities. The code is publicly available.
翻訳日:2021-10-22 17:12:01 公開日:2021-10-21
# オープン集合認識のための空間的位置制約型プロトタイプロス

Spatial Location Constraint Prototype Loss for Open Set Recognition ( http://arxiv.org/abs/2110.11013v1 )

ライセンス: Link先を確認
Ziheng Xia, Ganggang Dong, Penghui Wang, Hongwei Liu(参考訳) パターン認識の課題の1つはオープンセット認識である。 クローズドセット認識と比較すると,オープンセット認識は経験的リスクだけでなくオープンスペースリスクも減少させる必要があり,これら2つのリスクの低減は既知のクラスを分類し,未知のクラスを識別することに相当する。 オープンスペースのリスクを軽減する方法がオープンセット認識の鍵です。 本稿では,未知のクラスの特徴の分布を分析し,オープンスペースリスクの起源を考察する。 そこで,この2つのリスクを同時に低減するために,空間的位置制約プロトタイプ損失関数を提案する。 複数のベンチマークデータセットと多くの可視化結果に対する大規模な実験は、我々の手法が既存のアプローチよりもはるかに優れていることを示している。

One of the challenges in pattern recognition is open set recognition. Compared with closed set recognition, open set recognition needs to reduce not only the empirical risk, but also the open space risk, and the reduction of these two risks corresponds to classifying the known classes and identifying the unknown classes respectively. How to reduce the open space risk is the key of open set recognition. This paper explores the origin of the open space risk by analyzing the distribution of known and unknown classes features. On this basis, the spatial location constraint prototype loss function is proposed to reduce the two risks simultaneously. Extensive experiments on multiple benchmark datasets and many visualization results indicate that our methods is significantly superior to other existing approaches.
翻訳日:2021-10-22 17:11:46 公開日:2021-10-21
# モデル圧縮のためのピアツーピア相互学習による知識蒸留の強化

Augmenting Knowledge Distillation With Peer-To-Peer Mutual Learning For Model Compression ( http://arxiv.org/abs/2110.11023v1 )

ライセンス: Link先を確認
Usma Niyaz, Deepti R. Bathula(参考訳) 知識蒸留(KD)は、複雑で高度に訓練された教師ネットワークの振る舞いを模倣するために、コンパクトな学生ネットワークを指導する効果的なモデル圧縮手法である。 対照的に、相互学習(ML)は、強力な静的教師ネットワークがなくても、複数の単純な学生ネットワークが知識を共有することの恩恵を受ける代替戦略を提供する。 これらの知見に触発されて,KDとMLを併用して,より優れたパフォーマンスを実現する,単教師多学生フレームワークを提案する。 さらに、オンライン蒸留戦略を利用して教師と生徒を同時に訓練する。 提案手法の性能を評価するために, ベンチマークバイオメディカル分類 (MSI vs. MSS) とオブジェクト検出 (Polyp Detection) の3種類の教師学生ネットワークを用いた広範囲な実験を行った。 提案手法で学習した学生ネットワークの集合は,KDやMLを用いて個別に学習した学生の集合よりも優れた結果を得た。

Knowledge distillation (KD) is an effective model compression technique where a compact student network is taught to mimic the behavior of a complex and highly trained teacher network. In contrast, Mutual Learning (ML) provides an alternative strategy where multiple simple student networks benefit from sharing knowledge, even in the absence of a powerful but static teacher network. Motivated by these findings, we propose a single-teacher, multi-student framework that leverages both KD and ML to achieve better performance. Furthermore, an online distillation strategy is utilized to train the teacher and students simultaneously. To evaluate the performance of the proposed approach, extensive experiments were conducted using three different versions of teacher-student networks on benchmark biomedical classification (MSI vs. MSS) and object detection (Polyp Detection) tasks. Ensemble of student networks trained in the proposed manner achieved better results than the ensemble of students trained using KD or ML individually, establishing the benefit of augmenting knowledge transfer from teacher to students with peer-to-peer learning between students.
翻訳日:2021-10-22 17:11:35 公開日:2021-10-21
# RefRec:非教師なし3次元領域適応のための形状再構成による擬似ラベルの微細化

RefRec: Pseudo-labels Refinement via Shape Reconstruction for Unsupervised 3D Domain Adaptation ( http://arxiv.org/abs/2110.11036v1 )

ライセンス: Link先を確認
Adriano Cardace, Riccardo Spezialetti, Pierluigi Zama Ramirez, Samuele Salti, Luigi Di Stefano(参考訳) ポイントクラウド分類のための教師なしドメイン適応(UDA)は、関連する実践的モチベーションを持つ新たな研究課題である。 ドメイン間で機能を整合させるマルチタスク学習の信頼性が、それに取り組む標準的な方法だ。 本稿では,点雲に対するudaにおける擬似ラベルと自己学習について検討する最初の手法であるrefrecを提案する。 自己学習を3dデータで効果的にするための2つの主なイノベーションについて紹介する。 一 両領域の形状復元の監督を受けない業務により学習した形状記述子と一致する形状記述子により、ノイズのある擬似ラベルを洗練すること。 二 ドメイン固有の決定バウンダリを学習し、誤表示されたターゲットサンプルの悪影響及びクラス内変動を低減させる新規な自己学習プロトコル。 RefRecは、ポイントクラウド分類のためにUDAをテストするために使用される標準ベンチマークの両方で、この重要な問題に対する自己学習の有効性を示している。

Unsupervised Domain Adaptation (UDA) for point cloud classification is an emerging research problem with relevant practical motivations. Reliance on multi-task learning to align features across domains has been the standard way to tackle it. In this paper, we take a different path and propose RefRec, the first approach to investigate pseudo-labels and self-training in UDA for point clouds. We present two main innovations to make self-training effective on 3D data: i) refinement of noisy pseudo-labels by matching shape descriptors that are learned by the unsupervised task of shape reconstruction on both domains; ii) a novel self-training protocol that learns domain-specific decision boundaries and reduces the negative impact of mislabelled target samples and in-domain intra-class variability. RefRec sets the new state of the art in both standard benchmarks used to test UDA for point cloud classification, showcasing the effectiveness of self-training for this important problem.
翻訳日:2021-10-22 17:11:13 公開日:2021-10-21
# 効率的なハイパーパラメータ解析によるリサイクル分類の展開改善

Improving the Deployment of Recycling Classification through Efficient Hyper-Parameter Analysis ( http://arxiv.org/abs/2110.11043v1 )

ライセンス: Link先を確認
Mazin Abdulmahmood and Ryan Grammenos(参考訳) 自動廃棄物分類のパラダイムは、最近、従来の画像処理技術から畳み込みニューラルネットワーク(CNN)として知られる強力なコンピュータビジョンアルゴリズムへと関心が移っている。 歴史的にCNNは、リアルタイム分類のための強力なハードウェアへの強い依存を示してきたが、より弱い組み込みデバイスへのデプロイメントの必要性はこれまで以上に大きい。 本稿では,従来の画像分類モデルの再構成とチューニングを行う手法を提案する。EfficientNetsは,モデル精度のトレードオフのないパラメータ化を削減し,NVIDIA Jetson Nano組み込みデバイス上でリアルタイムに動作するためのTensorRTを用いたパイプラインを開発する。 トレーニングと展開のモデル精度の相違にデータ拡張がどのような影響を及ぼすかに関する列車の展開遅延は、多くの論文で無視されることが多く、一度展開されたモデル精度に実際の単語の摂動が与えた影響を分析して評価することで、作業が拡張される。 作業の範囲は、共同リサイクル分類モデルであるムダネットのより効率的な変種の開発に関係している。 新たに開発されたモデルは、テストセット精度95.8\%、実際の単語精度95%、オリジナルよりも14%向上した。 我々の加速パイプラインは,Jetson Nano上で毎秒750%から24パーセントの速度でモデルスループットを向上し,サーボモータ遅延解析によりシステムのリアルタイムレイテンシを検証した。

The paradigm of automated waste classification has recently seen a shift in the domain of interest from conventional image processing techniques to powerful computer vision algorithms known as convolutional neural networks (CNN). Historically, CNNs have demonstrated a strong dependency on powerful hardware for real-time classification, yet the need for deployment on weaker embedded devices is greater than ever. The work in this paper proposes a methodology for reconstructing and tuning conventional image classification models, using EfficientNets, to decrease their parameterisation with no trade-off in model accuracy and develops a pipeline through TensorRT for accelerating such models to run at real-time on an NVIDIA Jetson Nano embedded device. The train-deployment discrepancy, relating how poor data augmentation leads to a discrepancy in model accuracy between training and deployment, is often neglected in many papers and thus the work is extended by analysing and evaluating the impact real word perturbations had on model accuracy once deployed. The scope of the work concerns developing a more efficient variant of WasteNet, a collaborative recycling classification model. The newly developed model scores a test-set accuracy of 95.8\% with a real word accuracy of 95%, a 14% increase over the original. Our acceleration pipeline boosted model throughput by 750% to 24 inferences per second on the Jetson Nano and real-time latency of the system was verified through servomotor latency analysis.
翻訳日:2021-10-22 17:10:56 公開日:2021-10-21
# 放送サッカー映像からのプレーヤの位置データ抽出

Extraction of Positional Player Data from Broadcast Soccer Videos ( http://arxiv.org/abs/2110.11107v1 )

ライセンス: Link先を確認
Jonas Theiner and Wolfgang Gritz and Eric M\"uller-Budack and Robert Rein and Daniel Memmert and Ralph Ewerth(参考訳) 現代のスポーツでは,コンピュータ支援による支援と分析がますます重要になっている。 潜在的なプレーヤのスカウト、パフォーマンス、およびマッチ分析、トレーニングプログラムの監視は、成功を確実にするためにデータ駆動技術にますます依存している。 したがって、多くのアプローチは大量のデータを必要とするが、一般には入手が容易ではない。 本稿では,サッカーの試合中継映像から位置データの完全自動抽出のためのパイプラインを提案する。 以前の作業とは対照的に、システムは選手の位置推定に不可欠なスポーツフィールド登録、プレイヤー検出、チーム割り当てなどの全ての必要なサブタスクを統合する。 モジュールとシステム全体の品質は相互依存している。 個々のモジュールとパイプライン全体に対して包括的な実験的な評価を行い、エラーがその後のモジュールに与える影響と全体の結果を特定する。 そこで本研究では, 地上位置データと出力を比較するための新しい評価指標を提案する。

Computer-aided support and analysis are becoming increasingly important in the modern world of sports. The scouting of potential prospective players, performance as well as match analysis, and the monitoring of training programs rely more and more on data-driven technologies to ensure success. Therefore, many approaches require large amounts of data, which are, however, not easy to obtain in general. In this paper, we propose a pipeline for the fully-automated extraction of positional data from broadcast video recordings of soccer matches. In contrast to previous work, the system integrates all necessary sub-tasks like sports field registration, player detection, or team assignment that are crucial for player position estimation. The quality of the modules and the entire system is interdependent. A comprehensive experimental evaluation is presented for the individual modules as well as the entire pipeline to identify the influence of errors to subsequent modules and the overall result. In this context, we propose novel evaluation metrics to compare the output with ground-truth positional data.
翻訳日:2021-10-22 17:09:45 公開日:2021-10-21
# 一般・顔特化画像品質指標による顔画像の実用性評価の深層化

A Deep Insight into Measuring Face Image Utility with General and Face-specific Image Quality Metrics ( http://arxiv.org/abs/2110.11111v1 )

ライセンス: Link先を確認
Biying Fu, Cong Chen, Olaf Henniger, and Naser Damer(参考訳) 品質スコアは生体認証のためのバイオメトリックサンプルの有用性を評価する尺度を提供する。 生体認証システムは最適な性能を得るために高品質なサンプルを必要とする。 本稿では、顔画像と、顔特有の画像品質指標を用いた顔画像の有用性の測定に焦点を当てた。 顔特有のメトリクスは、アライメントされた顔画像の特徴に依存するが、一般的な画像品質指標は、グローバルイメージ上で使用でき、人間の知覚に関連付けることができる。 本稿では,一般画像品質指標と顔画像品質指標とのギャップを解析する。 我々の貢献は、画像品質評価アルゴリズムが顔認識タスクの実用性とどのように関係しているかを徹底的に検討することにある。 画像品質評価アルゴリズムの結果は、専用の顔画像品質評価アルゴリズムと比較される。 3つの顔画像データベース、biosecure, lfw, vggface2に対して、sphereface, arcface, facenetという3つのオープンソースの顔認識ソリューションを使用して、合計25の異なる品質指標を評価している。 以上の結果から,顔用ユーティリティとして特別に訓練されることなく,学習した画像メトリクスと顔用ユーティリティとの相関が明らかとなった。 個々の手作り機能には一般的な安定性がなく、一般的な顔特有の品質指標よりもはるかに悪いパフォーマンスがある。 また、選択した品質評価方法の品質スコアに寄与する画像領域に対する視覚的な洞察を提供する。

Quality scores provide a measure to evaluate the utility of biometric samples for biometric recognition. Biometric recognition systems require high-quality samples to achieve optimal performance. This paper focuses on face images and the measurement of face image utility with general and face-specific image quality metrics. While face-specific metrics rely on features of aligned face images, general image quality metrics can be used on the global image and relate to human perceptions. In this paper, we analyze the gap between the general image quality metrics and the face image quality metrics. Our contribution lies in a thorough examination of how different the image quality assessment algorithms relate to the utility for the face recognition task. The results of image quality assessment algorithms are further compared with those of dedicated face image quality assessment algorithms. In total, 25 different quality metrics are evaluated on three face image databases, BioSecure, LFW, and VGGFace2 using three open-source face recognition solutions, SphereFace, ArcFace, and FaceNet. Our results reveal a clear correlation between learned image metrics to face image utility even without being specifically trained as a face utility measure. Individual handcrafted features lack general stability and perform significantly worse than general face-specific quality metrics. We additionally provide a visual insight into the image areas contributing to the quality score of a selected set of quality assessment methods.
翻訳日:2021-10-22 17:09:31 公開日:2021-10-21
# 半教師付きインクリメンタルFew-Shot学習のための強力なベースライン

A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning ( http://arxiv.org/abs/2110.11128v1 )

ライセンス: Link先を確認
Linlan Zhao and Dashan Guo and Yunlu Xu and Liang Qiao and Zhanzhan Cheng and Shiliang Pu and Yi Niu and Xiangzhong Fang(参考訳) FSL(Few-shot Learning)は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。 最近の研究は、ラベルのない例も利用できるシナリオに向けてFSLを進め、半教師付きFSL法を提案する。 別の一連のメソッドは、新しいクラスに加えてベースクラスのパフォーマンスにも関心を持ち、インクリメンタルなfslシナリオを確立している。 本稿では,S2 I-FSL(Semi-Supervise d Few-Shot Learning)と命名された,より現実的で複雑な環境下で,上記の2つを一般化する。 本研究では,(1)信頼できない擬似ラベルによる基本クラスと新規クラス間のあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとすべての未ラベルデータを用いて基礎知識を保ちながら,新しいクラスの識別的特徴を学習するモデル適応機構を提案する。 提案手法の有効性を実証するために, 標準FSL, 半教師付きFSL, インクリメンタルFSL, およびS2 I-FSLベンチマークを行った。

Few-shot learning (FSL) aims to learn models that generalize to novel classes with limited training samples. Recent works advance FSL towards a scenario where unlabeled examples are also available and propose semi-supervised FSL methods. Another line of methods also cares about the performance of base classes in addition to the novel ones and thus establishes the incremental FSL scenario. In this paper, we generalize the above two under a more realistic yet complex setting, named by Semi-Supervised Incremental Few-Shot Learning (S2 I-FSL). To tackle the task, we propose a novel paradigm containing two parts: (1) a well-designed meta-training algorithm for mitigating ambiguity between base and novel classes caused by unreliable pseudo labels and (2) a model adaptation mechanism to learn discriminative features for novel classes while preserving base knowledge using few labeled and all the unlabeled data. Extensive experiments on standard FSL, semi-supervised FSL, incremental FSL, and the firstly built S2 I-FSL benchmarks demonstrate the effectiveness of our proposed method.
翻訳日:2021-10-22 17:09:09 公開日:2021-10-21
# HCV:過度に精細な分類のための階層性検証

HCV: Hierarchy-Consistenc y Verification for Incremental Implicitly-Refined Classification ( http://arxiv.org/abs/2110.11148v1 )

ライセンス: Link先を確認
Kai Wang, Xialei Liu, Luis Herranz, Joost van de Weijer(参考訳) 人間は生涯にわたって階層的な知識を学び蓄積する。 この知識は、統合と階層構造に関する以前の概念と関連している。 しかし、現在のインクリメンタル学習手法では、新しい概念を古い概念に関連付けることで、概念階層を構築する能力が欠けている。 この問題に対処するより現実的な設定は、粗粒度カテゴリから細粒度カテゴリへの認識プロセスをシミュレートするIncrmental Implicitly-Refined Classification (IIRC)と呼ばれる。 本ベンチマークでは,既存の継続学習手法の強化を目的とした階層一貫性検証(HCV)を提案する。 本手法はクラス間の階層関係を段階的に発見する。 次に、トレーニングと推論の両方で、この知識をどのように活用できるかを示します。 3種類の難易度実験により,本モジュールは既存の連続学習手法の性能を大きなマージンで改善することを示した。 コードはhttps://github.com/w angkai930418/hcv_iir cで入手できる。

Human beings learn and accumulate hierarchical knowledge over their lifetime. This knowledge is associated with previous concepts for consolidation and hierarchical construction. However, current incremental learning methods lack the ability to build a concept hierarchy by associating new concepts to old ones. A more realistic setting tackling this problem is referred to as Incremental Implicitly-Refined Classification (IIRC), which simulates the recognition process from coarse-grained categories to fine-grained categories. To overcome forgetting in this benchmark, we propose Hierarchy-Consistenc y Verification (HCV) as an enhancement to existing continual learning methods. Our method incrementally discovers the hierarchical relations between classes. We then show how this knowledge can be exploited during both training and inference. Experiments on three setups of varying difficulty demonstrate that our HCV module improves performance of existing continual learning methods under this IIRC setting by a large margin. Code is available in https://github.com/w angkai930418/HCV_IIR C.
翻訳日:2021-10-22 17:08:47 公開日:2021-10-21
# 点眼速度の計算による運転者の眠気の検出

Detection of Driver Drowsiness by Calculating the Speed of Eye Blinking ( http://arxiv.org/abs/2110.11223v1 )

ライセンス: Link先を確認
Muhammad Fawwaz Yusri, Patrick Mangat, Oliver Wasenm\"uller(参考訳) 多くの道路事故は運転者の眠気によって引き起こされる。 閉じた目を検出する方法は存在するが、ドライバが眠くなる段階的なプロセスを検出するのは非自明な作業である。 本研究は, 視線比から得られた瞬き速度のみに基づいて, 眠気の簡易リアルタイム検出システムを提案する。 視線検出にはhogと線形svmを使用します。 目が点滅するスピードが、経験的に決められた閾値を下回ると、システムはアラームをトリガーし、ドライバーがマイクロスリープに落ちるのを防ぐ。 本稿では,提案システムにおける最小要件を広範囲に評価する。 顔がカメラに向けられた場合、このシステムはうまく機能するが、頭部が大きく傾くと信頼性が低下する。 本評価の結果は, 睡眠検知システムのさらなる発展の基盤となるものである。

Many road accidents are caused by drowsiness of the driver. While there are methods to detect closed eyes, it is a non-trivial task to detect the gradual process of a driver becoming drowsy. We consider a simple real-time detection system for drowsiness merely based on the eye blinking rate derived from the eye aspect ratio. For the eye detection we use HOG and a linear SVM. If the speed of the eye blinking drops below some empirically determined threshold, the system triggers an alarm, hence preventing the driver from falling into microsleep. In this paper, we extensively evaluate the minimal requirements for the proposed system. We find that this system works well if the face is directed to the camera, but it becomes less reliable once the head is tilted significantly. The results of our evaluations provide the foundation for further developments of our drowsiness detection system.
翻訳日:2021-10-22 17:08:30 公開日:2021-10-21
# MSO:RGB赤外線人物再同定のための多機能宇宙共同最適化ネットワーク

MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2110.11264v1 )

ライセンス: Link先を確認
Yajun Gao, Tengfei Liang, Yi Jin, Xiaoyan Gu, Wu Liu, Yidong Li, Congyan Lang(参考訳) RGB-infrared cross-modality person re-identification (ReID)タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。 既存の手法は主に2ストリームアーキテクチャを使用して、最終共通特徴空間における2つのモダリティ間の相違を解消し、浅い層の各モダリティの単一空間を無視している。 そこで本稿では, 単一モダリティ空間と共通空間の両方において, モダリティに調和した特徴を学習可能な, 新たな多機能空間共同最適化(MSO)ネットワークを提案する。 まず,エッジ情報がモダリティ不変であるという観測に基づいて,各単一モダリティ空間におけるモダリティ特性を向上させるためのエッジ特徴拡張モジュールを提案する。 具体的には,エッジ融合戦略分析後の知覚的エッジ特徴(PEF)損失を設計する。 我々の知識によると、これはクロスモダリティreidタスクの単一モダリティ特徴空間における明示的な最適化を提案する最初の仕事である。 さらに, クロスモダリティ距離とクラス距離の差を増大させるため, 共通特徴空間におけるモダリティ結合制約に, 新たなクロスモダリティコントラスト中心(CMCC)損失を導入する。 pef損失とcmcc損失は、エンドツーエンドでモデルを共同で最適化し、ネットワークの性能を著しく向上させる。 大規模な実験により,提案手法はSYSU-MM01データセットとRegDBデータセットの両方において,最先端の手法よりも大幅に優れていた。

The RGB-infrared cross-modality person re-identification (ReID) task aims to recognize the images of the same identity between the visible modality and the infrared modality. Existing methods mainly use a two-stream architecture to eliminate the discrepancy between the two modalities in the final common feature space, which ignore the single space of each modality in the shallow layers. To solve it, in this paper, we present a novel multi-feature space joint optimization (MSO) network, which can learn modality-sharable features in both the single-modality space and the common space. Firstly, based on the observation that edge information is modality-invariant, we propose an edge features enhancement module to enhance the modality-sharable features in each single-modality space. Specifically, we design a perceptual edge features (PEF) loss after the edge fusion strategy analysis. According to our knowledge, this is the first work that proposes explicit optimization in the single-modality feature space on cross-modality ReID task. Moreover, to increase the difference between cross-modality distance and class distance, we introduce a novel cross-modality contrastive-center (CMCC) loss into the modality-joint constraints in the common feature space. The PEF loss and CMCC loss jointly optimize the model in an end-to-end manner, which markedly improves the network's performance. Extensive experiments demonstrate that the proposed model significantly outperforms state-of-the-art methods on both the SYSU-MM01 and RegDB datasets.
翻訳日:2021-10-22 17:08:17 公開日:2021-10-21
# 時空間メモリネットワークを用いたマルチオブジェクト追跡とセグメンテーション

Multi-Object Tracking and Segmentation with a Space-Time Memory Network ( http://arxiv.org/abs/2110.11284v1 )

ライセンス: Link先を確認
Mehdi Miah, Guillaume-Alexandre Bilodeau and Nicolas Saunier(参考訳) 本稿では,微調整やベンチマークごとのハイパーパラメータ選択を必要としないマルチオブジェクト追跡とセグメンテーションを提案する。 提案するトラッカーであるMeNToSは特にデータ関連の問題に対処する。 実際、最近導入されたHOTAメトリックは、検出と関連性の品質を均等にバランスさせることにより、人間の視覚的評価と整合性が向上している。 インスタンスセグメンテーションと光フローを用いてトラックレットを作成した後、一ショットビデオオブジェクトセグメンテーションのために開発された時空間メモリネットワークを用いて、トラックレットと時間的ギャップの関連性を改善する。 我々は、KITTIMOTSとMOTSChallengeでトラッカーを評価し、HOTAメトリックによるデータアソシエーション戦略の利点を示した。 プロジェクトページは \url{www.mehdimiah.com/me ntos+} である。

We propose a method for multi-object tracking and segmentation that does not require fine-tuning or per benchmark hyper-parameter selection. The proposed tracker, MeNToS, addresses particularly the data association problem. Indeed, the recently introduced HOTA metric, which has a better alignment with the human visual assessment by evenly balancing detections and associations quality, has shown that improvements are still needed for data association. After creating tracklets using instance segmentation and optical flow, the proposed method relies on a space-time memory network developed for one-shot video object segmentation to improve the association of tracklets with temporal gaps. We evaluated our tracker on KITTIMOTS and MOTSChallenge and show the benefit of our data association strategy with the HOTA metric. The project page is \url{www.mehdimiah.com/me ntos+}.
翻訳日:2021-10-22 17:06:21 公開日:2021-10-21
# マージンコサイン損失と相対論的判別器を有するGANの実証的研究

An Empirical Study on GANs with Margin Cosine Loss and Relativistic Discriminator ( http://arxiv.org/abs/2110.11293v1 )

ライセンス: Link先を確認
Cuong V. Nguyen, Tien-Dung Cao, Tram Truong-Huu, Khanh N. Pham, Binh T. Nguyen(参考訳) GAN(Generative Adversarial Networks)は、任意の複雑な次元のデータ分布を暗黙的に学習できる有用な生成モデルとして登場した。 しかし、gansの訓練は非常に不安定で敏感なことで実証的に知られている。 判別器とジェネレータのパラメータに関する損失関数は、訓練中に大きく振動する傾向がある。 トレーニングを安定させ、画像の品質を向上させるために異なる損失関数が提案されている。 本稿では,複数の損失関数が標準GANモデル,Deep Convolutional Generative Adversarial Networks (DCGANs)の性能に与える影響について実証的研究を行う。 本稿では,DCGANにおける古典的決定論的判別器の代替として相対論的判別器を用いた新たな改良手法を提案する。 この結果、新しい損失関数、すなわち \textit{Relativistic Margin Cosine Loss} (RMCosGAN) が生じる。 CIFAR-$10$、MNIST、STL-$10$、CATの4つのデータセットで広範な実験を行う。 rmcosganの性能を,frechetインセプション距離とインセプションスコアの2つの指標に基づいて既存のロス関数と比較した。 実験の結果,RCCosGANは既存の画像よりも優れており,画像の品質が著しく向上していることがわかった。

Generative Adversarial Networks (GANs) have emerged as useful generative models, which are capable of implicitly learning data distributions of arbitrarily complex dimensions. However, the training of GANs is empirically well-known for being highly unstable and sensitive. The loss functions of both the discriminator and generator concerning their parameters tend to oscillate wildly during training. Different loss functions have been proposed to stabilize the training and improve the quality of images generated. In this paper, we perform an empirical study on the impact of several loss functions on the performance of standard GAN models, Deep Convolutional Generative Adversarial Networks (DCGANs). We introduce a new improvement that employs a relativistic discriminator to replace the classical deterministic discriminator in DCGANs and implement a margin cosine loss function for both the generator and discriminator. This results in a novel loss function, namely \textit{Relativistic Margin Cosine Loss} (RMCosGAN). We carry out extensive experiments with four datasets: CIFAR-$10$, MNIST, STL-$10$, and CAT. We compare RMCosGAN performance with existing loss functions based on two metrics: Frechet inception distance and inception score. The experimental results show that RMCosGAN outperforms the existing ones and significantly improves the quality of images generated.
翻訳日:2021-10-22 17:06:06 公開日:2021-10-21
# マルチクラスマンモグラフィ診断のためのタスク空間における深層カリキュラム学習

Deep Curriculum Learning in Task Space for Multi-Class Based Mammography Diagnosis ( http://arxiv.org/abs/2110.11320v1 )

ライセンス: Link先を確認
Jun Luo, Dooman Arefan, Margarita Zuley, Jules Sumkin, Shandong Wu(参考訳) マンモグラフィーは乳癌患者に対する標準的なスクリーニング方法として用いられる。 過去10年間で、深層学習技術は多くのタスクで人間に近いパフォーマンスに達することに成功し、そのマンモグラフィへの応用は、医学研究者が最も注力しているトピックの1つとなっている。 本研究では,全フィールドデジタルマンモグラフィ(ffdm)の3つのカテゴリ(悪性,陰性,偽リコール)を分類するためのタスク空間におけるエンドツーエンドカリキュラム学習(cl)戦略を提案する。 具体的には,この3つの分類をclの観点から「より難しい」タスクとして扱い,負と悪性の複合群に対して偽リコールを分類する「より簡単な」サブタスクを作成する。 本稿では,2つのタスクからの損失の貢献度をトレーニングプロセス全体を通して動的に重み付けするロススケジューラを提案する。 5倍のクロスバリデーションを用いて,1,709画像のffdmデータセットについて実験を行った。 その結果,我々のカリキュラム学習戦略は,モデル学習のベースライン戦略と比較して,ffdmの3つのカテゴリを分類する性能を高めることができることがわかった。

Mammography is used as a standard screening procedure for the potential patients of breast cancer. Over the past decade, it has been shown that deep learning techniques have succeeded in reaching near-human performance in a number of tasks, and its application in mammography is one of the topics that medical researchers most concentrate on. In this work, we propose an end-to-end Curriculum Learning (CL) strategy in task space for classifying the three categories of Full-Field Digital Mammography (FFDM), namely Malignant, Negative, and False recall. Specifically, our method treats this three-class classification as a "harder" task in terms of CL, and create an "easier" sub-task of classifying False recall against the combined group of Negative and Malignant. We introduce a loss scheduler to dynamically weight the contribution of the losses from the two tasks throughout the entire training process. We conduct experiments on an FFDM datasets of 1,709 images using 5-fold cross validation. The results show that our curriculum learning strategy can boost the performance for classifying the three categories of FFDM compared to the baseline strategies for model training.
翻訳日:2021-10-22 17:05:45 公開日:2021-10-21
# 半定値緩和による凸ジョイントグラフマッチングとクラスタリング

Convex Joint Graph Matching and Clustering via Semidefinite Relaxations ( http://arxiv.org/abs/2110.11335v1 )

ライセンス: Link先を確認
Maximilian Krahn and Florian Bernard and Vladislav Golyanik(参考訳) 本稿では,グラフマッチングとクラスタリングを同時に行う新しいアルゴリズムを提案する。 文献の中で初めて、これらの2つの問題は、トレーニングデータに頼ることなく、共同かつ相乗的に解決され、複合3dシーンにおける類似の任意のオブジェクトの識別とマッチングの利点をもたらす。 共同推論のために,まずスペクトルグラフ埋め込みに基づく厳密な点集合登録問題としてグラフマッチングを再現する。 その結果、ヒルベルト空間内の点の整合化に効率的な凸半定値プログラム緩和を利用し、相互依存をモデル化するための結合制約を加え、両方のタスク間の相乗効果を利用する。 我々は,非完全マッチングおよびノイズグラフを用いた難解ケースにおいて,複数の3次元要素を持つ実複合シーンにおける成功例を示す。 ソースコードとデータは公開されています。

This paper proposes a new algorithm for simultaneous graph matching and clustering. For the first time in the literature, these two problems are solved jointly and synergetically without relying on any training data, which brings advantages for identifying similar arbitrary objects in compound 3D scenes and matching them. For joint reasoning, we first rephrase graph matching as a rigid point set registration problem operating on spectral graph embeddings. Consequently, we utilise efficient convex semidefinite program relaxations for aligning points in Hilbert spaces and add coupling constraints to model the mutual dependency and exploit synergies between both tasks. We outperform state of the art in challenging cases with non-perfectly matching and noisy graphs, and we show successful applications on real compound scenes with multiple 3D elements. Our source code and data are publicly available.
翻訳日:2021-10-22 17:05:25 公開日:2021-10-21
# (参考訳) RoQNN:ロバスト量子ニューラルネットワークのためのノイズアウェアトレーニング [全文訳有]

RoQNN: Noise-Aware Training for Robust Quantum Neural Networks ( http://arxiv.org/abs/2110.11331v1 )

ライセンス: CC BY 4.0
Hanrui Wang, Jiaqi Gu, Yongshan Ding, Zirui Li, Frederic T. Chong, David Z. Pan, Song Han(参考訳) 量子ニューラルネットワーク(QNN)は、短期量子ハードウェアにおける量子優位性に向けた有望なアプリケーションである。 しかし、大きな量子ノイズ(エラー)のため、QNNモデルの性能は実際の量子デバイスで著しく低下する。 例えば、mnist-4分類におけるibmq-yorktownのノイズフリーシミュレーションとノイズ評価の精度ギャップは60%以上である。 既存のノイズ低減手法はQNNの特徴を活かさずに一般的な手法であり、推論にのみ適用可能であるが、既存のQNNではノイズ効果を考慮していない。 そこで本研究では,ロバスト性を改善するために,学習段階と推論段階の両方において雑音認識最適化を行うqnnに特化したフレームワークであるroqnnを提案する。 我々は,QNN測定結果に対する量子ノイズの影響を,スケーリングとシフト係数による雑音のない結果から線形マップとして解析し,実験的に観察した。 そこで本研究では,ノイズフリーシナリオとノイズフリーシナリオの特徴分布差を軽減するために,測定後の正規化を提案する。 さらに,ノイズに対するロバスト性を向上させるために,量子ハードウェアの現実的なノイズモデルに従ってqnnに量子エラーゲートを挿入することにより,学習プロセスへのノイズ注入を提案する。 最後に、測定結果を離散値に定量化するために測定後の量子化を導入し、復調効果を達成する。 6つの量子デバイスを用いた8つの分類タスクに関する広範囲な実験により、roqnnは精度を最大43%向上させ、94%以上の2クラス、80%の4クラス、34%の10クラスのmnist分類精度を実際の量子コンピュータで測定した。 また、QNNの構成とノイズを意識したトレーニングのためのPyTorchライブラリをhttps://github.com/m it-han-lab/pytorch-q uantum でオープンソースにしています。

Quantum Neural Network (QNN) is a promising application towards quantum advantage on near-term quantum hardware. However, due to the large quantum noises (errors), the performance of QNN models has a severe degradation on real quantum devices. For example, the accuracy gap between noise-free simulation and noisy results on IBMQ-Yorktown for MNIST-4 classification is over 60%. Existing noise mitigation methods are general ones without leveraging unique characteristics of QNN and are only applicable to inference; on the other hand, existing QNN work does not consider noise effect. To this end, we present RoQNN, a QNN-specific framework to perform noise-aware optimizations in both training and inference stages to improve robustness. We analytically deduct and experimentally observe that the effect of quantum noise to QNN measurement outcome is a linear map from noise-free outcome with a scaling and a shift factor. Motivated by that, we propose post-measurement normalization to mitigate the feature distribution differences between noise-free and noisy scenarios. Furthermore, to improve the robustness against noise, we propose noise injection to the training process by inserting quantum error gates to QNN according to realistic noise models of quantum hardware. Finally, post-measurement quantization is introduced to quantize the measurement outcomes to discrete values, achieving the denoising effect. Extensive experiments on 8 classification tasks using 6 quantum devices demonstrate that RoQNN improves accuracy by up to 43%, and achieves over 94% 2-class, 80% 4-class, and 34% 10-class MNIST classification accuracy measured on real quantum computers. We also open-source our PyTorch library for construction and noise-aware training of QNN at https://github.com/m it-han-lab/pytorch-q uantum .
翻訳日:2021-10-22 17:02:36 公開日:2021-10-21
# 後方サンプリングと正塩基によるcoxプロセスのセンシング

Sensing Cox Processes via Posterior Sampling and Positive Bases ( http://arxiv.org/abs/2110.11181v1 )

ライセンス: Link先を確認
Mojm\'ir Mutn\'y, Andreas Krause(参考訳) 空間統計学から広く用いられているモデルであるCox点過程の適応センシングについて検討する。 得られた事象の最大化、強度関数の最大値の探索、強度関数の学習レベルセットの3つのタスクを導入する。 我々は、特別に構成された正の基底で表現された断続ガウス過程から、強度関数をサンプルとしてモデル化する。 この基底において、強度関数の正の制約は単純形式である。 最小記述の正の基底が共分散核や非定常性にどのように適応可能かを示し、事前の作業から共通の正の基底へ接続するかを示す。 我々の適応センシングアルゴリズムはランゲヴィン力学を用いており、後続サンプリング(\textsc{Cox-Thompson})と後続サンプリング(\textsc{Top2})の原理に基づいている。 後者では、サンプル間の差が不確実性の代役となる。 本手法は,環境モニタリングと犯罪率モデリングの例を用いて実証し,従来のベイズ実験設計手法と比較する。

We study adaptive sensing of Cox point processes, a widely used model from spatial statistics. We introduce three tasks: maximization of captured events, search for the maximum of the intensity function and learning level sets of the intensity function. We model the intensity function as a sample from a truncated Gaussian process, represented in a specially constructed positive basis. In this basis, the positivity constraint on the intensity function has a simple form. We show how an minimal description positive basis can be adapted to the covariance kernel, non-stationarity and make connections to common positive bases from prior works. Our adaptive sensing algorithms use Langevin dynamics and are based on posterior sampling (\textsc{Cox-Thompson}) and top-two posterior sampling (\textsc{Top2}) principles. With latter, the difference between samples serves as a surrogate to the uncertainty. We demonstrate the approach using examples from environmental monitoring and crime rate modeling, and compare it to the classical Bayesian experimental design approach.
翻訳日:2021-10-22 16:38:33 公開日:2021-10-21
# 騒音コントラスト推定の最適化景観の分析と改善

Analyzing and Improving the Optimization Landscape of Noise-Contrastive Estimation ( http://arxiv.org/abs/2110.11271v1 )

ライセンス: Link先を確認
Bingbin Liu, Elan Rosenfeld, Pradeep Ravikumar, Andrej Risteski(参考訳) ノイズコントラスト推定(NCE)は、非正規化確率モデルを学習するための統計的に一貫した手法である。 ノイズ分布の選択がNCEの性能に不可欠であることが実験的に観察されている。 しかし、そのような観測は形式的あるいは定量的に行われたことは一度もない。 実際、不適切なノイズ分布から生じる困難さが、自然界において統計的かアルゴリズム的かは、はっきりしない。 本研究では,不適切な雑音分布を用いた場合,NCEの性能低下の原因を正式に指摘する。 すなわち、これらの課題は、(より正確には、平坦な)損失の風景によって生じることを証明します。 そこで本研究では, 指数関数損失を用いて, 対象と雑音分布が与えられた指数関数群である場合, 景観問題に対して正規化勾配勾配降下が対処できる「ence」の変種を提案する。

Noise-contrastive estimation (NCE) is a statistically consistent method for learning unnormalized probabilistic models. It has been empirically observed that the choice of the noise distribution is crucial for NCE's performance. However, such observations have never been made formal or quantitative. In fact, it is not even clear whether the difficulties arising from a poorly chosen noise distribution are statistical or algorithmic in nature. In this work, we formally pinpoint reasons for NCE's poor performance when an inappropriate noise distribution is used. Namely, we prove these challenges arise due to an ill-behaved (more precisely, flat) loss landscape. To address this, we introduce a variant of NCE called "eNCE" which uses an exponential loss and for which normalized gradient descent addresses the landscape issues provably when the target and noise distributions are in a given exponential family.
翻訳日:2021-10-22 16:38:15 公開日:2021-10-21
# 平均値の集合:ドメイン一般化におけるモデル選択の改善と性能向上

Ensemble of Averages: Improving Model Selection and Boosting Performance in Domain Generalization ( http://arxiv.org/abs/2110.10832v1 )

ライセンス: Link先を確認
Devansh Arpit, Huan Wang, Yingbo Zhou, Caiming Xiong(参考訳) ドメイン一般化(Domain Generalization, DG)では、特定のトレーニングドメインのセットでトレーニングされたモデルは、分散シフトテストドメインにおけるカオス的なパフォーマンスが悪名高いことで知られ、最適化における確率性(シードなど)が大きな役割を果たす。 これにより、ディープラーニングモデルは現実世界の設定では信頼できない。 モデルパラメータを最適化経路に沿って平均化する単純なプロトコルは、トレーニングの早い段階でドメインの一般化を著しく促進し、信頼性の高いモデル選択に不可欠なドメイン内検証精度とドメイン外テスト精度のランク相関を改善することにより、確率の影響を低減させる。 次に、独立に訓練されたモデルのアンサンブルがdg設定においてカオス挙動を持つことを示す。 観測結果から,非平均モデルではなく,異なるランから移動平均モデル(EoA)をアンサンブルすることで安定性が向上し,性能がさらに向上することを示す。 ドメインベースベンチマークでは、imagenetで事前トレーニングされたresnet-50を使用すると、平均値のアンサンブルはpacで8.6\%$、vlcsで79.1\%$、officehomeで72.5\%$、地形認識で522.3\%、domainnetで47.4\%、平均で68.0\%$、erm(w/oモデル平均値)を$\sim 4\%$となる。 また、より大きなデータセット上で事前トレーニングされたモデルを評価し、EoAが平均精度72.7 %$を達成し、対応するERMベースラインを5 %$で上回ることを示す。

In Domain Generalization (DG) settings, models trained on a given set of training domains have notoriously chaotic performance on distribution shifted test domains, and stochasticity in optimization (e.g. seed) plays a big role. This makes deep learning models unreliable in real world settings. We first show that a simple protocol for averaging model parameters along the optimization path, starting early during training, both significantly boosts domain generalization and diminishes the impact of stochasticity by improving the rank correlation between the in-domain validation accuracy and out-domain test accuracy, which is crucial for reliable model selection. Next, we show that an ensemble of independently trained models also has a chaotic behavior in the DG setting. Taking advantage of our observation, we show that instead of ensembling unaveraged models, ensembling moving average models (EoA) from different runs does increase stability and further boosts performance. On the DomainBed benchmark, when using a ResNet-50 pre-trained on ImageNet, this ensemble of averages achieves $88.6\%$ on PACS, $79.1\%$ on VLCS, $72.5\%$ on OfficeHome, $52.3\%$ on TerraIncognita, and $47.4\%$ on DomainNet, an average of $68.0\%$, beating ERM (w/o model averaging) by $\sim 4\%$. We also evaluate a model that is pre-trained on a larger dataset, where we show EoA achieves an average accuracy of $72.7\%$, beating its corresponding ERM baseline by $5\%$.
翻訳日:2021-10-22 16:33:41 公開日:2021-10-21
# フレキシブルガイダンス入力によるDeep Image Matting

Deep Image Matting with Flexible Guidance Input ( http://arxiv.org/abs/2110.10898v1 )

ライセンス: Link先を確認
Hang Cheng, Shugong Xu, Xiufeng Jiang, Rongrong Wang(参考訳) イメージマットングは重要なコンピュータビジョンの問題である。 多くの既存のマットリング手法は補助情報を提供するために手作りのトリマップを必要とするが、これは非常に高価で現実世界の使用を制限している。 近年,ユーザ入力を完全に排除するトリマップフリーな手法が提案されている。 しかしながら、そのパフォーマンスは、ガイダンス情報がないため、trimapベースのメソッドよりもはるかに遅れている。 本稿では,ユーザヒントとしてFlexible Guidance Inputを使用すれば,トリマップやスクリブルマップ,あるいはクリックマップをガイダンス情報として使用したり,あるいはガイダンス入力なしで作業を行うことが可能なマッチング手法を提案する。 これを実現するために,トレーニングステップでトライアングルの前景と背景の面積を徐々に縮小し,最終的にスクリブルマップとなるプログレッシブ・トリマップ変形(PTD)方式を提案する。 ユーザのスクリブルやクリックに対してネットワークを堅牢にするために,前景や背景の点をランダムにサンプリングし,カーブフィッティングを行う。 また,FPEM (Feature Pyramid Enhancement Module) とJPU (Joint Pyramid Upsampling) を交配作業に利用したSemantic Fusion Module (SFM) を提案する。 本手法は既存のtrimap-basedおよびtrimap-free法と比較して最先端の結果が得られることを示す。

Image matting is an important computer vision problem. Many existing matting methods require a hand-made trimap to provide auxiliary information, which is very expensive and limits the real world usage. Recently, some trimap-free methods have been proposed, which completely get rid of any user input. However, their performance lag far behind trimap-based methods due to the lack of guidance information. In this paper, we propose a matting method that use Flexible Guidance Input as user hint, which means our method can use trimap, scribblemap or clickmap as guidance information or even work without any guidance input. To achieve this, we propose Progressive Trimap Deformation(PTD) scheme that gradually shrink the area of the foreground and background of the trimap with the training step increases and finally become a scribblemap. To make our network robust to any user scribble and click, we randomly sample points on foreground and background and perform curve fitting. Moreover, we propose Semantic Fusion Module(SFM) which utilize the Feature Pyramid Enhancement Module(FPEM) and Joint Pyramid Upsampling(JPU) in matting task for the first time. The experiments show that our method can achieve state-of-the-art results comparing with existing trimap-based and trimap-free methods.
翻訳日:2021-10-22 16:33:02 公開日:2021-10-21
# 固有変形場におけるデータマニフォールドの平坦変形による自律次元低減

Autonomous Dimension Reduction by Flattening Deformation of Data Manifold under an Intrinsic Deforming Field ( http://arxiv.org/abs/2110.10938v1 )

ライセンス: Link先を確認
Xiaodong Zhuang(参考訳) データ多様体の自律的変形により,データセットの次元減少(DR)法を提案する。 この変形は、データポイント間の2種類の仮想相互作用によって定義される変形ベクトル場によって導かれる。 データ多様体の平坦化は、データ点間の弾性的かつ忌避的相互作用の下での創発的挙動として達成され、一方、多様体の位相構造は保存される。 不均一サンプリング(ショートカットエッジ)問題を克服するため、隣接する次数が定義され、隣接する点間の適応的相互作用が実現されたソフト近所を提案する。 提案手法は次元縮小に関する新しい幾何学的視点を提供する。 実験により, 提案手法の有効性が証明され, データセットの暗黙的特徴も明らかになった。

A new dimension reduction (DR) method for data sets is proposed by autonomous deforming of data manifolds. The deformation is guided by the proposed deforming vector field, which is defined by two kinds of virtual interactions between data points. The flattening of data manifold is achieved as an emergent behavior under the elastic and repelling interactions between data points, meanwhile the topological structure of the manifold is preserved. To overcome the uneven sampling (or "short-cut edge") problem, the soft neighborhood is proposed, in which the neighbor degree is defined and adaptive interactions between neighbor points is implemented. The proposed method provides a novel geometric viewpoint on dimension reduction. Experimental results prove the effectiveness of the proposed method in dimension reduction, and implicit feature of data sets may also be revealed.
翻訳日:2021-10-22 16:32:40 公開日:2021-10-21
# 連続学習における中心損失正規化

Center Loss Regularization for Continual Learning ( http://arxiv.org/abs/2110.11314v1 )

ライセンス: Link先を確認
Kaustubh Olpadkar and Ekta Gavas(参考訳) さまざまなタスクを逐次学習する能力は、人工知能の開発に不可欠である。 一般に、ニューラルネットワークはこの能力に欠けており、主な障害は破滅的な忘れることである。 非定常データ分布からの漸進的に利用可能な情報が継続的に取得され、モデルが既に学んだことを破壊する。 提案手法では, 従来のタスクに近い新しいタスクの表現を投影し, 決定境界を一定に保ちながら, 古いタスクを記憶する。 我々は、新しいタスクの機能を旧タスクと同じクラスセンターに強制する正規化ペナルティとしてセンターロスを採用し、特徴を極めて差別的にする。 これは結果として、既に学んだ情報をほとんど忘れることにつながる。 この方法は実装が容易で、計算とメモリのオーバーヘッドを最小限に抑え、ニューラルネットワークが多くの逐次的に遭遇したタスクに対して高いパフォーマンスを維持することができる。 また、メモリリプレイと同時にセンターロスを用いることで、他のリプレイベースの戦略よりも優れていることを示す。 連続学習のための標準的なMNIST変種とともに、我々の手法をDigitsおよびPACSデータセットを用いて連続的なドメイン適応シナリオに適用する。 提案手法は,最先端の継続的学習手法と比較して,スケーラブルで効果的で,競争力のある性能を示す。

The ability to learn different tasks sequentially is essential to the development of artificial intelligence. In general, neural networks lack this capability, the major obstacle being catastrophic forgetting. It occurs when the incrementally available information from non-stationary data distributions is continually acquired, disrupting what the model has already learned. Our approach remembers old tasks by projecting the representations of new tasks close to that of old tasks while keeping the decision boundaries unchanged. We employ the center loss as a regularization penalty that enforces new tasks' features to have the same class centers as old tasks and makes the features highly discriminative. This, in turn, leads to the least forgetting of already learned information. This method is easy to implement, requires minimal computational and memory overhead, and allows the neural network to maintain high performance across many sequentially encountered tasks. We also demonstrate that using the center loss in conjunction with the memory replay outperforms other replay-based strategies. Along with standard MNIST variants for continual learning, we apply our method to continual domain adaptation scenarios with the Digits and PACS datasets. We demonstrate that our approach is scalable, effective, and gives competitive performance compared to state-of-the-art continual learning methods.
翻訳日:2021-10-22 16:31:06 公開日:2021-10-21
# CLOOB:InfoLOOB Outperform CLIPによる最新のホップフィールドネットワーク

CLOOB: Modern Hopfield Networks with InfoLOOB Outperform CLIP ( http://arxiv.org/abs/2110.11316v1 )

ライセンス: Link先を確認
Andreas F\"urst, Elisabeth Rumetshofer, Viet Tran, Hubert Ramsauer, Fei Tang, Johannes Lehner, David Kreil, Michael Kopp, G\"unter Klambauer, Angela Bitto-Nemling, Sepp Hochreiter(参考訳) インフォデンス目標との対比学習は、様々な自己監督学習タスクにおいて非常に成功している。 近年のCLIPモデルでは,自然言語の教師による視覚表現学習にInfoNCEを用いた場合,ゼロショット転送学習において顕著な結果が得られた。 しかし、相互情報に対する下限としてのインフォデンスは、高い相互情報に対して不十分であることが示されている。 対照的にInfoLOOB上界は高い相互情報に対してうまく機能するが、大きなばらつきと不安定さに悩まされる。 本稿では,現代のホップフィールドネットワークがInfoLOOBの目的によって学習を促進する「コントラスト・リート・ワン・アウト・ブースト(CLOOB)」を紹介した。 現代のホップフィールドネットワークは、InfoLOOBの目的に到達した埋め込みによって元の埋め込みを置き換える。 取得した埋め込みはInfoLOOBに2つの資産を与える。 第一に、検索された埋め込みは、元の埋め込みよりもノイズが少なく、互いに似ているため、インフォルーブを安定化する。 第2に、埋め込みの共分散構造は検索によって強化されるため、相関によって強化される。 CLOOBとCLIPは、他のデータセットでのゼロショット転送学習性能について、概念キャプションとYFCCデータセットについて学習した後、比較する。 CLOOBは、考慮されたすべてのアーキテクチャとデータセットにわたるゼロショット転送学習において、CLIPを一貫して上回る。

Contrastive learning with the InfoNCE objective is exceptionally successful in various self-supervised learning tasks. Recently, the CLIP model yielded impressive results on zero-shot transfer learning when using InfoNCE for learning visual representations from natural language supervision. However, InfoNCE as a lower bound on the mutual information has been shown to perform poorly for high mutual information. In contrast, the InfoLOOB upper bound (leave one out bound) works well for high mutual information but suffers from large variance and instabilities. We introduce "Contrastive Leave One Out Boost" (CLOOB), where modern Hopfield networks boost learning with the InfoLOOB objective. Modern Hopfield networks replace the original embeddings by retrieved embeddings in the InfoLOOB objective. The retrieved embeddings give InfoLOOB two assets. Firstly, the retrieved embeddings stabilize InfoLOOB, since they are less noisy and more similar to one another than the original embeddings. Secondly, they are enriched by correlations, since the covariance structure of embeddings is reinforced through retrievals. We compare CLOOB to CLIP after learning on the Conceptual Captions and the YFCC dataset with respect to their zero-shot transfer learning performance on other datasets. CLOOB consistently outperforms CLIP at zero-shot transfer learning across all considered architectures and datasets.
翻訳日:2021-10-22 16:30:48 公開日:2021-10-21
# SMOF: ハードウェアフレンドリーなCNNプルーニングでフィルタをもっと使いこなす

SMOF: Squeezing More Out of Filters Yields Hardware-Friendly CNN Pruning ( http://arxiv.org/abs/2110.10842v1 )

ライセンス: Link先を確認
Yanli Liu, Bochen Guan, Qinwen Xu, Weiyi Li, and Shuxue Quan(参考訳) 長年にわたって、畳み込みニューラルネットワーク(CNN)のファミリーは、ディープラーニングにおけるワークホースであった。 近年,多くの新しいCNN構造が,ますます困難な課題に対処するよう設計されている。 エッジデバイス上で効率的に動作するようにするため、研究者はメモリと計算コストを削減するために様々な構造化ネットワークプルーニング戦略を提案した。 しかし、その多くは個々のフィルタチャネルの冗長性を考慮せずに、レイヤ毎のフィルタチャネル数を減らすことにのみ焦点を合わせている。 本研究では,他の次元,カーネルサイズからのプルーニングについて検討する。 我々はcnn pruningフレームワークsmofを開発し,カーネルサイズとフィルタチャネル数の両方を削減し,フィルタの絞り込みを行う。 特に、SMOFは、カスタマイズされた低レベル実装のない標準ハードウェアデバイスと親和性があり、カーネルサイズ削減によるプルーニングの取り組みは、汎用プロセッサのSIMDユニットの固定サイズ幅制限に支障を来さない。 刈り取られたネットワークは、実行時間を大幅に削減して、無益にデプロイできる。 また,様々なcnn構造およびモバイルデバイス用汎用プロセッサに関する広範囲な実験を通じて,これらの主張を支持している。

For many years, the family of convolutional neural networks (CNNs) has been a workhorse in deep learning. Recently, many novel CNN structures have been designed to address increasingly challenging tasks. To make them work efficiently on edge devices, researchers have proposed various structured network pruning strategies to reduce their memory and computational cost. However, most of them only focus on reducing the number of filter channels per layer without considering the redundancy within individual filter channels. In this work, we explore pruning from another dimension, the kernel size. We develop a CNN pruning framework called SMOF, which Squeezes More Out of Filters by reducing both kernel size and the number of filter channels. Notably, SMOF is friendly to standard hardware devices without any customized low-level implementations, and the pruning effort by kernel size reduction does not suffer from the fixed-size width constraint in SIMD units of general-purpose processors. The pruned networks can be deployed effortlessly with significant running time reduction. We also support these claims via extensive experiments on various CNN structures and general-purpose processors for mobile devices.
翻訳日:2021-10-22 16:30:28 公開日:2021-10-21
# ミキサーベースlidarレーン検出ネットワークおよび都市道路用データセット

Mixer-based lidar lane detection network and dataset for urban roads ( http://arxiv.org/abs/2110.11048v1 )

ライセンス: Link先を確認
Donghee Paek, Seung-Hyun Kong and Kevin Tirta Wijaya(参考訳) 様々な道路条件下での正確な車線検出は、自動運転にとって重要な機能である。 一般的に、前方カメラ画像から検出された車線線を鳥眼ビュー(BEV)に投影して運動計画を行うと、その結果の車線線が歪むことが多い。 また、畳み込みニューラルネットワーク(CNN)ベースの特徴抽出器は、レーン線などのグローバルな特徴を検出するために受容野を増大させると、しばしば分解能を失う。 しかし、ライダー点雲は、BEV投影における画像歪みが少ない。 レーンラインはBEV画像全体に細く伸びるが、一部しか占めていないため、高解像度のグローバルな特徴としてレーンラインを検出すべきである。 本稿では,ライダーポイントクラウドから局所的な特徴を抽出し,グローバルな特徴を認識し,BEVエンコーダ,Mixerベースのグローバル特徴抽出器,検出ヘッドを用いてレーン線を検出するLane Mixer Network(LMN)を提案する。 さらに,様々な都市道路条件下で最大6車線を有するライダー,Kレーンに対して,世界初となる大都市レーンデータセットを提供する。 提案するLMNは,K-Laneを用いたF1スコア91.67%の最先端性能を実現する。 K-Lane、LMNトレーニングコード、事前トレーニングされたモデル、データセット開発プラットフォームはgithubで利用可能だ。

Accurate lane detection under various road conditions is a critical function for autonomous driving. Generally, when detected lane lines from a front camera image are projected into a birds-eye view (BEV) for motion planning, the resulting lane lines are often distorted. And convolutional neural network (CNN)-based feature extractors often lose resolution when increasing the receptive field to detect global features such as lane lines. However, Lidar point cloud has little image distortion in the BEV-projection. Since lane lines are thin and stretch over entire BEV image while occupying only a small portion, lane lines should be detected as a global feature with high resolution. In this paper, we propose Lane Mixer Network (LMN) that extracts local features from Lidar point cloud, recognizes global features, and detects lane lines using a BEV encoder, a Mixer-based global feature extractor, and a detection head, respectively. In addition, we provide a world-first large urban lane dataset for Lidar, K-Lane, which has maximum 6 lanes under various urban road conditions. We demonstrate that the proposed LMN achieves the state-of-the-art performance, an F1 score of 91.67%, with K-Lane. The K-Lane, LMN training code, pre-trained models, and total dataset development platform are available at github.
翻訳日:2021-10-22 16:30:07 公開日:2021-10-21
# Nested Subjective Timescalesを用いた変動予測ルーティング

Variational Predictive Routing with Nested Subjective Timescales ( http://arxiv.org/abs/2110.11236v1 )

ライセンス: Link先を確認
Alexey Zakharov, Qinghai Guo, Zafeirios Fountas(参考訳) 逐次データにおける時空間階層の発見と学習は、機械学習の重要なトピックである。 それにもかかわらず、時間的ダイナミクスの異なるデータセットに柔軟に対応して階層的表現を適応させることができる階層的生成モデルの研究は、ほとんど行われていない。 本稿では,その変化率に基づいて映像特徴の潜在表現を時間階層に整理し,連続データを階層的更新プロセスとしてモデル化するニューラルネットワークである変分予測ルーティング(VPR)を提案する。 システムの潜時表現のみに依存するイベント検出機構(別モデルを必要としない)を利用することで、VPRは観測された特徴の変化に従って内部状態を動的に調整し、モデル潜時階層のレベルを越えて最適な表現の組織化を促進することができる。 いくつかのビデオデータセットを用いて、VPRはイベント境界を検出し、その階層にわたって時空間の特徴を分散させ、データのダイナミクスに適応し、未来の正確な時間に依存しないロールアウトを生成することができることを示す。 我々のアプローチは神経科学の知見を統合し、フレキシブルで情報的な状態空間のロールアウトが特に関心を持つモデルベース強化学習の応用の可能性の高いフレームワークを導入する。

Discovery and learning of an underlying spatiotemporal hierarchy in sequential data is an important topic for machine learning. Despite this, little work has been done to explore hierarchical generative models that can flexibly adapt their layerwise representations in response to datasets with different temporal dynamics. Here, we present Variational Predictive Routing (VPR) - a neural probabilistic inference system that organizes latent representations of video features in a temporal hierarchy, based on their rates of change, thus modeling continuous data as a hierarchical renewal process. By employing an event detection mechanism that relies solely on the system's latent representations (without the need of a separate model), VPR is able to dynamically adjust its internal state following changes in the observed features, promoting an optimal organisation of representations across the levels of the model's latent hierarchy. Using several video datasets, we show that VPR is able to detect event boundaries, disentangle spatiotemporal features across its hierarchy, adapt to the dynamics of the data, and produce accurate time-agnostic rollouts of the future. Our approach integrates insights from neuroscience and introduces a framework with high potential for applications in model-based reinforcement learning, where flexible and informative state-space rollouts are of particular interest.
翻訳日:2021-10-22 16:26:28 公開日:2021-10-21
# PAC-Bayes境界へのユーザフレンドリーな導入

User-friendly introduction to PAC-Bayes bounds ( http://arxiv.org/abs/2110.11216v1 )

ライセンス: Link先を確認
Pierre Alquier(参考訳) 集約予測器は、基本的な予測器の集合をいくつかの重み、すなわち確率分布に応じて投票することによって得られる。 ある所定の確率分布に応じて、一連の基本予測器をサンプリングしてランダム化された予測器を得る。 したがって、集約されたランダム化された予測器は、最小化問題ではなく、予測器の集合上の確率分布によって定義される。 統計的学習理論では、これらの手順の一般化能力を理解するために設計された一連のツールがある。 もともとのマクレスターのPAC-ベイス境界以来、これらのツールは様々な方向に大幅に改善されてきた(例えば、コミュニティが見逃したカトニのローカライゼーションテクニックの単純化版を記述し、後に「ミューチュアル情報境界」として再発見された)。 例えば NIPS 2017 では,B. Guedj,F. Bach,P. Germain 両氏が主催した "(Almost) 50 Shades of Bayesian Learning: PAC-Bayesian trend and insights" というワークショップがあった。 この成功の理由の1つは、DziugaiteとRoyによるニューラルネットワークへのこれらの境界の適用の成功である。 PAC-Bayes理論の初歩的な導入はいまだに欠けている。 これはそのような紹介を提供する試みである。

Aggregated predictors are obtained by making a set of basic predictors vote according to some weights, that is, to some probability distribution. Randomized predictors are obtained by sampling in a set of basic predictors, according to some prescribed probability distribution. Thus, aggregated and randomized predictors have in common that they are not defined by a minimization problem, but by a probability distribution on the set of predictors. In statistical learning theory, there is a set of tools designed to understand the generalization ability of such procedures: PAC-Bayesian or PAC-Bayes bounds. Since the original PAC-Bayes bounds of McAllester, these tools have been considerably improved in many directions (we will for example describe a simplified version of the localization technique of Catoni that was missed by the community, and later rediscovered as "mutual information bounds"). Very recently, PAC-Bayes bounds received a considerable attention: for example there was workshop on PAC-Bayes at NIPS 2017, "(Almost) 50 Shades of Bayesian Learning: PAC-Bayesian trends and insights", organized by B. Guedj, F. Bach and P. Germain. One of the reason of this recent success is the successful application of these bounds to neural networks by Dziugaite and Roy. An elementary introduction to PAC-Bayes theory is still missing. This is an attempt to provide such an introduction.
翻訳日:2021-10-22 16:23:33 公開日:2021-10-21
# 前向きSDE理論を用いたSchr\"odinger Bridgeの模擬訓練

Likelihood Training of Schr\"odinger Bridge using Forward-Backward SDEs Theory ( http://arxiv.org/abs/2110.11291v1 )

ライセンス: Link先を確認
Tianrong Chen, Guan-Horng Liu, Evangelos A. Theodorou(参考訳) Schr\"odinger Bridge (SB) は、Scored-based Generative Model (SGM) と比較して、その数学的柔軟性のために、深い生成モデルにおいて注目を集めている最適な輸送問題である。 しかし、SBの最適化原理が、しばしばパラメータ化されたログライクな目的の構築に依存する深層生成モデルの近代的な訓練と関係しているかどうかは不明である。 本研究では,SBの最適条件を一組のSDEに変換する確率的最適制御に現れる数学的方法論である,前方確率微分方程式理論に基づくSBモデルの確率的トレーニングのための新しい計算フレームワークを提案する。 重要なことに、これらのSDEはSBの潜在的目的を構築するために使用することができ、驚くべきことに、SGMの目的を特別なケースとして一般化することができる。 これにより、現代の生成訓練技術の応用を損なうことなく、sbの最適性を継承する新しい最適化原理が導かれるとともに、mnist、celeba、cifar10上の現実的な画像を生成するのに匹敵する結果が得られることを示した。

Schr\"odinger Bridge (SB) is an optimal transport problem that has received increasing attention in deep generative modeling for its mathematical flexibility compared to the Scored-based Generative Model (SGM). However, it remains unclear whether the optimization principle of SB relates to the modern training of deep generative models, which often rely on constructing parameterized log-likelihood objectives.This raises questions on the suitability of SB models as a principled alternative for generative applications. In this work, we present a novel computational framework for likelihood training of SB models grounded on Forward-Backward Stochastic Differential Equations Theory -- a mathematical methodology appeared in stochastic optimal control that transforms the optimality condition of SB into a set of SDEs. Crucially, these SDEs can be used to construct the likelihood objectives for SB that, surprisingly, generalizes the ones for SGM as special cases. This leads to a new optimization principle that inherits the same SB optimality yet without losing applications of modern generative training techniques, and we show that the resulting training algorithm achieves comparable results on generating realistic images on MNIST, CelebA, and CIFAR10.
翻訳日:2021-10-22 16:23:07 公開日:2021-10-21
# 複数のドメイン学習のためのメモリ効率の良い適応注意

Memory Efficient Adaptive Attention For Multiple Domain Learning ( http://arxiv.org/abs/2110.10969v1 )

ライセンス: Link先を確認
Himanshu Pradeep Aswani, Abhiraj Sunil Kanse, Shubhang Bhatnagar, Amit Sethi(参考訳) 新しいドメインでスクラッチからCNNを訓練するには、通常、大量のラベル付きイメージと計算が必要であり、低消費電力のハードウェアには適さない。 これらの要求を減らす方法の1つは、CNNアーキテクチャをモジュール化し、重いモジュール、すなわち事前トレーニング後の下位レイヤの重量を凍結することである。 近年の研究では、新しいドメインで完全に調整されたCNNの精度に適合する訓練可能なパラメータの数を削減できる代替のモジュラーアーキテクチャとスキームが提案されている。 我々の研究は、トレーニング可能なパラメータの桁数によるさらなる削減が可能であることを示唆している。 さらに, 固定モジュールとトレーニング可能なモジュール間の相互接続数, 必要なトレーニングサンプル数, 計算の順序, トレーニングデータの部分的ミスラベル化に対する堅牢性など, 複数のドメイン学習のための新しいモジュール化手法を, その他の現実的な指標と比較することを提案する。 これらすべての基準に基づいて、提案されたアーキテクチャは現在の最先端技術よりも優位性を示す。

Training CNNs from scratch on new domains typically demands large numbers of labeled images and computations, which is not suitable for low-power hardware. One way to reduce these requirements is to modularize the CNN architecture and freeze the weights of the heavier modules, that is, the lower layers after pre-training. Recent studies have proposed alternative modular architectures and schemes that lead to a reduction in the number of trainable parameters needed to match the accuracy of fully fine-tuned CNNs on new domains. Our work suggests that a further reduction in the number of trainable parameters by an order of magnitude is possible. Furthermore, we propose that new modularization techniques for multiple domain learning should also be compared on other realistic metrics, such as the number of interconnections needed between the fixed and trainable modules, the number of training samples needed, the order of computations required and the robustness to partial mislabeling of the training data. On all of these criteria, the proposed architecture demonstrates advantages over or matches the current state-of-the-art.
翻訳日:2021-10-22 16:18:52 公開日:2021-10-21
# stylealign:アライメントスタイルガンモデルの解析と応用

StyleAlign: Analysis and Applications of Aligned StyleGAN Models ( http://arxiv.org/abs/2110.11323v1 )

ライセンス: Link先を確認
Zongze Wu, Yotam Nitzan, Eli Shechtman, Dani Lischinski(参考訳) 本稿では,アライメント生成モデルの特性と応用について,詳細な研究を行う。 2つのモデルが同じアーキテクチャを共有している場合、その1つのモデル(子ども)は、別のドメインに微調整することで、もう一方(親)から取得される。 いくつかの作品は、既にアライメントされたスタイルガンモデルの基本的な特性を利用して画像から画像への翻訳を行っている。 ここでは、モデルアライメントに関する最初の詳細な調査を行い、StyleGANにも焦点を当てる。 まず,協調したモデルを経験的に分析し,その性質に関する重要な質問に答える。 特に、子モデルの潜伏空間は、人間の顔や教会のような遠いデータドメインであっても、非常にリッチなセマンティクスを継承し、親の空間と意味的に一致していることがわかりました。 第二に、このより良い理解を生かして、さまざまなタスクの集合を解決するために整列モデルを活用します。 画像変換に加えて,完全自動クロスドメイン画像モーフィングを示す。 さらに、ゼロショットビジョンタスクは、親ドメインの監督にのみ依存しながら、子ドメインで実行される可能性があることを示す。 我々は,単純な微調整と反転のみを必要とするが,そのアプローチが最先端の結果をもたらすことを質的かつ定量的に示す。

In this paper, we perform an in-depth study of the properties and applications of aligned generative models. We refer to two models as aligned if they share the same architecture, and one of them (the child) is obtained from the other (the parent) via fine-tuning to another domain, a common practice in transfer learning. Several works already utilize some basic properties of aligned StyleGAN models to perform image-to-image translation. Here, we perform the first detailed exploration of model alignment, also focusing on StyleGAN. First, we empirically analyze aligned models and provide answers to important questions regarding their nature. In particular, we find that the child model's latent spaces are semantically aligned with those of the parent, inheriting incredibly rich semantics, even for distant data domains such as human faces and churches. Second, equipped with this better understanding, we leverage aligned models to solve a diverse set of tasks. In addition to image translation, we demonstrate fully automatic cross-domain image morphing. We further show that zero-shot vision tasks may be performed in the child domain, while relying exclusively on supervision in the parent domain. We demonstrate qualitatively and quantitatively that our approach yields state-of-the-art results, while requiring only simple fine-tuning and inversion.
翻訳日:2021-10-22 16:16:49 公開日:2021-10-21
# ヒト感覚運動子のノイズ特性に適応した逆最適制御

Inverse Optimal Control Adapted to the Noise Characteristics of the Human Sensorimotor System ( http://arxiv.org/abs/2110.11130v1 )

ライセンス: Link先を確認
Matthias Schultheis, Dominik Straub, Constantin A. Rothkopf(参考訳) 信号依存ノイズを用いた最適フィードバック制御に基づく計算レベルの説明は、人間の感覚運動行動における膨大な現象を説明できる。 しかし、一般的にはコスト関数をタスクとして仮定し、観察および予測された軌道を比較することにより、人間の行動の最適性を評価する必要がある。 本稿では,観測行動からコスト関数を推定できる信号依存雑音を用いた逆最適制御を提案する。 そこで我々は,この問題を部分的に観測可能なマルコフ決定プロセスとして定式化し,エージェントと実験者の推論問題を区別する。 具体的には、状態と信念状態の進化の確率論的定式化と、信号依存雑音を伴う線形四次ガウス問題における伝播方程式の近似を求める。 我々は,実験者の視点から,状態変数の部分可観測性にモデルを拡張した。 合成データの検証と実験データへの適用を通して,本手法の有効性を示す。 本手法は,人間の逐次的感覚運動行動におけるコストと利益の回復を可能にし,計算フレームワークにおける規範的および記述的アプローチの調和を図る。

Computational level explanations based on optimal feedback control with signal-dependent noise have been able to account for a vast array of phenomena in human sensorimotor behavior. However, commonly a cost function needs to be assumed for a task and the optimality of human behavior is evaluated by comparing observed and predicted trajectories. Here, we introduce inverse optimal control with signal-dependent noise, which allows inferring the cost function from observed behavior. To do so, we formalize the problem as a partially observable Markov decision process and distinguish between the agent's and the experimenter's inference problems. Specifically, we derive a probabilistic formulation of the evolution of states and belief states and an approximation to the propagation equation in the linear-quadratic Gaussian problem with signal-dependent noise. We extend the model to the case of partial observability of state variables from the point of view of the experimenter. We show the feasibility of the approach through validation on synthetic data and application to experimental data. Our approach enables recovering the costs and benefits implicit in human sequential sensorimotor behavior, thereby reconciling normative and descriptive approaches in a computational framework.
翻訳日:2021-10-22 16:16:28 公開日:2021-10-21
# CNewSum: 人間の注意力と教育能力を備えた大規模中国語ニュース要約データセット

CNewSum: A Large-scale Chinese News Summarization Dataset with Human-annotated Adequacy and Deducibility Level ( http://arxiv.org/abs/2110.10874v1 )

ライセンス: Link先を確認
Danqing Wang, Jiaze Chen, Xianze Wu, Hao Zhou and Lei Li(参考訳) テキストの自動要約は、入力文書の簡潔だが重要な要約を作成することを目的としている。 抽出法と抽象法の両方が、近年の英語データセットで大きな成功を収めている。 しかし、大規模なデータセットが不足しているため、中国語でテキスト要約の最小限の探索が行われた。 本稿では,304,307件の文書と人文要約からなる大規模中国語ニュース要約データセットCNewSumを提案する。 長い文書と高い抽象的な要約を持ち、現在の要約モデルに対する文書レベルの理解と生成を促進することができる。 CNewSumのもう1つの特徴は、そのテストセットが要約のための妥当性と再現性アノテーションを含んでいることである。 妥当性レベルは、文書がカバーする要約情報の度合いを測定し、再現性は、モデルが要約を生成するために必要な推論能力を示す。 これらのアノテーションは、研究者がモデルパフォーマンスボトルネックを分析し、ターゲットにすることができる。 我々は,cnewsumに関する最近の手法を調査し,中国語自動要約研究のための堅実なテストベッドを提供するためにデータセットをリリースする。

Automatic text summarization aims to produce a brief but crucial summary for the input documents. Both extractive and abstractive methods have witnessed great success in English datasets in recent years. However, there has been a minimal exploration of text summarization in Chinese, limited by the lack of large-scale datasets. In this paper, we present a large-scale Chinese news summarization dataset CNewSum, which consists of 304,307 documents and human-written summaries for the news feed. It has long documents with high-abstractive summaries, which can encourage document-level understanding and generation for current summarization models. An additional distinguishing feature of CNewSum is that its test set contains adequacy and deducibility annotations for the summaries. The adequacy level measures the degree of summary information covered by the document, and the deducibility indicates the reasoning ability the model needs to generate the summary. These annotations can help researchers analyze and target their model performance bottleneck. We examine recent methods on CNewSum and release our dataset to provide a solid testbed for automatic Chinese summarization research.
翻訳日:2021-10-22 16:11:04 公開日:2021-10-21
# 混合学習による非自己回帰生成の改善

Improving Non-autoregressive Generation with Mixup Training ( http://arxiv.org/abs/2110.11115v1 )

ライセンス: Link先を確認
Ting Jiang, Shaohan Huang, Zihan Zhang, Deqing Wang, Fuzhen Zhuang, Furu Wei, Haizhen Huang, Liangjie Zhang, Qi Zhang(参考訳) 事前学習された言語モデルは、様々な自然言語理解タスクで大きな成功を収めているが、それらを非自己回帰的な生成タスクに効果的に活用する方法は依然として課題である。 そこで本研究では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。 自己回帰モデルと非自己回帰モデルとのギャップを埋めるために,MIx Source and pseudo Target (MIST) と呼ばれるシンプルで効果的な反復訓練手法を提案する。 推論速度を犠牲にして、複数の復号化イテレーションに基づいてより良いパフォーマンスを達成する他の反復復号法とは異なり、mistはトレーニングステージで動作し、推論時間に影響を与えない。 質問生成,要約,パラフレーズ生成を含む3世代ベンチマーク実験により,提案手法が完全非自己回帰モデルに対する新しい最先端結果を実現することを示す。 また,本手法を様々な事前学習モデルに適用できることを実証した。 例えば、訓練済みの小さなモデルに基づくMISTは、Seq2seqモデルと同等のパフォーマンスを得る。

While pre-trained language models have achieved great success on various natural language understanding tasks, how to effectively leverage them into non-autoregressive generation tasks remains a challenge. To solve this problem, we present a non-autoregressive generation model based on pre-trained transformer models. To bridge the gap between autoregressive and non-autoregressive models, we propose a simple and effective iterative training method called MIx Source and pseudo Target (MIST). Unlike other iterative decoding methods, which sacrifice the inference speed to achieve better performance based on multiple decoding iterations, MIST works in the training stage and has no effect on inference time. Our experiments on three generation benchmarks including question generation, summarization and paraphrase generation, show that the proposed framework achieves the new state-of-the-art results for fully non-autoregressive models. We also demonstrate that our method can be used to a variety of pre-trained models. For instance, MIST based on the small pre-trained model also obtains comparable performance with seq2seq models.
翻訳日:2021-10-22 16:10:47 公開日:2021-10-21
# 音響モデルの非同期分散分散学習

Asynchronous Decentralized Distributed Training of Acoustic Models ( http://arxiv.org/abs/2110.11199v1 )

ライセンス: Link先を確認
Xiaodong Cui, Wei Zhang, Abdullah Kayi, Mingrui Liu, Ulrich Finkler, Brian Kingsbury, George Saon, David Kung(参考訳) 深層音響モデルの大規模分散学習は、今日の高性能自動音声認識(asr)において重要な役割を果たす。 本稿では,データ並列確率勾配勾配(SGD)に基づく非同期分散型分散トレーニング戦略について検討し,特に大規模なバッチサイズを扱う場合において,Allreduceによる非同期分散トレーニングよりも優れた性能を示す。 具体的には,非同期分散並列SGD(ADPSGD)の3つの変種について検討する。 我々はADPSGDの数学的モデルを導入し、理論収束率を与え、3つの変種の経験収束挙動とストラグラーレジリエンス特性を比較した。 2000時間Switchboardデータセット上で、深部長期記憶(LSTM)音響モデルをトレーニングするためのIBMスーパーコンピュータ上で実験を行った。 提案手法の認識と高速化性能を様々なトレーニング構成で評価した。 固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。 学習者が等しく速い場合、ADPSGDと遅延・バイ・ワン戦略は大きなバッチで収束する。 特に遅延・バイ・ワン戦略を用いることで、128 v100 gpuのワード誤り率で音響モデルを2時間未満で訓練することができる。

Large-scale distributed training of deep acoustic models plays an important role in today's high-performance automatic speech recognition (ASR). In this paper we investigate a variety of asynchronous decentralized distributed training strategies based on data parallel stochastic gradient descent (SGD) to show their superior performance over the commonly-used synchronous distributed training via allreduce, especially when dealing with large batch sizes. Specifically, we study three variants of asynchronous decentralized parallel SGD (ADPSGD), namely, fixed and randomized communication patterns on a ring as well as a delay-by-one scheme. We introduce a mathematical model of ADPSGD, give its theoretical convergence rate, and compare the empirical convergence behavior and straggler resilience properties of the three variants. Experiments are carried out on an IBM supercomputer for training deep long short-term memory (LSTM) acoustic models on the 2000-hour Switchboard dataset. Recognition and speedup performance of the proposed strategies are evaluated under various training configurations. We show that ADPSGD with fixed and randomized communication patterns cope well with slow learners. When learners are equally fast, ADPSGD with the delay-by-one strategy has the fastest convergence with large batches. In particular, using the delay-by-one strategy, we can train the acoustic model in less than 2 hours using 128 V100 GPUs with competitive word error rates.
翻訳日:2021-10-22 16:10:29 公開日:2021-10-21
# (参考訳) RLで高分散は避けられないか? 連続制御の事例研究 [全文訳有]

Is High Variance Unavoidable in RL? A Case Study in Continuous Control ( http://arxiv.org/abs/2110.11222v1 )

ライセンス: CC BY 4.0
Johan Bjorck, Carla P. Gomes, Kilian Q. Weinberger(参考訳) 強化学習(rl)実験は高いばらつきがあり、小さな細部は測定結果に不釣り合いに大きな影響を与える可能性がある。 これは再現可能な研究を作成する上で問題であり、安全性と予測可能性が最重要である現実世界のアプリケーションにとって障害となる。 本稿では,この不安定感の原因について考察する。 詳細な分析を可能にするため,アクタ批判エージェントによる画素からの連続的な制御という,高い分散性を備えた,特に一般的な設定に着目する。 この設定では、低調な「異常」実行の結果、トレーニングの初期段階にばらつきがほとんど発生するが、重量初期化と初期探索が原因ではないことを実証する。 初期分散の原因の一つは、飽和非線形性をもたらす数値的不安定性である。 この問題に対するいくつかの修正を調査し、ある特定のメソッドが驚くほど効果的でシンプルであることを確認します。 学習不安定性に対処することで、学習率が向上し、結果のばらつきが大幅に減少する。 このことは、RLの知覚的分散が必ずしも問題定義に固有のものではなく、単純なアーキテクチャ修正によって対処できることを示している。

Reinforcement learning (RL) experiments have notoriously high variance, and minor details can have disproportionately large effects on measured outcomes. This is problematic for creating reproducible research and also serves as an obstacle for real-world applications, where safety and predictability are paramount. In this paper, we investigate causes for this perceived instability. To allow for an in-depth analysis, we focus on a specifically popular setup with high variance -- continuous control from pixels with an actor-critic agent. In this setting, we demonstrate that variance mostly arises early in training as a result of poor "outlier" runs, but that weight initialization and initial exploration are not to blame. We show that one cause for early variance is numerical instability which leads to saturating nonlinearities. We investigate several fixes to this issue and find that one particular method is surprisingly effective and simple -- normalizing penultimate features. Addressing the learning instability allows for larger learning rates, and significantly decreases the variance of outcomes. This demonstrates that the perceived variance in RL is not necessarily inherent to the problem definition and may be addressed through simple architectural modifications.
翻訳日:2021-10-22 16:04:31 公開日:2021-10-21
# mos: 顔検出、ランドマーク定位、頭部ポーズ推定のための低レイテンシで軽量なフレームワーク

MOS: A Low Latency and Lightweight Framework for Face Detection, Landmark Localization, and Head Pose Estimation ( http://arxiv.org/abs/2110.10953v1 )

ライセンス: Link先を確認
Yepeng Liu, Zaiwang Gu, Shenghua Gao, Dong Wang, Yusheng Zeng, Jun Cheng(参考訳) サービスロボットや監視カメラの出現により、野生の動的顔認識(dfr)は近年注目を集めている。 顔検出と頭部ポーズ推定はDFRの2つの重要なステップである。 多くの場合、顔検出後にポーズが推定される。 しかし、このような逐次計算によりレイテンシが高くなる。 本稿では,顔検出,ランドマーク位置推定,頭部ポーズ推定を同時に行う低レイテンシで軽量なネットワークを提案する。 大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。 また,各タスクの重み付けを自動的に学習するために,不確実なマルチタスク損失を提案する。 もうひとつの課題は、ロボットがARMベースのコンピューティングコアのような低計算単位を使用する場合が多く、重いものの代わりに軽量ネットワークを使用する場合が多いことです。 本稿では,学習データの多様性を自動的に向上させる学習サンプルを,さまざまなスケールで強化するオンラインフィードバックサンプリングを提案する。 WIDER FACE, AFLW, AFLW2000データセットの検証を通じて, 提案手法が低計算資源における最先端性能を実現することを示す。

With the emergence of service robots and surveillance cameras, dynamic face recognition (DFR) in wild has received much attention in recent years. Face detection and head pose estimation are two important steps for DFR. Very often, the pose is estimated after the face detection. However, such sequential computations lead to higher latency. In this paper, we propose a low latency and lightweight network for simultaneous face detection, landmark localization and head pose estimation. Inspired by the observation that it is more challenging to locate the facial landmarks for faces with large angles, a pose loss is proposed to constrain the learning. Moreover, we also propose an uncertainty multi-task loss to learn the weights of individual tasks automatically. Another challenge is that robots often use low computational units like ARM based computing core and we often need to use lightweight networks instead of the heavy ones, which lead to performance drop especially for small and hard faces. In this paper, we propose online feedback sampling to augment the training samples across different scales, which increases the diversity of training data automatically. Through validation in commonly used WIDER FACE, AFLW and AFLW2000 datasets, the results show that the proposed method achieves the state-of-the-art performance in low computational resources.
翻訳日:2021-10-22 14:39:17 公開日:2021-10-21
# SecureBoost+ : 大規模垂直フェデレーション学習のための高性能なグラディエントブースティングツリーフレームワーク

SecureBoost+ : A High Performance Gradient Boosting Tree Framework for Large Scale Vertical Federated Learning ( http://arxiv.org/abs/2110.10927v1 )

ライセンス: Link先を確認
Weijing Chen, Guoqiang Ma, Tao Fan, Yan Kang, Qian Xu, Qiang Yang(参考訳) グラディエントブースティング決定木(GBDT)は業界で広く使われているアンサンブルアルゴリズムである。 その縦型フェデレーション学習バージョンであるSecureBoostは、クロスサイロプライバシ保存モデリングで使用される最も一般的なアルゴリズムの1つである。 近年のプライバシ計算の分野が発展するにつれて、大規模かつ高性能なフェデレーション学習の需要は現実世界のアプリケーションで劇的に増大している。 本稿では,これらの要件を満たすために,SecureBoostを新規かつ改良したSecureBoost+を提案する。 SecureBoost+は、いくつかの暗号文計算最適化とエンジニアリング最適化を統合している。 実験の結果,SecureBoostと比較すると,Secureboost+は大規模かつ高次元のデータセットに対して顕著な性能向上を示した。 これにより、効率的で効率的な大規模垂直連合学習が可能になる。

Gradient boosting decision tree (GBDT) is a widely used ensemble algorithm in the industry. Its vertical federated learning version, SecureBoost, is one of the most popular algorithms used in cross-silo privacy-preserving modeling. As the area of privacy computation thrives in recent years, demands for large-scale and high-performance federated learning have grown dramatically in real-world applications. In this paper, to fulfill these requirements, we propose SecureBoost+ that is both novel and improved from the prior work SecureBoost. SecureBoost+ integrates several ciphertext calculation optimizations and engineering optimizations. The experimental results demonstrate that Secureboost+ has significant performance improvements on large and high dimensional data sets compared to SecureBoost. It makes effective and efficient large-scale vertical federated learning possible.
翻訳日:2021-10-22 14:34:28 公開日:2021-10-21
# 脳波を用いた運動画像復号のためのチャネルアテンションに基づくMLP-Mixerネットワーク

A channel attention based MLP-Mixer network for motor imagery decoding with EEG ( http://arxiv.org/abs/2110.10939v1 )

ライセンス: Link先を確認
Yanbin He, Zhiyang Lu, Jun Wang, Jun Shi(参考訳) 畳み込みニューラルネットワーク(CNN)とその変異体は脳波(EEG)に基づく運動画像(MI)デコードタスクにうまく適用されている。 しかし、これらのcnnベースのアルゴリズムは一般に脳波信号のグローバルな時間的依存性を知覚する限界を持っている。 さらに、分類タスクに対する異なるEEGチャネルの多様な貢献も無視する。 このような問題に対処するため,脳波を用いたMIデコーディングにおいて,新しいチャネルアテンションベースのMLP-Mixerネットワーク(CAMLP-Net)を提案する。 具体的には、このネットワークにMLPベースのアーキテクチャを適用し、時間的および空間的情報をキャプチャする。 注意機構は、異なるEEGチャネルの重要性を適応的に活用するために、MLP-Mixerにさらに組み込まれている。 そこで提案したCAMLP-Netは,よりグローバルな時間的・空間的な情報を効果的に学習することができる。 新たに構築したmi-2データセットにおける実験結果から,提案するcamlp-netは,比較したアルゴリズムの分類性能に優れることがわかった。

Convolutional neural networks (CNNs) and their variants have been successfully applied to the electroencephalogram (EEG) based motor imagery (MI) decoding task. However, these CNN-based algorithms generally have limitations in perceiving global temporal dependencies of EEG signals. Besides, they also ignore the diverse contributions of different EEG channels to the classification task. To address such issues, a novel channel attention based MLP-Mixer network (CAMLP-Net) is proposed for EEG-based MI decoding. Specifically, the MLP-based architecture is applied in this network to capture the temporal and spatial information. The attention mechanism is further embedded into MLP-Mixer to adaptively exploit the importance of different EEG channels. Therefore, the proposed CAMLP-Net can effectively learn more global temporal and spatial information. The experimental results on the newly built MI-2 dataset indicate that our proposed CAMLP-Net achieves superior classification performance over all the compared algorithms.
翻訳日:2021-10-22 14:34:11 公開日:2021-10-21
# FedGEMS:選択的知識融合による大規模サーバモデルのフェデレーション学習

FedGEMS: Federated Learning of Larger Server Models via Selective Knowledge Fusion ( http://arxiv.org/abs/2110.11027v1 )

ライセンス: Link先を確認
Sijie Cheng, Jingwen Wu, Yanghua Xiao, Yang Liu and Yang Liu(参考訳) 今日のデータは、セキュリティとプライバシーの制約のある何十億ものリソース制約のあるエッジデバイスに散らばっていることが多い。 フェデレーション学習(federated learning, fl)は、データをプライベートに保ちながらグローバルモデルを学ぶための有効なソリューションとして登場したが、flのモデルの複雑さはエッジノードの計算リソースによって妨げられている。 本研究では,FLのモデル容量を突破する強力なサーバモデルを活用するための新しいパラダイムについて検討する。 複数の教師のクライアントとそれ自身から選択的に学習することで、サーバモデルは深い知識を発達させ、その知識をクライアントに転送し、それぞれのパフォーマンスを高める。 提案フレームワークは,サーバモデルとクライアントモデルの両方において優れた性能を実現し,ヘテロジニアスクライアントアーキテクチャの柔軟性,中毒攻撃に対する堅牢性,クライアントとサーバ間の通信効率など,統一フレームワークにおけるいくつかの利点を提供する。 FLをより大規模なサーバモデルトレーニングで効果的にブリッジすることで、我々の提案パラダイムは、分散データとプライベートデータから堅牢で継続的な知識を蓄積する方法を舗装する。

Today data is often scattered among billions of resource-constrained edge devices with security and privacy constraints. Federated Learning (FL) has emerged as a viable solution to learn a global model while keeping data private, but the model complexity of FL is impeded by the computation resources of edge nodes. In this work, we investigate a novel paradigm to take advantage of a powerful server model to break through model capacity in FL. By selectively learning from multiple teacher clients and itself, a server model develops in-depth knowledge and transfers its knowledge back to clients in return to boost their respective performance. Our proposed framework achieves superior performance on both server and client models and provides several advantages in a unified framework, including flexibility for heterogeneous client architectures, robustness to poisoning attacks, and communication efficiency between clients and server. By bridging FL effectively with larger server model training, our proposed paradigm paves ways for robust and continual knowledge accumulation from distributed and private data.
翻訳日:2021-10-22 14:33:54 公開日:2021-10-21
# RoMA: ニューラルネットワークのロバスト性測定と評価方法

RoMA: a Method for Neural Network Robustness Measurement and Assessment ( http://arxiv.org/abs/2110.11088v1 )

ライセンス: Link先を確認
Natan Levy and Guy Katz(参考訳) ニューラルネットワークモデルは、分類、言語処理、タンパク質の折り畳みなど、さまざまなタスクにおいて主要なソリューションになっています。 しかし、その信頼性は、モデルが誤った出力を発生させる小さな入力摂動という、逆入力に悩まされている。 悪意のある敵がいなくても、システムの環境がランダムに振る舞うと、逆入力は自然に起こり、重要なシステムにニューラルネットワークをデプロイしようとする場合、深刻な原因となる。 本稿では,ニューラルネットワークモデルの期待ロバスト性を測定するためのロバストネス測定・評価(roma)と呼ばれる新しい統計手法を提案する。 特に、romaはランダムな入力摂動が誤分類を引き起こす確率を決定する。 この方法では、トレーニングされたモデルがデプロイ後に遭遇するエラーの予測頻度に関する正式な保証を提供することができる。 我々のアプローチは,最近提案された検証手法に比べて大きな利点を持つ大規模ブラックボックスニューラルネットワークに適用できる。 我々は、異なるモデルのロバスト性を比較し、入力摂動の大きさによってモデルのロバスト性がどのように影響を受けるかを測定する。 この研究を通じて得られた興味深い洞察は、分類ネットワークにおいて、異なる出力ラベルが全く異なる堅牢性レベルを示すことができることである。 この現象を分類的堅牢性と呼ぶ。 我々のリスク評価とロバスト性評価をカテゴリベースで行う能力は、リスク軽減への扉を開く。

Neural network models have become the leading solution for a large variety of tasks, such as classification, language processing, protein folding, and others. However, their reliability is heavily plagued by adversarial inputs: small input perturbations that cause the model to produce erroneous outputs. Adversarial inputs can occur naturally when the system's environment behaves randomly, even in the absence of a malicious adversary, and are a severe cause for concern when attempting to deploy neural networks within critical systems. In this paper, we present a new statistical method, called Robustness Measurement and Assessment (RoMA), which can measure the expected robustness of a neural network model. Specifically, RoMA determines the probability that a random input perturbation might cause misclassification. The method allows us to provide formal guarantees regarding the expected frequency of errors that a trained model will encounter after deployment. Our approach can be applied to large-scale, black-box neural networks, which is a significant advantage compared to recently proposed verification methods. We apply our approach in two ways: comparing the robustness of different models, and measuring how a model's robustness is affected by the magnitude of input perturbation. One interesting insight obtained through this work is that, in a classification network, different output labels can exhibit very different robustness levels. We term this phenomenon categorial robustness. Our ability to perform risk and robustness assessments on a categorial basis opens the door to risk mitigation, which may prove to be a significant step towards neural network certification in safety-critical applications.
翻訳日:2021-10-22 14:32:53 公開日:2021-10-21
# (参考訳) スケールでの高速モデル編集 [全文訳有]

Fast Model Editing at Scale ( http://arxiv.org/abs/2110.11309v1 )

ライセンス: CC BY 4.0
Eric Mitchell, Charles Lin, Antoine Bosselut, Chelsea Finn, Christopher D. Manning(参考訳) 大規模な事前訓練されたモデルでは、さまざまな下流タスクで印象的な結果が得られたが、既存のモデルでは依然としてエラーが発生しており、正確な予測は時間とともに時代遅れになる可能性がある。 トレーニング時にこのような障害を検出することは不可能であるため、モデルの開発者とエンドユーザの両方が不正確なアウトプットを修正できると同時に、モデルをそのまま残しておくことが望ましい。 しかし、大規模ニューラルネットワークによって学習される表現の分散されたブラックボックスの性質は、そのようなターゲットの編集を困難にしている。 1つの問題のある入力と新しい出力でのみ提示される場合、微調整のアプローチは過度に適合する傾向にあり、他の編集アルゴリズムは計算的に不可能か、あるいは非常に大きなモデルに適用した場合に単純に有効ではない。 大規模で簡単なポストホック編集を実現するために,1つの所望の入出力ペアを用いて,学習済みモデルに高速で局所的な編集を行う,小さな補助的編集ネットワークであるモデルエディタネットワーク(MEND)を提案する。 MENDは、勾配の低ランク分解を用いて標準微調整によって得られる勾配を変換することを学び、この変換のパラメータ化を誘引可能である。 MENDは100億以上のパラメータモデルであっても1日以内で1つのGPUでトレーニングすることができる。 T5, GPT, BERT, BARTモデルを用いた実験により, MENDはモデル編集における唯一のアプローチであり, 数千万から100億以上のパラメータを持つモデルに対して, 効率的な編集を生成する。 実装はhttps://sites.google .com/view/mend-editi ngで利用可能。

While large pre-trained models have enabled impressive results on a variety of downstream tasks, the largest existing models still make errors, and even accurate predictions may become outdated over time. Because detecting all such failures at training time is impossible, enabling both developers and end users of such models to correct inaccurate outputs while leaving the model otherwise intact is desirable. However, the distributed, black-box nature of the representations learned by large neural networks makes producing such targeted edits difficult. If presented with only a single problematic input and new desired output, fine-tuning approaches tend to overfit; other editing algorithms are either computationally infeasible or simply ineffective when applied to very large models. To enable easy post-hoc editing at scale, we propose Model Editor Networks with Gradient Decomposition (MEND), a collection of small auxiliary editing networks that use a single desired input-output pair to make fast, local edits to a pre-trained model. MEND learns to transform the gradient obtained by standard fine-tuning, using a low-rank decomposition of the gradient to make the parameterization of this transformation tractable. MEND can be trained on a single GPU in less than a day even for 10 billion+ parameter models; once trained MEND enables rapid application of new edits to the pre-trained model. Our experiments with T5, GPT, BERT, and BART models show that MEND is the only approach to model editing that produces effective edits for models with tens of millions to over 10 billion parameters. Implementation available at https://sites.google .com/view/mend-editi ng.
翻訳日:2021-10-22 14:29:16 公開日:2021-10-21
# リアルタイムエネルギー・費用効率のよい車両経路割当ニューラルリコメンダシステム

A Real-Time Energy and Cost Efficient Vehicle Route Assignment Neural Recommender System ( http://arxiv.org/abs/2110.10887v1 )

ライセンス: Link先を確認
Ayman Moawad, Zhijian Li, Ines Pancorbo, Krishna Murthy Gurumurthy, Vincent Freyermuth, Ehsan Islam, Ram Vijayagopal, Monique Stinson, and Aymeric Rousseau(参考訳) 本稿では,エネルギーとコストの基準に基づいて車両を経路に割り当てるニューラルネットワークレコメンダシステムアルゴリズムを提案する。 本研究では,mdhdt (medium and heavy duty truck) パワートレイン技術を,総所有コスト(total cost of ownership, tco)の観点からより効率的に識別するために,この新しい手法を適用した。 提案手法は, 経路上での各種候補車両のエネルギー消費量を効率的に推定するための機械学習手法であり, 高レベルマクロ経路情報を用いて, 内部ダイナミクスに関する情報がほとんどないリンク(道路セグメント)のシーケンスとして定義される。 完全なレコメンデーションロジックが開発され、艦隊の運用上の制約に基づき、各ルートに対してリアルタイムに最適な割り当てが可能になる。 本フレームワークは,(1)上位100ドルの自動車スターランキングシステムを用いた1回の旅行推薦を効率的に行うことができ,(2)$m \leq n$トリップに$n$の車両を配置する必要がある場合のより一般的な割り当て問題に対処する。 この新しい割り当てシステムは、エネルギー省のシステムとモデリングによる輸送促進研究(smart)モビリティコンソーシアムによる研究に用いるために、ポラリス輸送システムシミュレーションツールにデプロイされ、統合されている。

This paper presents a neural network recommender system algorithm for assigning vehicles to routes based on energy and cost criteria. In this work, we applied this new approach to efficiently identify the most cost-effective medium and heavy duty truck (MDHDT) powertrain technology, from a total cost of ownership (TCO) perspective, for given trips. We employ a machine learning based approach to efficiently estimate the energy consumption of various candidate vehicles over given routes, defined as sequences of links (road segments), with little information known about internal dynamics, i.e using high level macroscopic route information. A complete recommendation logic is then developed to allow for real-time optimum assignment for each route, subject to the operational constraints of the fleet. We show how this framework can be used to (1) efficiently provide a single trip recommendation with a top-$k$ vehicles star ranking system, and (2) engage in more general assignment problems where $n$ vehicles need to be deployed over $m \leq n$ trips. This new assignment system has been deployed and integrated into the POLARIS Transportation System Simulation Tool for use in research conducted by the Department of Energy's Systems and Modeling for Accelerated Research in Transportation (SMART) Mobility Consortium
翻訳日:2021-10-22 13:57:29 公開日:2021-10-21
# 潜在空間エネルギーモデルによる制御可能・合成生成

Controllable and Compositional Generation with Latent-Space Energy-Based Models ( http://arxiv.org/abs/2110.10873v1 )

ライセンス: Link先を確認
Weili Nie, Arash Vahdat, Anima Anandkumar(参考訳) 制御可能な生成は、現実世界のアプリケーションに深い生成モデルを採用する上で重要な要件の1つですが、それでも大きな課題です。 特に、新しい概念の組み合わせを生成するための構成能力は、現在のほとんどのモデルには及ばない。 本研究では, エネルギーモデル(EBM)を用いて, 属性の集合上での合成生成を扱う。 高分解能な画像生成を実現するために,StyleGAN のような事前学習された生成モデルの潜在空間に EBM を導入する。 本研究では,データと属性の結合分布を表す新しいebm式を提案し,それからのサンプリングを常微分方程式(ode)の解として定式化する方法を示す。 事前訓練されたジェネレータがあれば、制御可能なジェネレータは属性分類器を訓練するだけです。 ODEによるサンプリングは潜在空間で効率的に行われ、ハイパーパラメータに対して堅牢である。 したがって、この手法は単純で、トレーニングが速く、サンプルが効率的である。 実験の結果,本手法は条件付きサンプリングとシーケンシャル編集の両方において,最先端の手法よりも優れていた。 合成生成において,本手法は未知の属性の組み合わせのゼロショット生成において優れる。 また、エネルギー関数を論理演算子と合成することにより、分解能1024x1024のフォトリアリスティック画像を生成する際に、このような構成性を実現するのはこれが初めてである。

Controllable generation is one of the key requirements for successful adoption of deep generative models in real-world applications, but it still remains as a great challenge. In particular, the compositional ability to generate novel concept combinations is out of reach for most current models. In this work, we use energy-based models (EBMs) to handle compositional generation over a set of attributes. To make them scalable to high-resolution image generation, we introduce an EBM in the latent space of a pre-trained generative model such as StyleGAN. We propose a novel EBM formulation representing the joint distribution of data and attributes together, and we show how sampling from it is formulated as solving an ordinary differential equation (ODE). Given a pre-trained generator, all we need for controllable generation is to train an attribute classifier. Sampling with ODEs is done efficiently in the latent space and is robust to hyperparameters. Thus, our method is simple, fast to train, and efficient to sample. Experimental results show that our method outperforms the state-of-the-art in both conditional sampling and sequential editing. In compositional generation, our method excels at zero-shot generation of unseen attribute combinations. Also, by composing energy functions with logical operators, this work is the first to achieve such compositionality in generating photo-realistic images of resolution 1024x1024.
翻訳日:2021-10-22 13:57:06 公開日:2021-10-21
# 時空間シフトフレーム予測のためのデュアル符号化U-Net

Dual Encoding U-Net for Spatio-Temporal Domain Shift Frame Prediction ( http://arxiv.org/abs/2110.11140v1 )

ライセンス: Link先を確認
Jay Santokhi, Dylan Hillier, Yiming Yang, Joned Sarwar, Anna Jordan, Emil Hewage(参考訳) 都市全体の移動行動の景観は過去18ヶ月で大きく変化した。 このような行動に関する正確で信頼性の高い予測を行う能力も、世界中の人々がモビリティのさまざまな側面とどのように相互作用するかに影響を与える新型コロナウイルス対策によって大きく変化している。 これは「現在/後の環境における将来の行動を予測するために、多くの事前共有モビリティデータをどのように利用するのか? 本稿では、畳み込みLSTM層間をスキップ接続する新しいアプローチを取り入れた、12の畳み込み層のみを用いて構築された軽量デュアルエンコードU-Netを用いたトラフィックフレーム予測手法を提案する。 このアプローチとトレーニングデータの直感的な処理を組み合わせることで、時間的および時空間的なドメインシフト(gitlab.com/alchera/ alchera-traffic4cast -2021)をモデル化できる。

The landscape of city-wide mobility behaviour has altered significantly over the past 18 months. The ability to make accurate and reliable predictions on such behaviour has likewise changed drastically with COVID-19 measures impacting how populations across the world interact with the different facets of mobility. This raises the question: "How does one use an abundance of pre-covid mobility data to make predictions on future behaviour in a present/post-covid environment?" This paper seeks to address this question by introducing an approach for traffic frame prediction using a lightweight Dual-Encoding U-Net built using only 12 Convolutional layers that incorporates a novel approach to skip-connections between Convolutional LSTM layers. This approach combined with an intuitive handling of training data can model both a temporal and spatio-temporal domain shift (gitlab.com/alchera/ alchera-traffic4cast -2021).
翻訳日:2021-10-22 13:56:43 公開日:2021-10-21
# CATRO: クラス認識トレース比最適化によるチャネルプルーニング

CATRO: Channel Pruning via Class-Aware Trace Ratio Optimization ( http://arxiv.org/abs/2110.10921v1 )

ライセンス: Link先を確認
Wenzheng Hu, Ning Liu, Zhengping Che, Mingyang Li, Jian Tang, Changshui Zhang, Jianqiang Wang(参考訳) 深層畳み込みニューラルネットワークは、多くのアプリケーションシナリオにおいて高いパラメトリックおよび計算冗長性で過剰に機能していることが示されており、軽量で効率的なネットワークを得るためにモデルプラニングを探求する作業が増えている。 しかしながら、既存のプルーニングアプローチの多くは経験的ヒューリスティックスによって駆動され、チャネルの結合的な影響をほとんど考慮せず、曖昧で最適でないパフォーマンスに繋がる。 本稿では,計算負荷を低減し,モデル推論を高速化するために,クラスアウェアトレース比最適化(catro)を用いた新しいチャネルプルーニング手法を提案する。 いくつかのサンプルからクラス情報を利用することで、CATROは特徴空間の識別によって複数のチャネルの結合影響を測定し、保存されたチャネルの層的影響を統合する。 チャネルプルーニングを部分モジュラー集合関数最大化問題として定式化することにより、catroは2段階のグリーディ反復最適化手順により効率的に解く。 さらに,catroの収束と性能に関する理論的正当性を示す。 実験の結果、catroは他の最先端チャネルプラニングアルゴリズムと同等の精度で、同様の計算コストや計算コストの低減で高い精度を達成できることが示されている。 さらに,CATROはクラス認識の特性から,様々な分類サブタスクに適応的に効率の良いネットワークを創出するのに適しており,実世界のアプリケーションにおけるディープネットワークの便利展開と利用が向上している。

Deep convolutional neural networks are shown to be overkill with high parametric and computational redundancy in many application scenarios, and an increasing number of works have explored model pruning to obtain lightweight and efficient networks. However, most existing pruning approaches are driven by empirical heuristics and rarely consider the joint impact of channels, leading to unguaranteed and suboptimal performance. In this paper, we propose a novel channel pruning method via class-aware trace ratio optimization (CATRO) to reduce the computational burden and accelerate the model inference. Utilizing class information from a few samples, CATRO measures the joint impact of multiple channels by feature space discriminations and consolidates the layer-wise impact of preserved channels. By formulating channel pruning as a submodular set function maximization problem, CATRO solves it efficiently via a two-stage greedy iterative optimization procedure. More importantly, we present theoretical justifications on convergence and performance of CATRO. Experimental results demonstrate that CATRO achieves higher accuracy with similar computation cost or lower computation cost with similar accuracy than other state-of-the-art channel pruning algorithms. In addition, because of its class-aware property, CATRO is suitable to prune efficient networks adaptively for various classification subtasks, enhancing handy deployment and usage of deep networks in real-world applications.
翻訳日:2021-10-22 13:54:09 公開日:2021-10-21
# 一般化された分布外検出:調査

Generalized Out-of-Distribution Detection: A Survey ( http://arxiv.org/abs/2110.11334v1 )

ライセンス: Link先を確認
Jingkang Yang, Kaiyang Zhou, Yixuan Li, Ziwei Liu(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習システムの信頼性と安全性を確保するために重要である。 例えば、自動運転では、運転システムが警告を発し、これまで見たことのない異常なシーンや物体を検知し、安全な判断を下すことができないときに、人間に制御を委ねることを望んでいます。 この問題は2017年に初めて発生し、その後研究コミュニティから注目を集め、分類に基づくものから密度に基づくもの、距離に基づくものまで、多くの方法が開発された。 一方、他のいくつかの問題は、モチベーションと方法論の観点からOOD検出と密接に関連している。 例えば、異常検出(AD)、新規検出(ND)、オープンセット認識(OSR)、外れ値検出(OD)などがある。 定義や問題の設定が異なるにもかかわらず、これらの問題はしばしば読者や実践者を混乱させ、その結果、既存の研究では用語を誤用している。 本調査では,先述した5つの問題,すなわちAD,ND,OSR,OOD,ODを含む一般OOD検出という汎用フレームワークを最初に提示する。 私たちのフレームワークでは、これらの5つの問題は特別なケースやサブタスクと見ることができ、区別が容易です。 次に,最近の技術開発を要約して,各5分野の徹底的なレビューを行う。 この調査はオープンな課題と潜在的研究の方向性で締めくくります。

Out-of-distribution (OOD) detection is critical to ensuring the reliability and safety of machine learning systems. For instance, in autonomous driving, we would like the driving system to issue an alert and hand over the control to humans when it detects unusual scenes or objects that it has never seen before and cannot make a safe decision. This problem first emerged in 2017 and since then has received increasing attention from the research community, leading to a plethora of methods developed, ranging from classification-based to density-based to distance-based ones. Meanwhile, several other problems are closely related to OOD detection in terms of motivation and methodology. These include anomaly detection (AD), novelty detection (ND), open set recognition (OSR), and outlier detection (OD). Despite having different definitions and problem settings, these problems often confuse readers and practitioners, and as a result, some existing studies misuse terms. In this survey, we first present a generic framework called generalized OOD detection, which encompasses the five aforementioned problems, i.e., AD, ND, OSR, OOD detection, and OD. Under our framework, these five problems can be seen as special cases or sub-tasks, and are easier to distinguish. Then, we conduct a thorough review of each of the five areas by summarizing their recent technical developments. We conclude this survey with open challenges and potential research directions.
翻訳日:2021-10-22 13:53:44 公開日:2021-10-21
# エンティティアライメントのための原則表現学習

Principled Representation Learning for Entity Alignment ( http://arxiv.org/abs/2110.10871v1 )

ライセンス: Link先を確認
Lingbing Guo, Zequn Sun, Mingyang Chen, Wei Hu, Qiang Zhang, Huajun Chen(参考訳) 埋め込みベースのエンティティアライメント(EEA)は最近大きな注目を集めています。 大幅なパフォーマンス向上にもかかわらず、EEAメソッドの理解を容易にする努力は、ほとんど行われていない。 ほとんどの既存の研究は、2つのKGの埋め込み空間を接続するアンカーとして、少数の事前整列した実体が機能できるという仮定に基づいている。 それにもかかわらず、そのような仮定の合理性を調査する者はいない。 研究ギャップを埋めるために、既存のEEA手法から抽象化された典型的なパラダイムを定義し、二つの潜在的に整合したエンティティ間の埋め込みの相違が、スコアリング関数の予め定義されたマージンによって暗黙的に境界づけられているかを分析する。 さらに,このような境界は,アライメント学習に十分なタイトさを保証できないことを見出した。 我々は、新しいアプローチであるNeoEAを提案し、KG不変および原則化された実体埋め込みを明示的に学習する。 この意味で、EEAモデルは、幾何学的距離に基づいて整列した実体の近接性を追求するだけでなく、2つのKGの神経オントロジーを、埋め込み分布と基礎となるオントロジー知識の相違を排除して整列させる。 我々の実験は、最も高性能なeea法に対する性能の一貫性と著しい改善を示しました。

Embedding-based entity alignment (EEA) has recently received great attention. Despite significant performance improvement, few efforts have been paid to facilitate understanding of EEA methods. Most existing studies rest on the assumption that a small number of pre-aligned entities can serve as anchors connecting the embedding spaces of two KGs. Nevertheless, no one investigates the rationality of such an assumption. To fill the research gap, we define a typical paradigm abstracted from existing EEA methods and analyze how the embedding discrepancy between two potentially aligned entities is implicitly bounded by a predefined margin in the scoring function. Further, we find that such a bound cannot guarantee to be tight enough for alignment learning. We mitigate this problem by proposing a new approach, named NeoEA, to explicitly learn KG-invariant and principled entity embeddings. In this sense, an EEA model not only pursues the closeness of aligned entities based on geometric distance, but also aligns the neural ontologies of two KGs by eliminating the discrepancy in embedding distribution and underlying ontology knowledge. Our experiments demonstrate consistent and significant improvement in performance against the best-performing EEA methods.
翻訳日:2021-10-22 13:52:41 公開日:2021-10-21
# (参考訳) 単モードエントロピーに基づく視覚質問応答のためのアクティブラーニング [全文訳有]

Single-Modal Entropy based Active Learning for Visual Question Answering ( http://arxiv.org/abs/2110.10906v1 )

ライセンス: CC BY 4.0
Dong-Jin Kim, Jae Won Cho, Jinsoo Choi, Yunjae Jung, In So Kweon(参考訳) 大規模ラベル付きデータセットを現実世界、特に高レベルのタスク(例えば、Visual Question Answering)で構築することは、高価で時間を要する可能性がある。 さらに、データとアーキテクチャの複雑さがますます増大する中、アクティブラーニングはコンピュータビジョン研究の重要な側面となっている。 本稿では,視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングについて述べる。 マルチモーダルな入力,画像,質問を考慮し,各入力に対してアドホックな単一モーダル分岐を用いて,その情報を活用する,効果的なサンプル取得手法を提案する。 自己蒸留技術に加えて, 相互情報に基づくサンプル取得戦略smem (single-modal entropic measure) により, サンプル獲得者が現在あるすべてのモダリティを活用し, 最も有意義なサンプルを見つけることができる。 私たちの新しいアイデアは実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。 我々は,既存のActive Learningベースラインと比較して,最先端のパフォーマンスを通じて,さまざまなVQAデータセットに関する知見を確認した。

Constructing a large-scale labeled dataset in the real world, especially for high-level tasks (eg, Visual Question Answering), can be expensive and time-consuming. In addition, with the ever-growing amounts of data and architecture complexity, Active Learning has become an important aspect of computer vision research. In this work, we address Active Learning in the multi-modal setting of Visual Question Answering (VQA). In light of the multi-modal inputs, image and question, we propose a novel method for effective sample acquisition through the use of ad hoc single-modal branches for each input to leverage its information. Our mutual information based sample acquisition strategy Single-Modal Entropic Measure (SMEM) in addition to our self-distillation technique enables the sample acquisitor to exploit all present modalities and find the most informative samples. Our novel idea is simple to implement, cost-efficient, and readily adaptable to other multi-modal tasks. We confirm our findings on various VQA datasets through state-of-the-art performance by comparing to existing Active Learning baselines.
翻訳日:2021-10-22 13:51:49 公開日:2021-10-21
# visuospatial, language and commonsense 構造をストーリービジュアライゼーションに統合する

Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization ( http://arxiv.org/abs/2110.10834v1 )

ライセンス: Link先を確認
Adyasha Maharana, Mohit Bansal(参考訳) テキストから画像への合成に関して多くの研究がなされているが、入力テキストの言語構造の使用についての研究はほとんど行われていない。 このような情報は、入力が明示的な物語構造を持ち、画像シーケンス(またはビジュアルストーリー)に変換される必要があるため、ストーリーの視覚化においてさらに重要である。 この領域での先行研究は、視覚品質、一貫性、関連性の観点から、生成された画像シーケンスを改善する余地が十分にあることを示している。 本稿では,まず,構造化入力の符号化にtransformerベースのrecurrentアーキテクチャを用いた構成構文解析木の利用について検討する。 第2に、構造化された入力を共通情報で補強し、外部知識がビジュアルストーリー生成に与える影響について検討する。 第3に,バウンディングボックスと密集したキャプションを通じて視覚構造も取り入れて,生成画像中の文字/オブジェクトに対するフィードバックを,二重学習環境内で提供する。 視覚ゲノムを訓練した市販の高密度捕獲モデルでは、微調整を必要とせず、異なる対象領域の画像の空間構造を改善することができる。 階層内コントラスト損失(単語と画像サブリージョン)を用いてモデルエンドツーエンドのトレーニングを行い、複数のデータセットに対するいくつかの指標(および人的評価)において大幅な改善を示す。 最後に,言語情報と空間情報の分析を行う。 コードとデータ:https://github.com/ adymaharana/VLCStory Gan。

While much research has been done in text-to-image synthesis, little work has been done to explore the usage of linguistic structure of the input text. Such information is even more important for story visualization since its inputs have an explicit narrative structure that needs to be translated into an image sequence (or visual story). Prior work in this domain has shown that there is ample room for improvement in the generated image sequence in terms of visual quality, consistency and relevance. In this paper, we first explore the use of constituency parse trees using a Transformer-based recurrent architecture for encoding structured input. Second, we augment the structured input with commonsense information and study the impact of this external knowledge on the generation of visual story. Third, we also incorporate visual structure via bounding boxes and dense captioning to provide feedback about the characters/objects in generated images within a dual learning setup. We show that off-the-shelf dense-captioning models trained on Visual Genome can improve the spatial structure of images from a different target domain without needing fine-tuning. We train the model end-to-end using intra-story contrastive loss (between words and image sub-regions) and show significant improvements in several metrics (and human evaluation) for multiple datasets. Finally, we provide an analysis of the linguistic and visuo-spatial information. Code and data: https://github.com/a dymaharana/VLCStoryG an.
翻訳日:2021-10-22 13:36:35 公開日:2021-10-21
# 一階論理を用いたニューロシンボリック強化学習

Neuro-Symbolic Reinforcement Learning with First-Order Logic ( http://arxiv.org/abs/2110.10963v1 )

ライセンス: Link先を確認
Daiki Kimura, Masaki Ono, Subhajit Chaudhury, Ryosuke Kohita, Akifumi Wachi, Don Joven Agravante, Michiaki Tatsubori, Asim Munawar, Alexander Gray(参考訳) deep reinforcement learning (rl) 法は収束する前に多くの試行が必要であり、訓練されたポリシーの直接解釈性は提供されない。 RLにおけるポリシーの高速収束と解釈可能性を達成するために,論理ニューラルネットワークと呼ばれる最近のニューラルシンボリック・フレームワークを用いたテキストベースゲームのための新しいRL手法を提案する。 まず、テキスト観察と外部単語意味ネットワーク(conceptnet)から一階の論理事実を抽出し、直接解釈可能な論理演算子を用いてネットワーク内のポリシーを訓練する。 実験の結果,提案手法を用いたRLトレーニングは,TextWorldベンチマークにおける他の最先端のニューロシンボリック手法よりもはるかに高速に収束することがわかった。

Deep reinforcement learning (RL) methods often require many trials before convergence, and no direct interpretability of trained policies is provided. In order to achieve fast convergence and interpretability for the policy in RL, we propose a novel RL method for text-based games with a recent neuro-symbolic framework called Logical Neural Network, which can learn symbolic and interpretable rules in their differentiable network. The method is first to extract first-order logical facts from text observation and external word meaning network (ConceptNet), then train a policy in the network with directly interpretable logical operators. Our experimental results show RL training with the proposed method converges significantly faster than other state-of-the-art neuro-symbolic methods in a TextWorld benchmark.
翻訳日:2021-10-22 13:35:56 公開日:2021-10-21
# LOA:テキストベースのインタラクションゲームのための論理的最適アクション

LOA: Logical Optimal Actions for Text-based Interaction Games ( http://arxiv.org/abs/2110.10973v1 )

ライセンス: Link先を確認
Daiki Kimura, Subhajit Chaudhury, Masaki Ono, Michiaki Tatsubori, Don Joven Agravante, Asim Munawar, Akifumi Wachi, Ryosuke Kohita, Alexander Gray(参考訳) 本稿では,自然言語相互作用ゲームのためのニューラルネットワークとシンボリック知識獲得手法を組み合わせたニューロシンボリックフレームワークを用いた強化学習アプリケーションの行動決定アーキテクチャである論理最適行動(loa)を提案する。 LOA実験のデモは、テキストベースのゲームのためのWebベースのインタラクティブプラットフォームと、トレーニングされたルールの解釈可能性を改善するための獲得した知識の可視化で構成されている。 このデモンストレーションは、他のニューロシンボリックアプローチとの比較モジュールや、同じテキストベースのゲームにおける非シンボル的エージェントモデルも提供する。 我々のLOAは、強化学習環境のためのPythonのオープンソース実装も提供し、ニューロシンボリックエージェントの研究を容易にする。 コード: https://github.com/i bm/loa

We present Logical Optimal Actions (LOA), an action decision architecture of reinforcement learning applications with a neuro-symbolic framework which is a combination of neural network and symbolic knowledge acquisition approach for natural language interaction games. The demonstration for LOA experiments consists of a web-based interactive platform for text-based games and visualization for acquired knowledge for improving interpretability for trained rules. This demonstration also provides a comparison module with other neuro-symbolic approaches as well as non-symbolic state-of-the-art agent models on the same text-based games. Our LOA also provides open-sourced implementation in Python for the reinforcement learning environment to facilitate an experiment for studying neuro-symbolic agents. Code: https://github.com/i bm/loa
翻訳日:2021-10-22 13:35:41 公開日:2021-10-21
# (参考訳) 経験的考察:広汎な時間的プロセス [全文訳有]

An Empirical Study: Extensive Deep Temporal Point Process ( http://arxiv.org/abs/2110.09823v2 )

ライセンス: CC BY 4.0
Haitao Lin, Cheng Tan, Lirong Wu, Zhangyang Gao, and Stan. Z. Li(参考訳) 連続時間領域上の確率過程としての時間点過程は、時間スタンプを特徴とする時相イベントシーケンスをモデル化するために一般的に用いられる。 ディープニューラルネットワークの強い表現性は、時間的点過程の文脈において、非同期シーケンスのパターンをキャプチャするための有望な選択肢として融合する。 本稿では,近年の非同期イベントシーケンスを時間的ポイントプロセスでモデル化することの課題と課題を,履歴シーケンスの符号化,条件強度関数の定式化,イベントのリレーショナル発見,最適化のための学習アプローチの4つの分野にまとめる。 本稿では,最近提案されたモデルのほとんどを4部に分けて紹介し,最初の3部を同一の学習戦略で修正し,公平な実験評価を行う。 さらに,ヒストリーエンコーダと条件強度関数ファミリを拡張し,多種類のイベント間の関係を利用するためのグラガー因果発見フレームワークを提案する。 グランジャー因果関係をグランジャーカウシリティグラフで表すことができるため、変分推論の枠組みにおける離散グラフ構造学習は、グラフの潜在構造を明らかにするために用いられ、さらにさらなる実験により、学習された潜在グラフを持つフレームワークが関係をキャプチャし、適合性とパフォーマンスを予測できることが示されている。

Temporal point process as the stochastic process on continuous domain of time is commonly used to model the asyn-chronous event sequence featuring with occurence timestamps. Because the strong expressivity of deep neural networks, they areemerging as a promising choice for capturing the patterns in asynchronous sequences, in the context of temporal point process. In thispaper, we first review recent research emphasis and difficulties in modeling asynchronous event sequences with deep temporal pointprocess, which can be concluded into four fields: encoding of history sequence, formulation of conditional intensity function, relationaldiscovery of events and learning approaches for optimization. We introduce most of recently proposed models by dismantling theminto the four parts, and conduct experiments by remodularizing the first three parts with the same learning strategy for a fair empiricalevaluation. Besides, we extend the history encoders and conditional intensity function family, and propose a Granger causality discoveryframework for exploiting the relations among multi-types of events. Because the Granger causality can be represented by the Grangercausality graph, discrete graph structure learning in the framework of Variational Inference is employed to reveal latent structures of thegraph, and further experiments shows that the proposed framework with learned latent graph can both capture the relations and achievean improved fitting and predicting performance.
翻訳日:2021-10-22 13:01:03 公開日:2021-10-21
# HRFormer:密度予測のための高分解能トランス

HRFormer: High-Resolution Transformer for Dense Prediction ( http://arxiv.org/abs/2110.09408v2 )

ライセンス: Link先を確認
Yuhui Yuan, Rao Fu, Lang Huang, Weihong Lin, Chao Zhang, Xilin Chen, Jingdong Wang(参考訳) 高分解能トランスフォーマ(hrformer)は高密度予測タスクの高分解能表現を学習するが,低分解能表現を生成し,高いメモリと計算コストを有する元のビジョントランスとは対照的に,高分解能トランスフォーマ(hrformer)を提案する。 高分解能畳み込みネットワーク(hrnet)で導入されたマルチレゾリューション並列設計と、小さな非オーバーラップ画像ウィンドウ上でセルフアテンションを実行するローカルウィンドウ自己アテンションを活用し、メモリと計算効率を向上させる。 さらに、オフ接続画像ウィンドウ間で情報交換を行うためにFFNに畳み込みを導入する。 本研究では,高分解能トランスフォーマーが人間のポーズ推定とセマンティックセグメンテーションタスクの両方に与える影響を実証する。例えば,HRFormerはCOCOのポーズ推定において,パラメータが50\%,FLOPが30\%のSwinトランスフォーマーを1.3$APで上回っている。 コードは、https://github.com/H RNet/HRFormer.comで入手できる。

We present a High-Resolution Transformer (HRFormer) that learns high-resolution representations for dense prediction tasks, in contrast to the original Vision Transformer that produces low-resolution representations and has high memory and computational cost. We take advantage of the multi-resolution parallel design introduced in high-resolution convolutional networks (HRNet), along with local-window self-attention that performs self-attention over small non-overlapping image windows, for improving the memory and computation efficiency. In addition, we introduce a convolution into the FFN to exchange information across the disconnected image windows. We demonstrate the effectiveness of the High-Resolution Transformer on both human pose estimation and semantic segmentation tasks, e.g., HRFormer outperforms Swin transformer by $1.3$ AP on COCO pose estimation with $50\%$ fewer parameters and $30\%$ fewer FLOPs. Code is available at: https://github.com/H RNet/HRFormer.
翻訳日:2021-10-22 12:09:10 公開日:2021-10-21
# スペクトル変動によるハイパースペクトル画像のスパースアンミックス

Spectral Variability Augmented Sparse Unmixing of Hyperspectral Images ( http://arxiv.org/abs/2110.09744v2 )

ライセンス: Link先を確認
Ge Zhang, Shaohui Mei, Mingyang Ma, Yan Feng, and Qian Du(参考訳) スペクトルアンミキシング (SU) は、超スペクトル画像に存在する混合画素を、超スペクトル画像解析に広く用いられているエンドメンバーとアバンダンスの積として表現する。 しかし、光、取得条件、および材料の固有特性の影響により、識別されたエンドメンバーは(スペクトル変動性として表現される)所定の画像内でスペクトル的に変化することができる。 この問題に対処するために、最近の手法では、通常、同じ対象の複数の特性スペクトルを表すために、事前取得したスペクトルライブラリを使用するが、スペクトルの変動を明示的に抽出する手法はほとんどない。 本稿では,スペクトル変動を初めて抽出するスペクトル変動性拡張スパース混合モデル(svasu)を提案する。 可変スペクトルは、スペクトル再構成のための内在スペクトルとスペクトル変動性の2つの部分に分割され、存在量のスパーシティと変動係数の一般化を制限する正規項を付加したsuモデルで同期的にモデル化される。 スペクトル変動ライブラリーと固有スペクトルライブラリーはいずれもIn-situ観測画像から構築されている。 合成, 実世界の両方のデータセットに対する実験結果から, スペクトル変動による拡張分解は, スペクトルライブラリのみによる分解よりも, および最先端のアルゴリズムと比較して, 未混合性能を著しく向上させることが示された。

Spectral unmixing (SU) expresses the mixed pixels existed in hyperspectral images as the product of endmember and abundance, which has been widely used in hyperspectral imagery analysis. However, the influence of light, acquisition conditions and the inherent properties of materials, results in that the identified endmembers can vary spectrally within a given image (construed as spectral variability). To address this issue, recent methods usually use a priori obtained spectral library to represent multiple characteristic spectra of the same object, but few of them extracted the spectral variability explicitly. In this paper, a spectral variability augmented sparse unmixing model (SVASU) is proposed, in which the spectral variability is extracted for the first time. The variable spectra are divided into two parts of intrinsic spectrum and spectral variability for spectral reconstruction, and modeled synchronously in the SU model adding the regular terms restricting the sparsity of abundance and the generalization of the variability coefficient. It is noted that the spectral variability library and the intrinsic spectral library are all constructed from the In-situ observed image. Experimental results over both synthetic and real-world data sets demonstrate that the augmented decomposition by spectral variability significantly improves the unmixing performance than the decomposition only by spectral library, as well as compared to state-of-the-art algorithms.
翻訳日:2021-10-22 11:41:35 公開日:2021-10-21
# loveda: ドメイン適応意味セグメンテーションのためのリモートセンシング土地被覆データセット

LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2110.08733v3 )

ライセンス: Link先を確認
Junjue Wang, Zhuo Zheng, Ailong Ma, Xiaoyan Lu and Yanfei Zhong(参考訳) 深層学習アプローチは、リモートセンシング高空間解像度(HSR)土地被覆マッピングにおいて有望な結果を示している。 しかし、都市と農村の風景は全く異なる地理的景観を示し、これらのアルゴリズムの不十分な一般化は、都市レベルのマッピングや国家レベルのマッピングを妨げる。 既存のHSRランドカバーデータセットのほとんどは、主に学習意味表現の研究を促進し、モデル転送可能性を無視している。 本稿では,ランドカバードメイン適応意味セグメンテーション(loveda)データセットを導入し,セマンティクスと転送可能な学習を前進させる。 lovedaデータセットには、5987のhsr画像と、3つの異なる都市の注釈付きオブジェクトが含まれている。 既存のデータセットと比較して、loveaデータセットは2つのドメイン(都市と農村)を包含している。 1) マルチスケールオブジェクト 2) 複雑な背景サンプル,及び 3) 一貫性のないクラス分布。 LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。 その結果,11つのセマンティックセグメンテーション手法と8つのUDA手法でLoveDAデータセットをベンチマークした。 これらの課題に対処するために,マルチスケールアーキテクチャや戦略,追加の背景監督,擬似ラベル分析などの探索的な研究も行われた。 コードとデータはhttps://github.com/j unjue-wang/lovedaで入手できる。

Deep learning approaches have shown promising results in remote sensing high spatial resolution (HSR) land-cover mapping. However, urban and rural scenes can show completely different geographical landscapes, and the inadequate generalizability of these algorithms hinders city-level or national-level mapping. Most of the existing HSR land-cover datasets mainly promote the research of learning semantic representation, thereby ignoring the model transferability. In this paper, we introduce the Land-cOVEr Domain Adaptive semantic segmentation (LoveDA) dataset to advance semantic and transferable learning. The LoveDA dataset contains 5987 HSR images with 166768 annotated objects from three different cities. Compared to the existing datasets, the LoveDA dataset encompasses two domains (urban and rural), which brings considerable challenges due to the: 1) multi-scale objects; 2) complex background samples; and 3) inconsistent class distributions. The LoveDA dataset is suitable for both land-cover semantic segmentation and unsupervised domain adaptation (UDA) tasks. Accordingly, we benchmarked the LoveDA dataset on eleven semantic segmentation methods and eight UDA methods. Some exploratory studies including multi-scale architectures and strategies, additional background supervision, and pseudo-label analysis were also carried out to address these challenges. The code and data are available at https://github.com/J unjue-Wang/LoveDA.
翻訳日:2021-10-22 11:40:48 公開日:2021-10-21