このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220716となっている論文です。

PDF登録状況(公開日: 20220716)

TitleAuthorsAbstract論文公表日・翻訳日
# 車両ネットワークにおける連合学習

Federated Learning in Vehicular Networks ( http://arxiv.org/abs/2006.01412v3 )

ライセンス: Link先を確認
Ahmet M. Elbir and Burak Soner and Sinem Coleri and Deniz Gunduz and Mehdi Bennis(参考訳) 機械学習(ML)は、自律運転、道路安全予測、車体物体検出などの応用において、モデルのない特性のため、適応的な高速応答を可能にするために、最近、車体ネットワークに採用されている。 しかし、これらのMLアプリケーションのほとんどは集中学習(CL)を採用しており、パラメータサーバと車両のエッジデバイス間のデータ転送にかなりのオーバーヘッドをもたらす。 フェデレートラーニング(FL)フレームワークは、データセット全体ではなく、モデル更新の送信を通じてプライバシを達成しつつ、送信オーバーヘッドを削減することを目的とした、効率的なツールとして最近導入された。 本稿では,車載ネットワークアプリケーションにおける FL over CL を用いたインテリジェント交通システムの開発について検討する。 本稿では,ML ベース車両用 FL の実現可能性に関する包括的分析と,画像ベースデータセットをケーススタディとして活用して物体検出を行う。 そして,データラベリングやモデルトレーニングといった学習の観点から,データレート,信頼性,送信オーバーヘッド,プライバシ,リソース管理といったコミュニケーションの観点から,主要な課題を識別する。 最後に,車載ネットワークにおけるflの今後の研究動向について述べる。

Machine learning (ML) has recently been adopted in vehicular networks for applications such as autonomous driving, road safety prediction and vehicular object detection, due to its model-free characteristic, allowing adaptive fast response. However, most of these ML applications employ centralized learning (CL), which brings significant overhead for data transmission between the parameter server and vehicular edge devices. Federated learning (FL) framework has been recently introduced as an efficient tool with the goal of reducing transmission overhead while achieving privacy through the transmission of model updates instead of the whole dataset. In this paper, we investigate the usage of FL over CL in vehicular network applications to develop intelligent transportation systems. We provide a comprehensive analysis on the feasibility of FL for the ML based vehicular applications, as well as investigating object detection by utilizing image-based datasets as a case study. Then, we identify the major challenges from both learning perspective, i.e., data labeling and model training, and from the communications point of view, i.e., data rate, reliability, transmission overhead, privacy and resource management. Finally, we highlight related future research directions for FL in vehicular networks.
翻訳日:2022-11-26 01:24:43 公開日:2022-07-16
# 多変数最適輸送問題に対する多項式時間アルゴリズム

Polynomial-time algorithms for Multimarginal Optimal Transport problems with structure ( http://arxiv.org/abs/2008.03006v4 )

ライセンス: Link先を確認
Jason M. Altschuler and Enric Boix-Adsera(参考訳) マルチマルジナル最適輸送(MOT)は、機械学習、統計学、科学の応用によって大きな関心を集めている。 しかし、ほとんどのアプリケーションでは、MOTの成功は効率的なアルゴリズムの欠如によって著しく制限されている。 実際、MOT は一般に、辺数 k とそのサポートサイズ n の指数時間を必要とする。 本稿では,MOT をポリ(n,k) 時間で解ける構造が何か,という一般的な理論を発展させる。 我々は、異なるアルゴリズムが必要とする「構造」を二重実現可能性オラクルの単純な変種の観点から特徴づけることで、MOTをポリ(n,k)時間で解くための統一的なアルゴリズムフレームワークを開発する。 この枠組みにはいくつかの利点がある。 まず、現在最も人気のあるMOTアルゴリズムであるシンクホーンアルゴリズムが、ポリ(n,k)時間でMOTを解決するために他のアルゴリズムよりも厳密な構造を必要とすることを示す。 第二に、我々のフレームワークは、与えられたMOT問題に対するポリ(n,k)時間アルゴリズムの開発を非常に簡単にする。 特に、(ほぼ)双対実現可能性オラクルを解くには必要で十分である。 本稿では,motコスト構造の3つの汎用クラス,(1)グラフィカル構造,(2)セット最適化構造,(3)低ランク+スパース構造に対してpoly(n,k)時間アルゴリズムを開発することで,この使いやすさを示す。 構造 (1) に対して、シンクホーンがポリ(n,k) ランタイムを持つという既知の結果を回復し、さらに、正確でスパースな計算解に対する最初のポリ(n,k) 時間アルゴリズムを提供する。 構造(2)-(3)に対して、近似計算でさえも、最初のポリ(n,k)時間アルゴリズムを与える。 これら3つの構造は、MOTの現在の応用の多くを含む。

Multimarginal Optimal Transport (MOT) has attracted significant interest due to applications in machine learning, statistics, and the sciences. However, in most applications, the success of MOT is severely limited by a lack of efficient algorithms. Indeed, MOT in general requires exponential time in the number of marginals k and their support sizes n. This paper develops a general theory about what "structure" makes MOT solvable in poly(n,k) time. We develop a unified algorithmic framework for solving MOT in poly(n,k) time by characterizing the "structure" that different algorithms require in terms of simple variants of the dual feasibility oracle. This framework has several benefits. First, it enables us to show that the Sinkhorn algorithm, which is currently the most popular MOT algorithm, requires strictly more structure than other algorithms do to solve MOT in poly(n,k) time. Second, our framework makes it much simpler to develop poly(n,k) time algorithms for a given MOT problem. In particular, it is necessary and sufficient to (approximately) solve the dual feasibility oracle -- which is much more amenable to standard algorithmic techniques. We illustrate this ease-of-use by developing poly(n,k) time algorithms for three general classes of MOT cost structures: (1) graphical structure; (2) set-optimization structure; and (3) low-rank plus sparse structure. For structure (1), we recover the known result that Sinkhorn has poly(n,k) runtime; moreover, we provide the first poly(n,k) time algorithms for computing solutions that are exact and sparse. For structures (2)-(3), we give the first poly(n,k) time algorithms, even for approximate computation. Together, these three structures encompass many -- if not most -- current applications of MOT.
翻訳日:2022-11-02 02:09:28 公開日:2022-07-16
# 高次元スパース線形帯域における動的バッチ学習

Dynamic Batch Learning in High-Dimensional Sparse Linear Contextual Bandits ( http://arxiv.org/abs/2008.11918v4 )

ライセンス: Link先を確認
Zhimei Ren and Zhengyuan Zhou(参考訳) 本研究では,与えられた最大バッチ数制約の下で,各バッチの終了時にのみ報酬を観測可能な意思決定者が,次のバッチ(現在のバッチの終了時)に含める個人数と,各バッチに採用すべきアクション選択スキームを動的に決定できる,高次元スパース線形コンテキストバンディットにおける動的バッチ学習の問題について検討する。 このようなバッチ制約は、マーケティングにおけるパーソナライズされた製品提供や臨床試験での医療選択など、さまざまな実践的なコンテキストにおいてユビキタスです。 我々は,この問題の基本的な学習限界を,後悔の少ない下限によって特徴づけ,一致する上限(ログファクタまで)を提供し,この問題に最適なスキームを規定する。 我々の知識を最大限に活用するため、我々の研究は、高次元スパース線形文脈バンディットにおける動的バッチ学習の理論的な理解への最初の道筋を提供する。 特に、バッチ制約が存在しない場合でさえ、LASSO推定器を用いた単純な探索自由アルゴリズムは、高次元線形な文脈的包帯の標準オンライン学習において(非マージンの場合)、(高次元の文脈的包帯の新興文献では未知の)最小限の最小限の後悔をすでに達成している。

We study the problem of dynamic batch learning in high-dimensional sparse linear contextual bandits, where a decision maker, under a given maximum-number-of-batch constraint and only able to observe rewards at the end of each batch, can dynamically decide how many individuals to include in the next batch (at the end of the current batch) and what personalized action-selection scheme to adopt within each batch. Such batch constraints are ubiquitous in a variety of practical contexts, including personalized product offerings in marketing and medical treatment selection in clinical trials. We characterize the fundamental learning limit in this problem via a regret lower bound and provide a matching upper bound (up to log factors), thus prescribing an optimal scheme for this problem. To the best of our knowledge, our work provides the first inroad into a theoretical understanding of dynamic batch learning in high-dimensional sparse linear contextual bandits. Notably, even a special case of our result -- when no batch constraint is present -- yields that the simple exploration-free algorithm using the LASSO estimator already achieves the minimax optimal regret bound for standard online learning in high-dimensional linear contextual bandits (for the no-margin case), a result that appears unknown in the emerging literature of high-dimensional contextual bandits.
翻訳日:2022-10-24 07:26:06 公開日:2022-07-16
# ニューラルa*探索を用いた[再現性報告]経路計画

[Reproducibility Report] Path Planning using Neural A* Search ( http://arxiv.org/abs/2208.04153v1 )

ライセンス: Link先を確認
Shreya Bhatt, Aayush Jain, Parv Maheshwari, Animesh Jha, Debashish Chakravarty(参考訳) 下記の論文は、ICML2 2021で発表されたML再現性チャレンジ2021の一部として、"Path Planning using Neural A* Search"の再現性レポートである。 元々の論文はニューラルa*プランナーを提案し、ノード展開の削減とパス精度の最適なバランスを達成すると主張している。 我々は、異なるフレームワークでモデルを再実装し、元の論文で公開されたデータを再現することで、この主張を検証する。 コード構造を理解するのに役立つコードフロー図も提供しています。 原論文の拡張として,(1)シャッフルデータセット上でモデルをトレーニングしてモデルを一般化すること,(2)ドロップアウトの導入,(3)モデル内のトレーニング可能なパラメータとして経験的に選択されたハイパーパラメータを実装すること,(4)ネットワークモデルをGANに変更して確率性を導入すること,(5)エンコーダをUnetからUnet++に変更すること,(6)A*探索の他のバリエーションでNeural A*モジュールから得られたコストマップを組み込んだこと,などが検討されている。

The following paper is a reproducibility report for "Path Planning using Neural A* Search" published in ICML2 2021 as part of the ML Reproducibility Challenge 2021. The original paper proposes the Neural A* planner, and claims it achieves an optimal balance between the reduction of node expansions and path accuracy. We verify this claim by reimplementing the model in a different framework and reproduce the data published in the original paper. We have also provided a code-flow diagram to aid comprehension of the code structure. As extensions to the original paper, we explore the effects of (1) generalizing the model by training it on a shuffled dataset, (2) introducing dropout, (3) implementing empirically chosen hyperparameters as trainable parameters in the model, (4) altering the network model to Generative Adversarial Networks (GANs) to introduce stochasticity, (5) modifying the encoder from Unet to Unet++, (6) incorporating cost maps obtained from the Neural A* module in other variations of A* search.
翻訳日:2022-08-14 18:23:48 公開日:2022-07-16
# CAN-BUSセンサデータに基づくドライバ同定のための機械学習手法

A Machine Learning Approach for Driver Identification Based on CAN-BUS Sensor Data ( http://arxiv.org/abs/2207.10807v1 )

ライセンス: Link先を確認
Md. Abbas Ali Khan, Mphammad Hanif Ali, AKM Fazlul Haque, Md. Tarek Habib(参考訳) ドライバー識別は、コントローラエリアネットワーク(CAN-BUS)の観点から、現代の装飾車両の重要な分野である。 多くの従来型システムがドライバーの識別に使われている。 研究者の多くは、CAN-BUSのセンサーデータを使っているが、車両の異なるモデルのプロトコルのバリエーションのため、いくつかの困難がある。 本研究の目的は,運転行動分析に基づく教師付き学習アルゴリズムを用いて運転者を特定することである。 運転者を決定するために,canセンサデータの測定を用いて運転パターンを評価するための運転者検証手法を提案する。 本報告では,CAN-BUSセンサのデータ収集にOBD-IIを用いており,センサはSAE J 1979文に記載されている。 OBD-IIのサービスにより、ドライブ識別が可能となる。 しかし,10名のドライバによる完全データセットと2名のドライバによる部分データセットの2種類の精度を得た。 ドライバー数が多いのに比べ、ドライバー数が少ないと精度が良い。 ベースラインアルゴリズムとは対照的な精度で統計的に有意な結果を得た。

Driver identification is a momentous field of modern decorated vehicles in the controller area network (CAN-BUS) perspective. Many conventional systems are used to identify the driver. One step ahead, most of the researchers use sensor data of CAN-BUS but there are some difficulties because of the variation of the protocol of different models of vehicle. Our aim is to identify the driver through supervised learning algorithms based on driving behavior analysis. To determine the driver, a driver verification technique is proposed that evaluate driving pattern using the measurement of CAN sensor data. In this paper on-board diagnostic (OBD-II) is used to capture the data from the CAN-BUS sensor and the sensors are listed under SAE J1979 statement. According to the service of OBD-II, drive identification is possible. However, we have gained two types of accuracy on a complete data set with 10 drivers and a partial data set with two drivers. The accuracy is good with less number of drivers compared to the higher number of drivers. We have achieved statistically significant results in terms of accuracy in contrast to the baseline algorithm
翻訳日:2022-07-31 14:32:33 公開日:2022-07-16
# フェーディングチャネルと干渉によるUAVネットワーク攻撃認識のための畳み込み注意に基づくディープネットワークソリューション

A Convolutional Attention Based Deep Network Solution for UAV Network Attack Recognition over Fading Channels and Interference ( http://arxiv.org/abs/2207.10810v1 )

ライセンス: Link先を確認
Joseanne Viana, Hamed Farkhari, Luis Miguel Campos, Pedro Sebastiao, Katerina Koutlia, Sandra Lagen, Luis Bernardo, Rui Dinis(参考訳) ユーザーがa2g(air-to-ground)無線通信ネットワーク上で無人航空機(uavs)とデータを交換すると、パケット損失を増加させ接続を妨害する攻撃へのリンクが露呈する。 例えば、緊急配達では、制御情報を失う(すなわち、UAV制御通信に関連するデータ)と、UAVの破壊や都市内の他の要素の損傷を引き起こす事故が発生する可能性がある。 これらの問題を回避するには、5Gと6Gのシナリオで対処する必要がある。 本研究は,クラスタ化遅延線 (CDL) チャネル上の直交周波数分割多重化 (OFDM) 受信機を搭載したUAVの攻撃を,認証された地上ユーザを含む複雑なシナリオで検出するための深層学習 (DL) 手法を提供する。 我々は、受信信号強度指標(RSSI)とSINR(Signal to Interference plus Noise Ratio)という、5G UAV接続で利用可能な2つの観測可能なパラメータを使用する。 予測アルゴリズムは、訓練中に発生しない攻撃識別に関して一般化可能である。 さらに、環境中のすべての攻撃者を20の地球ユーザーで識別することができる。 攻撃認識のタイミング要件に関するより深い調査は、訓練後、攻撃開始後に必要な最小時間は100ms、最小攻撃力は2dBmであり、これは認証されたUAVが使用しているのと同じパワーであることを示している。 また,500mの距離から移動攻撃者を検出するアルゴリズムを開発した。

When users exchange data with Unmanned Aerial vehicles - (UAVs) over air-to-ground (A2G) wireless communication networks, they expose the link to attacks that could increase packet loss and might disrupt connectivity. For example, in emergency deliveries, losing control information (i.e data related to the UAV control communication) might result in accidents that cause UAV destruction and damage to buildings or other elements in a city. To prevent these problems, these issues must be addressed in 5G and 6G scenarios. This research offers a deep learning (DL) approach for detecting attacks in UAVs equipped with orthogonal frequency division multiplexing (OFDM) receivers on Clustered Delay Line (CDL) channels in highly complex scenarios involving authenticated terrestrial users, as well as attackers in unknown locations. We use the two observable parameters available in 5G UAV connections: the Received Signal Strength Indicator (RSSI) and the Signal to Interference plus Noise Ratio (SINR). The prospective algorithm is generalizable regarding attack identification, which does not occur during training. Further, it can identify all the attackers in the environment with 20 terrestrial users. A deeper investigation into the timing requirements for recognizing attacks show that after training, the minimum time necessary after the attack begins is 100 ms, and the minimum attack power is 2 dBm, which is the same power that the authenticated UAV uses. Our algorithm also detects moving attackers from a distance of 500 m.
翻訳日:2022-07-31 14:31:06 公開日:2022-07-16
# 産業アプリケーションにおけるAIのセキュリティと安全性

Security and Safety Aspects of AI in Industry Applications ( http://arxiv.org/abs/2207.10809v1 )

ライセンス: Link先を確認
Hans Dermot Doran(参考訳) この比較的非公式な議論論文では、今後5~10年で業界に影響を及ぼす機械学習の安全性とセキュリティの領域の問題をまとめています。 ニューラルネットワークの分類を用いた各種製品は、視覚関連アプリケーションでもよく見られるが、予測保守でも近年研究され、実世界の応用に応用されている。 しかし、安全とセキュリティ関連ドメインの根底にある問題の報告、例えば、敵攻撃はアーリーアダプターを不安に陥れ、この技術の大規模な採用を妨げる恐れがある。 実世界の適用可能性の問題は、これらの技術を適用するリスクを評価できることだ。 本論文では,そのワークフローの安全性とセキュリティ上の脆弱性を指摘する機械学習ニューラルネットワーク分類器に到達するプロセスについて述べる。

In this relatively informal discussion-paper we summarise issues in the domains of safety and security in machine learning that will affect industry sectors in the next five to ten years. Various products using neural network classification, most often in vision related applications but also in predictive maintenance, have been researched and applied in real-world applications in recent years. Nevertheless, reports of underlying problems in both safety and security related domains, for instance adversarial attacks have unsettled early adopters and are threatening to hinder wider scale adoption of this technology. The problem for real-world applicability lies in being able to assess the risk of applying these technologies. In this discussion-paper we describe the process of arriving at a machine-learnt neural network classifier pointing out safety and security vulnerabilities in that workflow, citing relevant research where appropriate.
翻訳日:2022-07-31 14:25:52 公開日:2022-07-16
# 不均質インシデント車両チームのアクティブ分散制約最適化

Proactive Distributed Constraint Optimization of Heterogeneous Incident Vehicle Teams ( http://arxiv.org/abs/2207.11132v1 )

ライセンス: Link先を確認
Justice Darko and Hyoshin Park(参考訳) トラヒックインシデント管理(TIM)プログラムは、環境におけるインシデント進化の相互依存を伴わずに、緊急リソースの即時インシデント要求への展開を調整する。 しかし、現在のデプロイメント決定を行いながら、環境におけるインシデントの発生に固有の相互依存を無視して、結果として生じるナイーブなデプロイメント戦略は、ネットワーク全体のインシデント遅延の影響を著しく悪化させる可能性がある。 インシデント発生と、近未来の要求における資源の可利用性と、即時インシデント要求の予測期間との間の環境におけるインシデント進化の相互依存性は、現段階のデプロイメント決定を行う際に、ルックアヘッドモデルにより考慮されるべきである。 本研究では, 分散制約最適化問題(distributed constraints optimization problem, dcop)に基づく新しいプロアクティブフレームワークを開発した。 さらに、最適化の目的は無人航空機(UAV)を組み込むように定式化されている。 TIMにおけるUAVの役割には、不確実な交通状況の探索、予期せぬ出来事の検出、道路交通センサからの情報の増強などが含まれる。 複数のTIMシナリオに対するロバスト性解析は,局所探索ヒューリスティックスを用いて良好な性能を示す。 本モデルでは,従来のTIMモデルと比較して,事故発生の遅れが大幅に減少した。 UAV のサポートにより,緊急車両の応答時間短縮による総合的な事故遅延の低減が図られ,事故遅延の予測による不確実性の低減が示された。

Traditionally, traffic incident management (TIM) programs coordinate the deployment of emergency resources to immediate incident requests without accommodating the interdependencies on incident evolutions in the environment. However, ignoring inherent interdependencies on the evolution of incidents in the environment while making current deployment decisions is shortsighted, and the resulting naive deployment strategy can significantly worsen the overall incident delay impact on the network. The interdependencies on incident evolution in the environment, including those between incident occurrences, and those between resource availability in near-future requests and the anticipated duration of the immediate incident request, should be considered through a look-ahead model when making current-stage deployment decisions. This study develops a new proactive framework based on the distributed constraint optimization problem (DCOP) to address the above limitations, overcoming conventional TIM models that cannot accommodate the dependencies in the TIM problem. Furthermore, the optimization objective is formulated to incorporate Unmanned Aerial Vehicles (UAVs). The UAVs' role in TIM includes exploring uncertain traffic conditions, detecting unexpected events, and augmenting information from roadway traffic sensors. Robustness analysis of our model for multiple TIM scenarios shows satisfactory performance using local search exploration heuristics. Overall, our model reports a significant reduction in total incident delay compared to conventional TIM models. With UAV support, we demonstrate a further decrease in the overall incident delay through the shorter response time of emergency vehicles, and a reduction in uncertainties associated with the estimated incident delay impact.
翻訳日:2022-07-31 14:24:55 公開日:2022-07-16
# RSG-Net:複雑な環境下でのインテリジェント車両のリッチセマティック関係予測に向けて

RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent Vehicle in Complex Environments ( http://arxiv.org/abs/2207.12321v1 )

ライセンス: Link先を確認
Yafu Tian, Alexander Carballo, Ruifeng Li and Kazuya Takeda(参考訳) 行動と意味の関係は、インテリジェントな自動運転車とadasシステムにおいて重要な役割を果たす。 軌道、位置、バウンドボックスに焦点を当てた他の研究とは異なり、関係データは物体の挙動を人間に理解できる記述を提供し、物体の過去と将来の状態を驚くほど簡潔に記述することができる。 したがって、リスク検出、環境理解、意思決定といったタスクの基本的な方法である。 本稿では、オブジェクトの提案から潜在的意味関係を予測するために設計されたグラフ畳み込みネットワークRSG-Net(Road Scene Graph Net)を提案し、"Road Scene Graph"と呼ばれるグラフ構造化結果を生成する。 実験の結果,道路シーングラフデータセットでトレーニングされたこのネットワークは,車体周辺の物体間の潜在的な意味関係を効率的に予測できることが示唆された。

Behavioral and semantic relationships play a vital role on intelligent self-driving vehicles and ADAS systems. Different from other research focused on trajectory, position, and bounding boxes, relationship data provides a human understandable description of the object's behavior, and it could describe an object's past and future status in an amazingly brief way. Therefore it is a fundamental method for tasks such as risk detection, environment understanding, and decision making. In this paper, we propose RSG-Net (Road Scene Graph Net): a graph convolutional network designed to predict potential semantic relationships from object proposals, and produces a graph-structured result, called "Road Scene Graph". The experimental results indicate that this network, trained on Road Scene Graph dataset, could efficiently predict potential semantic relationships among objects around the ego-vehicle.
翻訳日:2022-07-31 14:19:28 公開日:2022-07-16
# 粗視画像合成のための拡散モデルの進歩的デブロアリング

Progressive Deblurring of Diffusion Models for Coarse-to-Fine Image Synthesis ( http://arxiv.org/abs/2207.11192v1 )

ライセンス: Link先を確認
Sangyun Lee, Hyungjin Chung, Jaehyeon Kim, Jong Chul Ye(参考訳) 近年,拡散モデルでは,ノイズや増幅信号の除去による画像合成が顕著に行われている。 単純な生成プロセスは驚くほどうまく機能しますが、これは画像データを生成する最良の方法なのでしょうか? 例えば、人間の知覚が画像の低周波数に敏感であるにもかかわらず、拡散モデル自体が各周波数成分の相対的重要性を考慮していない。 そこで,画像データにインダクティブバイアスを組み込むため,画像の粗さから精細さまでを合成する新しい生成法を提案する。 まず,ベクトルの各成分に対して異なる速度で回転座標系を拡散させることにより,標準拡散モデルを一般化する。 さらに,画像の各周波数成分を異なる速度で拡散させる特別な場合として,ぼかし拡散を提案する。 具体的には、提案するぼかし拡散は、画像がぼやけてノイズが徐々に増加するフォワードプロセスからなり、対応する逆プロセスが画像をデブラリングし、ノイズを徐々に除去する。 実験の結果,提案手法はLSUNの寝室や教会のデータセットにおいて,従来のFIDよりも優れていた。 コードはhttps://github.com/sangyun884/blur-diffusionで入手できる。

Recently, diffusion models have shown remarkable results in image synthesis by gradually removing noise and amplifying signals. Although the simple generative process surprisingly works well, is this the best way to generate image data? For instance, despite the fact that human perception is more sensitive to the low frequencies of an image, diffusion models themselves do not consider any relative importance of each frequency component. Therefore, to incorporate the inductive bias for image data, we propose a novel generative process that synthesizes images in a coarse-to-fine manner. First, we generalize the standard diffusion models by enabling diffusion in a rotated coordinate system with different velocities for each component of the vector. We further propose a blur diffusion as a special case, where each frequency component of an image is diffused at different speeds. Specifically, the proposed blur diffusion consists of a forward process that blurs an image and adds noise gradually, after which a corresponding reverse process deblurs an image and removes noise progressively. Experiments show that the proposed model outperforms the previous method in FID on LSUN bedroom and church datasets. Code is available at https://github.com/sangyun884/blur-diffusion.
翻訳日:2022-07-31 14:18:58 公開日:2022-07-16
# 超高分解能画像復元のためのグローバルローカルステップワイズ生成ネットワーク

Global-Local Stepwise Generative Network for Ultra High-Resolution Image Restoration ( http://arxiv.org/abs/2207.08808v1 )

ライセンス: Link先を確認
Xin Feng, Haobo Ji, Wenjie Pei, Fanglin Chen, David Zhang, Guangming Lu(参考訳) 劣化画像のレギュラーサイズによる画像背景復元の研究は著しい進歩を遂げているが,計算量やメモリ使用量の増加や注釈データの不足などにより,超高解像度(4k)画像の復元は依然として極めて困難な課題である。 本稿では,3つの局所経路と1つの大域経路を含む段階的復元戦略を用いて,超高分解能画像復元のための新しいモデルを提案する。 局所経路は局所的かつ高分解能な画像パッチよりも細粒度の画像復元に焦点をあて、グローバル経路はスケールダウンだが無傷な画像で粗い画像復元を行い、セマンティクスやノイズパターンを含むグローバルビューにおける局所経路の手がかりを提供する。 これらの4つの経路間の相互協調を円滑にするために,我々は低レベルコンテンツ,知覚的注意,回復力,高レベル意味論の4点において,経路間の整合性を確保するように設計されている。 この研究のもうひとつの大きな貢献として,4,670個の実世界と合成画像からなる反射除去と降雨ストリーク除去のための,これまでに初めて超高解像度データセットを導入する。 画像の背景復元のための3つの典型的なタスク(画像の反射除去、画像雨のストレーク除去、画像のデハジング)の広範な実験は、glsgnが最先端の手法を一貫して上回っていることを示している。

While the research on image background restoration from regular size of degraded images has achieved remarkable progress, restoring ultra high-resolution (e.g., 4K) images remains an extremely challenging task due to the explosion of computational complexity and memory usage, as well as the deficiency of annotated data. In this paper we present a novel model for ultra high-resolution image restoration, referred to as the Global-Local Stepwise Generative Network (GLSGN), which employs a stepwise restoring strategy involving four restoring pathways: three local pathways and one global pathway. The local pathways focus on conducting image restoration in a fine-grained manner over local but high-resolution image patches, while the global pathway performs image restoration coarsely on the scale-down but intact image to provide cues for the local pathways in a global view including semantics and noise patterns. To smooth the mutual collaboration between these four pathways, our GLSGN is designed to ensure the inter-pathway consistency in four aspects in terms of low-level content, perceptual attention, restoring intensity and high-level semantics, respectively. As another major contribution of this work, we also introduce the first ultra high-resolution dataset to date for both reflection removal and rain streak removal, comprising 4,670 real-world and synthetic images. Extensive experiments across three typical tasks for image background restoration, including image reflection removal, image rain streak removal and image dehazing, show that our GLSGN consistently outperforms state-of-the-art methods.
翻訳日:2022-07-20 13:45:25 公開日:2022-07-16
# 分子データにおける点と不確かさの学習

Learning inducing points and uncertainty on molecular data ( http://arxiv.org/abs/2207.07654v1 )

ライセンス: Link先を確認
Mikhail Tsitsvero(参考訳) 不確実性制御と大規模データセットへのスケーラビリティは、ガウス過程モデルを自律材料と化学空間探査パイプラインに展開するための2つの主要な問題である。 これら2つの問題に対処する一つの方法は、潜在変数の導入と、限界ログライクな目的に対する正しい近似の選択である。 本稿では, 高次元分子ディスクリプタ空間における誘導点の変分学習が, サンプル分子動力学データセットによる試験構成の予測品質と不確実性評価の両方を著しく改善することを示す。 さらに,誘導点が誘導点の初期化集合には存在しない異なるタイプの分子の構成を表現できることを示した。 予測的ログ類似性はガウス過程モデルに匹敵する予測的品質と優れた不確実性制御をもたらすことを示した。 最後に、ガウス過程が高次元ディスクリプタ空間の分子配置を補間して予測するかどうかについて述べる。 我々の直感にもかかわらず、密集した分子データセットであっても、ほとんどの予測は外挿系で行われる。

Uncertainty control and scalability to large datasets are the two main issues for the deployment of Gaussian Process models into the autonomous material and chemical space exploration pipelines. One way to address both of these issues is by introducing the latent inducing variables and choosing the right approximation for the marginal log-likelihood objective. Here, we show that variational learning of the inducing points in the high-dimensional molecular descriptor space significantly improves both the prediction quality and uncertainty estimates on test configurations from a sample molecular dynamics dataset. Additionally, we show that inducing points can learn to represent the configurations of the molecules of different types that were not present within the initialization set of inducing points. Among several evaluated approximate marginal log-likelihood objectives, we show that the predictive log-likelihood provides both the predictive quality comparable to the exact Gaussian Process model and excellent uncertainty control. Finally, we comment on whether Gaussian Processes make predictions by interpolating the molecular configurations in high-dimensional descriptor space. We show that despite our intuition, even for densely sampled molecular datasets, most of the predictions are performed in the extrapolation regime.
翻訳日:2022-07-20 07:50:42 公開日:2022-07-16
# 非IIDデータを用いた限られた通信による協調的ベストアーム識別

Collaborative Best Arm Identification with Limited Communication on Non-IID Data ( http://arxiv.org/abs/2207.08015v1 )

ライセンス: Link先を確認
Nikolai Karpov and Qin Zhang(参考訳) 本稿では,非iidデータを用いた協調学習モデルにおいて,複数のエージェントが潜在的に異なる環境と相互作用し,集約された環境で目標を学習したい場合の,学習プロセスの時間短縮とコミュニケーションラウンド数とのトレードオフについて検討する。 我々は、マルチアームバンディットにおけるベストアーム識別と呼ばれるバンディット理論の基本的問題を用いて、以下の概念的メッセージを提供する。 特に、下記のとおりである。 a)IID以外のデータ設定のスピードアップは、1ドル以下(つまりスローダウン)にできる。 ラウンド数が$R = O(1)$のとき、最低でも1ドル以上のスピードアップを達成するためには、(武器の数に関して)エージェントの多項式数が必要である。 これは、エージェント数に関係なく$r \ge 2$の場合、スピードアップが少なくとも1ドルであるiidデータセットとは全く対照的である。 b) 学習プロセスにおける適応性は,非IIDデータ設定においてあまり役に立たない。 これは、同じスピードアップを達成するために、最高の非適応アルゴリズムは、最適な適応アルゴリズムよりもはるかに多くのラウンドを必要とするIDDデータ設定とは対照的である。 技術分野では、arXiv:1904.03293で導入された一般化円形除去技術をさらに発展させた。 複雑なハードインプット分布を扱い、適応アルゴリズムの下位境界を直接証明する場合、分布クラスの暗黙的な表現は非常に有用であることを示す。

In this paper, we study the tradeoffs between time-speedup and the number of communication rounds of the learning process in the collaborative learning model on non-IID data, where multiple agents interact with possibly different environments and they want to learn an objective in the aggregated environment. We use a basic problem in bandit theory called best arm identification in multi-armed bandits as a vehicle to deliver the following conceptual message: Collaborative learning on non-IID data is provably more difficult than that on IID data. In particular, we show the following: a) The speedup in the non-IID data setting can be less than $1$ (that is, a slowdown). When the number of rounds $R = O(1)$, we will need at least a polynomial number of agents (in terms of the number of arms) to achieve a speedup greater than $1$. This is in sharp contrast with the IID data setting, in which the speedup is always at least $1$ when $R \ge 2$ regardless of number of agents. b) Adaptivity in the learning process cannot help much in the non-IID data setting. This is in sharp contrast with the IID data setting, in which to achieve the same speedup, the best non-adaptive algorithm requires a significantly larger number of rounds than the best adaptive algorithm. In the technique space, we have further developed the generalized round elimination technique introduced in arXiv:1904.03293. We show that implicit representations of distribution classes can be very useful when working with complex hard input distributions and proving lower bounds directly for adaptive algorithms.
翻訳日:2022-07-20 07:49:30 公開日:2022-07-16
# 1次元信号のパラメータ推定のための符号付き累積分布変換

Signed Cumulative Distribution Transform for Parameter Estimation of 1-D Signals ( http://arxiv.org/abs/2207.07989v1 )

ライセンス: Link先を確認
Sumati Thareja, Gustavo Rohde, Rocio Diaz Martin, Ivan Medri, and Akram Aldroubi(参考訳) 本稿では,最近導入された最適伝達理論に基づく信号表現ツールであるsigned cumulative distribution transform (scdt) を用いた信号パラメータ推定手法について述べる。 この方法は、当初正の分布に導入された累積分布変換(cdt)を用いた信号推定に基づいている。 具体的には、任意の信号クラスに対するSCDT空間における線形最小二乗法を用いて、ワッサーシュタイン型距離最小化を行うことができ、基底信号が未知パラメータの非線形関数である場合でも、推定問題に対する大域的最小化を提供する。 L_p$最小化を用いた現在の信号推定法との比較は,その利点を示している。

We describe a method for signal parameter estimation using the signed cumulative distribution transform (SCDT), a recently introduced signal representation tool based on optimal transport theory. The method builds upon signal estimation using the cumulative distribution transform (CDT) originally introduced for positive distributions. Specifically, we show that Wasserstein-type distance minimization can be performed simply using linear least squares techniques in SCDT space for arbitrary signal classes, thus providing a global minimizer for the estimation problem even when the underlying signal is a nonlinear function of the unknown parameters. Comparisons to current signal estimation methods using $L_p$ minimization shows the advantage of the method.
翻訳日:2022-07-20 07:49:06 公開日:2022-07-16
# sobolインデックスによる影響最大化の説明

Explain Influence Maximization with Sobol Indices ( http://arxiv.org/abs/2207.07833v1 )

ライセンス: Link先を確認
Zonghan Zhang and Zhiqian Chen(参考訳) オンラインソーシャルネットワークへの膨大な応用により、インフルエンス最大化(im)は過去数十年でかなりの注目を集めてきた。 現在のim研究では、シードセットがどのような影響をもたらすのかを人間に理解できないため、その適用性にもかかわらず既存のソリューションの信頼性が低下している。 IMの複雑さのため、現在の研究の大半は1次拡散力の推定に集中しており、しばしば異なる種から分散した流れ間の相互作用を考慮している。 本研究は,分散に基づく感度解析の基礎となるsobolインデックスを用いて,個々の種子とその相互作用に対する影響を分解する。 sobolのインデックスは、シード選択をバイナリ変数としてモデル化することでimコンテキスト用に調整される。 この説明法は、全てのネットワークタイプ、IM技術、拡散モデルに適用可能である。 この説明法に基づき, ノードの過剰選択と除去戦略による現在のim研究の性能向上のために, sobolim と呼ばれる汎用フレームワークが提案されている。 合成および実世界のグラフの実験により、影響効果の説明は、様々なネットワークとIMメソッドにわたる種子間の重要な高次相互作用を確実に特定できることを示した。 SobolIMは実効性と競争力に優れていることが実証的に証明されている。

Due to its vast application on online social networks, Influence Maximization (IM) has garnered considerable attention over the last couple of decades. Current IM research lacks human-comprehensible explanations of how the seed set results in the influence effect, hence reducing the trustworthiness of existing solutions despite their applicability. Due to the intricacy of IM, the majority of current research concentrate on estimating first-order spreading power and often is regard the interplay between flows dispersed from different seeds. This study uses Sobol indices, the cornerstone of variance-based sensitivity analysis, to decompose the influence effect to individual seeds and their interactions. The Sobol indices are tailored for IM contexts by modeling the seed selection as binary variables. This explanation method is universally applicable to all network types, IM techniques, and diffusion models. Based on the explanation method, a general framework dubbed SobolIM is proposed to improve the performance of current IM studies by over-selecting nodes followed by an elimination strategy. Experiments on synthetic and real-world graphs demonstrate that the explanation of the impact effect can dependably identify the key high-order interaction between seeds across a variety of networks and IM methods. SobolIM is empirically proved to be superior on effectiveness and competitive on efficiency.
翻訳日:2022-07-20 07:45:39 公開日:2022-07-16
# 重要サンプリングを用いたロバスト回帰のための適応スケッチ

Adaptive Sketches for Robust Regression with Importance Sampling ( http://arxiv.org/abs/2207.07822v1 )

ライセンス: Link先を確認
Sepideh Mahabadi, David P. Woodruff, Samson Zhou(参考訳) 本研究では,確率勾配勾配を標準値に比例してサンプリングすることで,確率勾配勾配勾配(SGD)による頑健な回帰を解くためのデータ構造を導入する。 SGDは大規模機械学習に広く用いられているが、一様サンプリングのばらつきが大きいため、収束速度が遅いことが知られている。 一方で、サンプリングの重要性は分散を著しく減少させるが、サンプリング確率を計算するにはデータに対する追加のパスが必要であり、標準勾配降下 (gd) を代わりに使用できるため、通常は実装が困難である。 本稿では,約$T$グラデーションを,$n$行を超えるロバスト回帰問題に対して,最も重要なサンプリング分布から,約$d$のディメンションをサンプリングするアルゴリズムを提案する。 したがって,本アルゴリズムは,sgd の$t$ ステップを効果的に実行し,サブリニア空間を用いてデータに1回のパスを行う。 また,2次最適化のための重要サンプリングも行う。

We introduce data structures for solving robust regression through stochastic gradient descent (SGD) by sampling gradients with probability proportional to their norm, i.e., importance sampling. Although SGD is widely used for large scale machine learning, it is well-known for possibly experiencing slow convergence rates due to the high variance from uniform sampling. On the other hand, importance sampling can significantly decrease the variance but is usually difficult to implement because computing the sampling probabilities requires additional passes over the data, in which case standard gradient descent (GD) could be used instead. In this paper, we introduce an algorithm that approximately samples $T$ gradients of dimension $d$ from nearly the optimal importance sampling distribution for a robust regression problem over $n$ rows. Thus our algorithm effectively runs $T$ steps of SGD with importance sampling while using sublinear space and just making a single pass over the data. Our techniques also extend to performing importance sampling for second-order optimization.
翻訳日:2022-07-20 07:45:22 公開日:2022-07-16
# BCRLSP: 逐次目標推進のためのオフライン強化学習フレームワーク

BCRLSP: An Offline Reinforcement Learning Framework for Sequential Targeted Promotion ( http://arxiv.org/abs/2207.07790v1 )

ライセンス: Link先を確認
Fanglin Chen, Xiao Liu, Bo Tang, Feiyu Xiong, Serim Hwang, and Guomian Zhuang(参考訳) 実世界のビジネス環境における予算制約が存在する場合、オフライン強化学習(RL)モデルを逐次的目標推進に活用する。 本アプリケーションでは,顧客に対して現金ボーナスを送付し,一定期間の現金ボーナスのコストを制御することにより,顧客の維持を促進することを目的としている。 マルチタスク目標を達成するため,BCRLSP(Budget Constrained Reinforcement Learning for Sequential promotion)フレームワークを提案する。 まず、RLモデルを用いてユーザ保持率を最大化するターゲットポリシーと関連するQ値を明らかにする。 次に、プロモーションコストの制約を満たすために線形プログラミング(LP)モデルを追加する。 予算制約を考慮したRLモデルから得られた行動のQ-値の最大化によりLP問題を解く。 デプロイ中に、オフラインのRLモデルとLPモデルを組み合わせて、予算制約の下で堅牢なポリシーを生成します。 オンラインとオフラインの両方の実験を用いて、bclspが様々なベースラインよりも高い長期顧客保持率と低いコストを達成することを示すことにより、このアプローチの有効性を実証する。 提案手法は, ほぼリアルタイムなコスト制御手法を生かして, ノイズの多い行動ポリシーや, 柔軟な予算制約を満たしたデータに容易に適応できる。

We utilize an offline reinforcement learning (RL) model for sequential targeted promotion in the presence of budget constraints in a real-world business environment. In our application, the mobile app aims to boost customer retention by sending cash bonuses to customers and control the costs of such cash bonuses during each time period. To achieve the multi-task goal, we propose the Budget Constrained Reinforcement Learning for Sequential Promotion (BCRLSP) framework to determine the value of cash bonuses to be sent to users. We first find out the target policy and the associated Q-values that maximizes the user retention rate using an RL model. A linear programming (LP) model is then added to satisfy the constraints of promotion costs. We solve the LP problem by maximizing the Q-values of actions learned from the RL model given the budget constraints. During deployment, we combine the offline RL model with the LP model to generate a robust policy under the budget constraints. Using both online and offline experiments, we demonstrate the efficacy of our approach by showing that BCRLSP achieves a higher long-term customer retention rate and a lower cost than various baselines. Taking advantage of the near real-time cost control method, the proposed framework can easily adapt to data with a noisy behavioral policy and/or meet flexible budget constraints.
翻訳日:2022-07-20 07:45:05 公開日:2022-07-16
# FastML Science Benchmarks: リアルタイム科学エッジ機械学習の高速化

FastML Science Benchmarks: Accelerating Real-Time Scientific Edge Machine Learning ( http://arxiv.org/abs/2207.07958v1 )

ライセンス: Link先を確認
Javier Duarte and Nhan Tran and Ben Hawks and Christian Herwig and Jules Muhizi and Shvetank Prakash and Vijay Janapa Reddi(参考訳) 機械学習(ML)の応用は、多くのユニークで挑戦的な科学的応用のために日々成長している。 しかし、これらの応用に直面する重要な課題は、超低レイテンシとオン検出器ml機能の必要性である。 ムーアの法則とデナードのスケーリングの減速と、データレートの増加をもたらす科学機器の急速な進歩を考えると、極端に超高速なMLが必要である。 最先端の高速mlは、科学実験を加速し、より深い洞察を可能にするために、科学データをリアルタイムで削減およびフィルタリングするために不可欠である。 リアルタイムの科学的エッジMLハードウェアとソフトウェアソリューションを高速化するためには、汎用的に適用可能かつアクセス可能な十分な仕様を備えた、十分に制約されたベンチマークタスクが必要です。 これらのベンチマークは、ナノ秒およびマイクロ秒レベルのレイテンシ要求を満たすことができる科学アプリケーションのための将来のエッジmlハードウェアの設計を導くことができる。 そこで本研究では,MLと組込みシステムの様々な手法を網羅した,科学的なMLベンチマークのセットを提案する。

Applications of machine learning (ML) are growing by the day for many unique and challenging scientific applications. However, a crucial challenge facing these applications is their need for ultra low-latency and on-detector ML capabilities. Given the slowdown in Moore's law and Dennard scaling, coupled with the rapid advances in scientific instrumentation that is resulting in growing data rates, there is a need for ultra-fast ML at the extreme edge. Fast ML at the edge is essential for reducing and filtering scientific data in real-time to accelerate science experimentation and enable more profound insights. To accelerate real-time scientific edge ML hardware and software solutions, we need well-constrained benchmark tasks with enough specifications to be generically applicable and accessible. These benchmarks can guide the design of future edge ML hardware for scientific applications capable of meeting the nanosecond and microsecond level latency requirements. To this end, we present an initial set of scientific ML benchmarks, covering a variety of ML and embedded system techniques.
翻訳日:2022-07-20 07:43:56 公開日:2022-07-16
# 量子ノイズによる貯留層計算

Quantum Noise-Induced Reservoir Computing ( http://arxiv.org/abs/2207.07924v1 )

ライセンス: Link先を確認
Tomoyuki Kubota, Yudai Suzuki, Shumpei Kobayashi, Quoc Hoan Tran, Naoki Yamamoto, and Kohei Nakajima(参考訳) 量子コンピューティングは理論的な段階から実践的な段階へと移行し、周囲の環境からノイズを受ける物理量子ビットを実装する際の困難な課題を提示している。 これらの量子ノイズは量子デバイスにおいてユビキタスであり、量子計算モデルにおいて悪影響を及ぼし、その補正と緩和技術に関する広範な研究に繋がる。 しかし、量子ノイズは常にデメリットをもたらすのだろうか? 本稿では,量子ノイズによる貯水池計算というフレームワークを提案し,時間的入力データに有用な情報処理能力を持つ抽象量子ノイズモデルを提案する。 いくつかの典型的なベンチマークでこの能力を実証し、情報処理能力を調べ、フレームワークの処理機構とメモリプロファイルを明らかにする。 我々は,このフレームワークをIBMの量子プロセッサに実装することで,我々の視点を検証し,モデル解析による類似のメモリプロファイルを得た。 その結果,量子デバイスのノイズレベルやエラー率が高いほど情報処理能力が向上した。 我々の研究は、量子コンピュータノイズからより洗練された情報プロセッサに有用な情報を変換するための新しい道を開く。

Quantum computing has been moving from a theoretical phase to practical one, presenting daunting challenges in implementing physical qubits, which are subjected to noises from the surrounding environment. These quantum noises are ubiquitous in quantum devices and generate adverse effects in the quantum computational model, leading to extensive research on their correction and mitigation techniques. But do these quantum noises always provide disadvantages? We tackle this issue by proposing a framework called quantum noise-induced reservoir computing and show that some abstract quantum noise models can induce useful information processing capabilities for temporal input data. We demonstrate this ability in several typical benchmarks and investigate the information processing capacity to clarify the framework's processing mechanism and memory profile. We verified our perspective by implementing the framework in a number of IBM quantum processors and obtained similar characteristic memory profiles with model analyses. As a surprising result, information processing capacity increased with quantum devices' higher noise levels and error rates. Our study opens up a novel path for diverting useful information from quantum computer noises into a more sophisticated information processor.
翻訳日:2022-07-20 07:43:40 公開日:2022-07-16
# 教師なしアンサンブルに基づくIoTネットワークにおける攻撃検出のためのディープラーニングアプローチ

Unsupervised Ensemble Based Deep Learning Approach for Attack Detection in IoT Network ( http://arxiv.org/abs/2207.07903v1 )

ライセンス: Link先を確認
Mir Shahnawaz Ahmed and Shahid Mehraj Shah(参考訳) IoT(Internet of Things)は、デバイスやものをインターネット上でコントロールすることで、生活を変えてきた。 IoTは、サイバー物理システム(CPS)やその他の古典的な分野をスマートリージョンに変換する、日々の問題に対する多くのスマートソリューションを規定している。 モノのインターネットを構成するエッジデバイスのほとんどは、最小限の処理能力を持っています。 iotネットワークをダウンさせるには、攻撃者はこれらのデバイスをさまざまなネットワーク攻撃に利用することができる。 さらに、より多くのIoTデバイスが追加されるにつれて、新しい未知の脅威の可能性は指数関数的に増大する。 そのため、このような脅威を識別できるIoTネットワークのためのインテリジェントなセキュリティフレームワークを開発する必要がある。 本稿では,非ラベルデータセットからIoTネットワークにおける新たな,あるいは未知の攻撃を検出可能な,教師なしアンサンブル学習モデルを開発した。 システム生成のラベル付きデータセットは、IoTネットワーク攻撃を検出するためのディープラーニングモデルをトレーニングするために使用される。 さらに,攻撃検出のためのデータセットの最も関連性の高い側面を特定する機能選択機構を提案する。 本研究は,提案手法によって提供されたラベル付きデータセットを用いてトレーニングした場合,提案モデルが他のモデルよりも97.5%,誤警報率2.3%の精度で,ラベルなしのiotネットワークデータセットとdbn(deep belief network)を識別できることを示す。

The Internet of Things (IoT) has altered living by controlling devices/things over the Internet. IoT has specified many smart solutions for daily problems, transforming cyber-physical systems (CPS) and other classical fields into smart regions. Most of the edge devices that make up the Internet of Things have very minimal processing power. To bring down the IoT network, attackers can utilise these devices to conduct a variety of network attacks. In addition, as more and more IoT devices are added, the potential for new and unknown threats grows exponentially. For this reason, an intelligent security framework for IoT networks must be developed that can identify such threats. In this paper, we have developed an unsupervised ensemble learning model that is able to detect new or unknown attacks in an IoT network from an unlabelled dataset. The system-generated labelled dataset is used to train a deep learning model to detect IoT network attacks. Additionally, the research presents a feature selection mechanism for identifying the most relevant aspects in the dataset for detecting attacks. The study shows that the suggested model is able to identify the unlabelled IoT network datasets and DBN (Deep Belief Network) outperform the other models with a detection accuracy of 97.5% and a false alarm rate of 2.3% when trained using labelled dataset supplied by the proposed approach.
翻訳日:2022-07-20 07:43:06 公開日:2022-07-16
# 不均衡眼底画像データセットを用いた多層眼科疾患検出のための識別的核畳み込みネットワーク

Discriminative Kernel Convolution Network for Multi-Label Ophthalmic Disease Detection on Imbalanced Fundus Image Dataset ( http://arxiv.org/abs/2207.07918v1 )

ライセンス: Link先を確認
Amit Bhati, Neha Gour, Pritee Khanna, Aparajita Ojha(参考訳) 網膜生体構造の進展を調べることにより、眼疾患の存在と重篤さを認識することが可能である。 眼底検査は、眼の生物学的構造と異常を調べるための診断手順である。 緑内障、糖尿病網膜症、白内障などの眼疾患が世界中の視覚障害の主な原因である。 眼疾患知的認識(ocir-5k)は、眼底画像のマルチラベルマルチディセーゼ分類に研究者が利用するベンチマーク構成眼底画像データセットである。 本研究は, 余分な計算コストを伴わずに, 判別的領域的特徴を探索する識別的カーネル畳み込みネットワーク(DKCNet)を提案する。 DKCNetはアテンションブロックからなり、その後に圧縮励起(SE)ブロックが続く。 注目ブロックは、バックボーンネットワークから特徴を取り、識別的特徴注意マップを生成する。 seブロックは識別機能マップを取り、チャネル間の依存性を改善する。 inceptionresnet backbone networkを用いて96.08 auc,94.28 f1-score, 0.81 kappaスコアのodir-5k基底画像のマルチラベル分類を行った。 提案手法は,眼球対の共通目標ラベルを診断キーワードに基づいて分割する。 これらのラベルに基づいて、クラス不均衡を解決するためにオーバーサンプリングとアンダーサンプリングが行われる。 提案したモデルのトレーニングデータに対するバイアスをチェックするために,ODIRデータセットでトレーニングされたモデルを3つの公開ベンチマークデータセットでテストする。 また、全く見当たらない眼底像にも優れた性能が認められた。

It is feasible to recognize the presence and seriousness of eye disease by investigating the progressions in retinal biological structure. Fundus examination is a diagnostic procedure to examine the biological structure and anomaly of the eye. Ophthalmic diseases like glaucoma, diabetic retinopathy, and cataract are the main reason for visual impairment around the world. Ocular Disease Intelligent Recognition (ODIR-5K) is a benchmark structured fundus image dataset utilized by researchers for multi-label multi-disease classification of fundus images. This work presents a discriminative kernel convolution network (DKCNet), which explores discriminative region-wise features without adding extra computational cost. DKCNet is composed of an attention block followed by a squeeze and excitation (SE) block. The attention block takes features from the backbone network and generates discriminative feature attention maps. The SE block takes the discriminative feature maps and improves channel interdependencies. Better performance of DKCNet is observed with InceptionResnet backbone network for multi-label classification of ODIR-5K fundus images with 96.08 AUC, 94.28 F1-score and 0.81 kappa score. The proposed method splits the common target label for an eye pair based on the diagnostic keyword. Based on these labels oversampling and undersampling is done to resolve class imbalance. To check the biasness of proposed model towards training data, the model trained on ODIR dataset is tested on three publicly available benchmark datasets. It is found to give good performance on completely unseen fundus images also.
翻訳日:2022-07-20 07:39:13 公開日:2022-07-16
# 準線形空間におけるオンライン予測

Online Prediction in Sub-linear Space ( http://arxiv.org/abs/2207.07974v1 )

ライセンス: Link先を確認
Binghui Peng and Fred Zhang(参考訳) 我々は,Srinivas,Woodruff,Xu,Zhou (STOC 2022) が最近提起したオープンな疑問に対処するため,オンライン学習のための最初のサブ線形空間とサブ線形後悔アルゴリズムを提供する。 また,任意の線形後悔アルゴリズムの線形メモリ下限を適応的逆数に対して証明することにより,(強い)適応的逆数との分離を示す。 我々のアルゴリズムは、オンライン学習における従来のリーダー選択の知恵をバイパスする新しいプール選択法と、弱いサブ線形後悔$o(T)$アルゴリズムから$T^{1-\alpha$後悔アルゴリズムへ変換する一般的な還元法に基づいている。 我々の下界はゼロサムゲームにおける非回帰学習と平衡計算の接続を利用しており、適応的敵に対する強い下界の証明につながる。

We provide the first sub-linear space and sub-linear regret algorithm for online learning with expert advice (against an oblivious adversary), addressing an open question raised recently by Srinivas, Woodruff, Xu and Zhou (STOC 2022). We also demonstrate a separation between oblivious and (strong) adaptive adversaries by proving a linear memory lower bound of any sub-linear regret algorithm against an adaptive adversary. Our algorithm is based on a novel pool selection procedure that bypasses the traditional wisdom of leader selection for online learning, and a generic reduction that transforms any weakly sub-linear regret $o(T)$ algorithm to $T^{1-\alpha}$ regret algorithm, which may be of independent interest. Our lower bound utilizes the connection of no-regret learning and equilibrium computation in zero-sum games, leading to a proof of a strong lower bound against an adaptive adversary.
翻訳日:2022-07-20 07:37:37 公開日:2022-07-16
# 低storageアクティベーションのための学習可能な混合精度と次元縮小共設計

Learnable Mixed-precision and Dimension Reduction Co-design for Low-storage Activation ( http://arxiv.org/abs/2207.07931v1 )

ライセンス: Link先を確認
Yu-Shan Tai, Cheng-Yang Chang, Chieh-Fang Teng, and AnYeu (Andy) Wu(参考訳) 近年、深層畳み込みニューラルネットワーク (CNN) は眼球運動の結果を多く達成している。 しかしながら、リソース制約のあるエッジデバイスへのcnnのデプロイは、推論、すなわちアクティベーション中に大きな中間データを送信するためのメモリ帯域幅の制限によって制限される。 既存の研究は、計算の複雑さを減らすために混合精度と次元の縮小を利用するが、アクティベーション圧縮への応用にはあまり注意を払わない。 活性化の冗長性をさらに活用するために,チャネルをグループに分け,その重要度に応じて特定の圧縮ポリシーを割り当てる学習可能な混合精度・次元縮小コデザインシステムを提案する。 さらに,提案手法は探索空間を拡大し,最適なビット幅割り当てを自動的に検出する。 実験の結果,提案手法の精度は3.54%/1.27%向上し,既存のResNet18とMobileNetv2の混合精度に比べて0.18/2.02ビットの削減が可能であった。

Recently, deep convolutional neural networks (CNNs) have achieved many eye-catching results. However, deploying CNNs on resource-constrained edge devices is constrained by limited memory bandwidth for transmitting large intermediated data during inference, i.e., activation. Existing research utilizes mixed-precision and dimension reduction to reduce computational complexity but pays less attention to its application for activation compression. To further exploit the redundancy in activation, we propose a learnable mixed-precision and dimension reduction co-design system, which separates channels into groups and allocates specific compression policies according to their importance. In addition, the proposed dynamic searching technique enlarges search space and finds out the optimal bit-width allocation automatically. Our experimental results show that the proposed methods improve 3.54%/1.27% in accuracy and save 0.18/2.02 bits per value over existing mixed-precision methods on ResNet18 and MobileNetv2, respectively.
翻訳日:2022-07-20 07:37:18 公開日:2022-07-16
# 複数2D/3D楕円型対応によるレベル設定型カメラポース推定

Level Set-Based Camera Pose Estimation From Multiple 2D/3D Ellipse-Ellipsoid Correspondences ( http://arxiv.org/abs/2207.07953v1 )

ライセンス: Link先を確認
Matthieu Zins, Gilles Simon, Marie-Odile Berger(参考訳) 本稿では,1枚のRGB画像と楕円体モデルで表現されたオブジェクトの事前マップから,オブジェクトベースのカメラポーズ推定を提案する。 点対応とは対照的に、3Dオブジェクトの2Dオブジェクト検出への投影を特徴付けるコスト関数の定義は簡単ではないことを示す。 レベルセットのサンプリングに基づいて楕円楕円コストを開発し、部分可視オブジェクトを扱うための優れた特性を示し、その性能を他の一般的なメトリクスと比較する。 最後に,検出した楕円に対して予測の不確実性を用いることで,計算されたポーズを改善する対応の寄与を公平に重み付けできることを示す。 コードはhttps://gitlab.inria.fr/tangram/level-set-based-camera-pose-estimationでリリースされる。

In this paper, we propose an object-based camera pose estimation from a single RGB image and a pre-built map of objects, represented with ellipsoidal models. We show that contrary to point correspondences, the definition of a cost function characterizing the projection of a 3D object onto a 2D object detection is not straightforward. We develop an ellipse-ellipse cost based on level sets sampling, demonstrate its nice properties for handling partially visible objects and compare its performance with other common metrics. Finally, we show that the use of a predictive uncertainty on the detected ellipses allows a fair weighting of the contribution of the correspondences which improves the computed pose. The code is released at https://gitlab.inria.fr/tangram/level-set-based-camera-pose-estimation.
翻訳日:2022-07-20 07:33:36 公開日:2022-07-16
# 説明可能な視覚トランスフォーマーにより植物病診断のための畳み込みニューラルネットワーク:plantxvit

Explainable vision transformer enabled convolutional neural network for plant disease identification: PlantXViT ( http://arxiv.org/abs/2207.07919v1 )

ライセンス: Link先を確認
Poornima Singh Thakur, Pritee Khanna, Tanuja Sheorey, Aparajita Ojha(参考訳) 植物病は世界の作物の損失の主な原因であり、世界経済に影響を及ぼしている。 これらの問題に対処するため、スマート農業ソリューションは進化し、IoTと機械学習を組み合わせて早期疾患の検出と制御を行っている。 このようなシステムの多くは、リアルタイム疾患の検出と診断に視覚ベースの機械学習手法を使用している。 深層学習技術の進歩に伴い、植物病の検出と同定に畳み込みニューラルネットワークを用いる新たな手法が出現している。 視覚ベースのディープラーニングのもう1つのトレンドは、分類やその他の問題の強力なモデルであることが証明されたビジョントランスフォーマーの使用である。 しかし、植物病理学の分野ではビジョントランスフォーマーが研究されることはめったにない。 本研究では,植物病診断のための視覚トランスフォーマブル畳み込みニューラルネットワークモデル「plantxvit」を提案する。 提案モデルは、従来の畳み込みニューラルネットワークと視覚トランスフォーマーの機能を組み合わせることで、作物の多数の植物病を効率的に同定する。 提案したモデルは、わずか0.8万のトレーニング可能なパラメータを持つ軽量な構造であり、IoTベースのスマート農業サービスに適している。 PlantXViTのパフォーマンスは5つの公開データセットで評価される。 提案するPlantXViTネットワークは,5つのデータセットすべてに対して,最先端の5つのメソッドより優れている。 植物病を認識するための平均精度は、Apple、Maize、Liceのデータセットでそれぞれ93.55%、92.59%、98.33%を超えている。 本モデルの有効性を,勾配重み付きクラスアクティベーションマップと局所解釈可能なモデル説明法を用いて評価した。

Plant diseases are the primary cause of crop losses globally, with an impact on the world economy. To deal with these issues, smart agriculture solutions are evolving that combine the Internet of Things and machine learning for early disease detection and control. Many such systems use vision-based machine learning methods for real-time disease detection and diagnosis. With the advancement in deep learning techniques, new methods have emerged that employ convolutional neural networks for plant disease detection and identification. Another trend in vision-based deep learning is the use of vision transformers, which have proved to be powerful models for classification and other problems. However, vision transformers have rarely been investigated for plant pathology applications. In this study, a Vision Transformer enabled Convolutional Neural Network model called "PlantXViT" is proposed for plant disease identification. The proposed model combines the capabilities of traditional convolutional neural networks with the Vision Transformers to efficiently identify a large number of plant diseases for several crops. The proposed model has a lightweight structure with only 0.8 million trainable parameters, which makes it suitable for IoT-based smart agriculture services. The performance of PlantXViT is evaluated on five publicly available datasets. The proposed PlantXViT network performs better than five state-of-the-art methods on all five datasets. The average accuracy for recognising plant diseases is shown to exceed 93.55%, 92.59%, and 98.33% on Apple, Maize, and Rice datasets, respectively, even under challenging background conditions. The efficiency in terms of explainability of the proposed model is evaluated using gradient-weighted class activation maps and Local Interpretable Model Agnostic Explanation.
翻訳日:2022-07-20 07:33:26 公開日:2022-07-16
# すべてのオブジェクトを見るべきです

You Should Look at All Objects ( http://arxiv.org/abs/2207.07889v1 )

ライセンス: Link先を確認
Zhenchao Jin, Dongdong Yu, Luchuan Song, Zehuan Yuan, Lequan Yu(参考訳) 特徴ピラミッドネットワーク(FPN)は、物体検出器の鍵となるコンポーネントの1つである。 しかし、大規模物体の検出性能は通常、fpnの導入後に抑制されるという長年の謎がある。 そこで本研究では,まずFPNを検出フレームワークで再検討し,最適化の観点からFPNの成功の性質を明らかにする。 そこで我々は,FPN統合後の不適切なバックプロパゲーションパスの発生による大規模物体の劣化特性を指摘した。 バックボーンネットワークの各レベルは、特定のスケール範囲内のオブジェクトのみを見ることができる。 これらの分析に基づいて、fpnベースの検出フレームワークのすべてのオブジェクトをバックボーンの各レベルで見ることができるようにするための2つの実現可能な戦略が提案されている。 具体的には、トレーニング中に各バックボーンレベルに各種物体のバックプロパゲーション信号を直接受信させる補助的目的関数を導入する。 もうひとつは、不合理なバックプロパゲーションパスを避けるために、より合理的な方法でフィーチャーピラミッドを構築することです。 COCOベンチマークの広範囲な実験により, 分析の健全性と手法の有効性が検証された。 ベルとホイッスルがなければ,本手法は1段,2段,アンカーベース,アンカーフリー,変圧器ベース検出器など,様々な検出フレームワークにおいて確固たる改善(2%以上)を達成できることを示す。

Feature pyramid network (FPN) is one of the key components for object detectors. However, there is a long-standing puzzle for researchers that the detection performance of large-scale objects are usually suppressed after introducing FPN. To this end, this paper first revisits FPN in the detection framework and reveals the nature of the success of FPN from the perspective of optimization. Then, we point out that the degraded performance of large-scale objects is due to the arising of improper back-propagation paths after integrating FPN. It makes each level of the backbone network only has the ability to look at the objects within a certain scale range. Based on these analysis, two feasible strategies are proposed to enable each level of the backbone to look at all objects in the FPN-based detection frameworks. Specifically, one is to introduce auxiliary objective functions to make each backbone level directly receive the back-propagation signals of various-scale objects during training. The other is to construct the feature pyramid in a more reasonable way to avoid the irrational back-propagation paths. Extensive experiments on the COCO benchmark validate the soundness of our analysis and the effectiveness of our methods. Without bells and whistles, we demonstrate that our method achieves solid improvements (more than 2%) on various detection frameworks: one-stage, two-stage, anchor-based, anchor-free and transformer-based detectors.
翻訳日:2022-07-20 07:33:00 公開日:2022-07-16
# TS2-Net:テキストビデオ検索のためのトークンシフトと選択変換器

TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval ( http://arxiv.org/abs/2207.07852v1 )

ライセンス: Link先を確認
Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao and Qin Jin(参考訳) テキストビデオ検索は,非常に実践的な課題であり,空間的時間的映像表現の学習がホットスポットの1つとして注目されている。 最先端映像検索モデルにおける映像エンコーダは通常、ネットワーク構造が固定された事前学習されたビジョンバックボーンを直接採用するので、細粒度の空間時空間映像表現を生成するようには改善できない。 本稿では,トークンシーケンスを動的に調整し,入力ビデオサンプルから時間的・空間的両方の情報的トークンを選択する,新しいトークンシフト選択トランスアーキテクチャであるtoken shift and selection network (ts2-net)を提案する。 トークンシフトモジュールは、トークン全体の特徴を隣接するフレーム間で時間的にシフトし、完全なトークン表現を保持し、微妙な動きをキャプチャする。 次にトークン選択モジュールは、局所的な空間意味論に最も寄与するトークンを選択する。 提案したTS2-Netは、MSRVTT, VATEX, LSMDC, ActivityNet, DiDeMoの新たなレコードを含む、主要なテキストビデオ検索ベンチマークにおける最先端のパフォーマンスを実現する。

Text-Video retrieval is a task of great practical value and has received increasing attention, among which learning spatial-temporal video representation is one of the research hotspots. The video encoders in the state-of-the-art video retrieval models usually directly adopt the pre-trained vision backbones with the network structure fixed, they therefore can not be further improved to produce the fine-grained spatial-temporal video representation. In this paper, we propose Token Shift and Selection Network (TS2-Net), a novel token shift and selection transformer architecture, which dynamically adjusts the token sequence and selects informative tokens in both temporal and spatial dimensions from input video samples. The token shift module temporally shifts the whole token features back-and-forth across adjacent frames, to preserve the complete token representation and capture subtle movements. Then the token selection module selects tokens that contribute most to local spatial semantics. Based on thorough experiments, the proposed TS2-Net achieves state-of-the-art performance on major text-video retrieval benchmarks, including new records on MSRVTT, VATEX, LSMDC, ActivityNet, and DiDeMo.
翻訳日:2022-07-20 07:32:37 公開日:2022-07-16
# 物理埋め込みニューラルネットワーク車両モデルと潜在特徴を用いたリスク認識自律運転への応用

Physics Embedded Neural Network Vehicle Model and Applications in Risk-Aware Autonomous Driving Using Latent Features ( http://arxiv.org/abs/2207.07920v1 )

ライセンス: Link先を確認
Taekyung Kim, Hojin Lee, Wonsuk Lee(参考訳) 非ホロノミック車両運動は物理学に基づくモデルを用いて広く研究されている。 これらのモデルを使用する場合の一般的なアプローチは、線形タイヤモデルを用いて車輪/地上相互作用を解釈するので、様々な環境下での非線形および複素力学を完全に捉えることはできない。 一方、この領域ではニューラルネットワークモデルが広く使われており、強力な関数近似能力を示している。 しかし、これらのブラックボックス学習戦略は、既知の物理学の知識を完全に放棄する。 本稿では,ディープラーニングと完全に微分可能な物理モデルとをシームレスに組み合わせ,ニューラルネットワークに事前知識を付与する。 提案モデルでは,バニラニューラルネットワークモデルよりも大きなマージンの一般化性能を示す。 また,モデルの潜在特性は,追加のトレーニングを必要とせずに,タイヤの側面力を表すことができることを示した。 最後に,潜在特徴に基づく固有情報を用いたリスク対応モデル予測制御器を開発した。 未知の摩擦下での2つの自律走行タスクにおける私たちのアイデアを検証する。

Non-holonomic vehicle motion has been studied extensively using physics-based models. Common approaches when using these models interpret the wheel/ground interactions using a linear tire model and thus may not fully capture the nonlinear and complex dynamics under various environments. On the other hand, neural network models have been widely employed in this domain, demonstrating powerful function approximation capabilities. However, these black-box learning strategies completely abandon the existing knowledge of well-known physics. In this paper, we seamlessly combine deep learning with a fully differentiable physics model to endow the neural network with available prior knowledge. The proposed model shows better generalization performance than the vanilla neural network model by a large margin. We also show that the latent features of our model can accurately represent lateral tire forces without the need for any additional training. Lastly, We develop a risk-aware model predictive controller using proprioceptive information derived from the latent features. We validate our idea in two autonomous driving tasks under unknown friction, outperforming the baseline control framework.
翻訳日:2022-07-20 07:31:33 公開日:2022-07-16
# Sotto Voce: 差分プライバシー保証によるフェデレーション音声認識

Sotto Voce: Federated Speech Recognition with Differential Privacy Guarantees ( http://arxiv.org/abs/2207.07816v1 )

ライセンス: Link先を確認
Michael Shoemate and Kevin Jett and Ethan Cowan and Sean Colbath and James Honaker and Prasanna Muthukumar(参考訳) 音声データは収集するのに高価で、情報源に非常に敏感です。 組織が独自の目的で小さなデータセットを独自に収集するケースが多いが、機械学習の要求に対してパフォーマンスが低い場合が多い。 組織はこれらのデータセットをプールして、強力なasrシステムを構築することができる。しかし、明確なデータを共有することは、知的所有権の喪失と、データセットに存在する個人のプライバシーの喪失という大きなリスクをもたらす。 本稿では,プライバシ損失を抑える数学的保証を提供するため,複数の組織でMLモデルを学習するための潜在的なソリューションを提供する。 差別化プライバシ技術の強力な基盤の上に構築されたフェデレートラーニングアプローチを使用します。 これらをsenone分類プロトタイプに適用し,プライバシを尊重しながらプライベートデータを追加することで,モデルが改善されることを示す。

Speech data is expensive to collect, and incredibly sensitive to its sources. It is often the case that organizations independently collect small datasets for their own use, but often these are not performant for the demands of machine learning. Organizations could pool these datasets together and jointly build a strong ASR system; sharing data in the clear, however, comes with tremendous risk, in terms of intellectual property loss as well as loss of privacy of the individuals who exist in the dataset. In this paper, we offer a potential solution for learning an ML model across multiple organizations where we can provide mathematical guarantees limiting privacy loss. We use a Federated Learning approach built on a strong foundation of Differential Privacy techniques. We apply these to a senone classification prototype and demonstrate that the model improves with the addition of private data while still respecting privacy.
翻訳日:2022-07-20 07:30:49 公開日:2022-07-16
# 実処理インメモリシステムにおける機械学習学習の実験的評価

An Experimental Evaluation of Machine Learning Training on a Real Processing-in-Memory System ( http://arxiv.org/abs/2207.07886v1 )

ライセンス: Link先を確認
Juan G\'omez-Luna, Yuxin Guo, Sylvan Brocard, Julien Legriel, Remy Cimadomo, Geraldo F. Oliveira, Gagandeep Singh, Onur Mutlu(参考訳) 機械学習(ML)アルゴリズムのトレーニングは計算集約的なプロセスであり、大規模なトレーニングデータセットに繰り返しアクセスするため、メモリバウンドが頻繁に発生する。 その結果、プロセッサ中心のシステム(CPU、GPUなど)は、大量のエネルギーと実行サイクルを消費するメモリユニットと処理ユニットの間のコストのかかるデータ移動に悩まされる。 メモリ中心のコンピューティングシステム、すなわち処理・イン・メモリ(pim)機能により、このデータ移動ボトルネックを軽減することができる。 我々のゴールは、MLトレーニングを加速する現代の汎用PIMアーキテクチャの可能性を理解することである。 そのため,(1) 現実の汎用PIMアーキテクチャ上での代表的なMLアルゴリズム(線形回帰,ロジスティック回帰,決定木,K平均クラスタリング)を実装し,(2) 精度,性能,スケーリングの点でそれらを厳格に評価,特徴付けし,(3) 対応するCPUやGPUの実装と比較する。 2500以上のPIMコアを持つ実メモリ中心型コンピューティングシステムに対する評価は、PIMハードウェアで必要な操作やデータタイプをネイティブにサポートする場合、汎用PIMアーキテクチャがメモリバウンドMLワークロードを大幅に高速化できることを示している。 例えば、私たちのPIMによる決定ツリーの実装は、8コアのIntel Xeonの最先端CPUバージョンよりも27\times$高速で、NVIDIA A100の最先端GPUバージョンより1.34\times$高速です。 PIM上でのK-Meansクラスタリングは、それぞれ最先端のCPUバージョンとGPUバージョンよりも2.8\times$と3.2\times$です。 私たちの知る限り、実際のPIMアーキテクチャ上でMLトレーニングを評価するのは、私たちの仕事が初めてです。 我々は、MLワークロードのユーザ、PIMアーキテクチャのプログラマ、将来のメモリ中心コンピューティングシステムのハードウェアデザイナやアーキテクトに刺激を与える、重要な観察、テイクアウト、レコメンデーションで締めくくります。

Training machine learning (ML) algorithms is a computationally intensive process, which is frequently memory-bound due to repeatedly accessing large training datasets. As a result, processor-centric systems (e.g., CPU, GPU) suffer from costly data movement between memory units and processing units, which consumes large amounts of energy and execution cycles. Memory-centric computing systems, i.e., with processing-in-memory (PIM) capabilities, can alleviate this data movement bottleneck. Our goal is to understand the potential of modern general-purpose PIM architectures to accelerate ML training. To do so, we (1) implement several representative classic ML algorithms (namely, linear regression, logistic regression, decision tree, K-Means clustering) on a real-world general-purpose PIM architecture, (2) rigorously evaluate and characterize them in terms of accuracy, performance and scaling, and (3) compare to their counterpart implementations on CPU and GPU. Our evaluation on a real memory-centric computing system with more than 2500 PIM cores shows that general-purpose PIM architectures can greatly accelerate memory-bound ML workloads, when the necessary operations and datatypes are natively supported by PIM hardware. For example, our PIM implementation of decision tree is $27\times$ faster than a state-of-the-art CPU version on an 8-core Intel Xeon, and $1.34\times$ faster than a state-of-the-art GPU version on an NVIDIA A100. Our K-Means clustering on PIM is $2.8\times$ and $3.2\times$ than state-of-the-art CPU and GPU versions, respectively. To our knowledge, our work is the first one to evaluate ML training on a real-world PIM architecture. We conclude with key observations, takeaways, and recommendations that can inspire users of ML workloads, programmers of PIM architectures, and hardware designers & architects of future memory-centric computing systems.
翻訳日:2022-07-20 07:28:39 公開日:2022-07-16
# メmriモデルとデバイスを用いたニューロモルフィック・アーキテクチャのエミュレートツール

A tool for emulating neuromorphic architectures with memristive models and devices ( http://arxiv.org/abs/2207.07987v1 )

ライセンス: Link先を確認
Jinqi Huang, Spyros Stathopoulos, Alex Serb, Themis Prodromakis(参考訳) Memristorsはニューロモルフィックコンピューティングの概念とAIハードウェアアクセラレータを拡張できる有望な機能を示している。 本稿では,メムリスタモデルを用いて,幅広いニューロモルフィックアーキテクチャをエミュレート可能なユーザフレンドリーなソフトウェア基盤を提案する。 このツールは、オンライン学習とオンライン分類タスクにmemristorsを利用する研究に力を与え、トレーニングプロセス中のmemristor抵抗状態の変化を予測する。 このツールの汎用性は、使用済みのmemristorやニューロンモデルや使用済みの学習ルールでパラメータをカスタマイズする機能を通じて示される。 これにより、ユーザーは幅広いパラメータで概念とその感受性を検証することができる。 本稿では,mnist分類タスクによるツールの使用例を示す。 最後に,本ツールは,市販のキャラクタリゼーションツールとの適切なインターフェースを通じて,実用的memristiveデバイスを用いて,in-silicoで研究中の概念をエミュレートする上でも利用できることを示す。

Memristors have shown promising features for enhancing neuromorphic computing concepts and AI hardware accelerators. In this paper, we present a user-friendly software infrastructure that allows emulating a wide range of neuromorphic architectures with memristor models. This tool empowers studies that exploit memristors for online learning and online classification tasks, predicting memristor resistive state changes during the training process. The versatility of the tool is showcased through the capability for users to customise parameters in the employed memristor and neuronal models as well as the employed learning rules. This further allows users to validate concepts and their sensitivity across a wide range of parameters. We demonstrate the use of the tool via an MNIST classification task. Finally, we show how this tool can also be used to emulate the concepts under study in-silico with practical memristive devices via appropriate interfacing with commercially available characterisation tools.
翻訳日:2022-07-20 07:27:43 公開日:2022-07-16
# 単眼3次元マルチパーソンポーズ推定のための相互適応推論

Mutual Adaptive Reasoning for Monocular 3D Multi-Person Pose Estimation ( http://arxiv.org/abs/2207.07900v1 )

ライセンス: Link先を確認
Juze Zhang, Jingya Wang, Ye Shi, Fei Gao, Lan Xu, Jingyi Yu(参考訳) 対人咬合と深度あいまいさは、カメラ中心の座標として単眼の複数の人の3Dポーズを推定する。 一般的なトップダウンフレームワークは、さらなる検出段階を伴う高い計算冗長性に悩まされる。 対照的にボトムアップ手法は、人間の数に影響を受けないため、計算コストが低い。 しかし、既存のボトムアップ法は、カメラ中心の3次元人物ポーズ推定を2.5次元ポーズ推定とカメラ中心の深度推定の2つの無関係なサブタスクとして扱う。 本稿では,これら2つのサブタスクの相互利益を生かした統一モデルを提案する。 フレームワーク内では、深さ関係に基づく人物間咬合を認識するために、ロバストな2.5dポーズ推定が設計されている。 さらに、2.5Dポーズとカメラ中心の根深の双方の利点を生かした、エンドツーエンドの幾何認識深度推論手法を開発した。 この方法はまず2.5Dポーズ情報と幾何情報を用いて前方パスにおけるカメラ中心の根深を推定し,さらに後方パスにおける2.5Dポーズ推定の表現学習を改善する。 さらに,視覚知覚と身体形状の両面を利用した適応融合方式を設計し,固有深度曖昧性問題を軽減する。 広範囲にわたる実験により,提案モデルがボトムアップ法より優れていることを示す。 私たちの正確さはトップダウンのものとさえ競合する。 特に、私たちのモデルは既存のボトムアップやトップダウンメソッドよりもはるかに高速です。

Inter-person occlusion and depth ambiguity make estimating the 3D poses of monocular multiple persons as camera-centric coordinates a challenging problem. Typical top-down frameworks suffer from high computational redundancy with an additional detection stage. By contrast, the bottom-up methods enjoy low computational costs as they are less affected by the number of humans. However, most existing bottom-up methods treat camera-centric 3D human pose estimation as two unrelated subtasks: 2.5D pose estimation and camera-centric depth estimation. In this paper, we propose a unified model that leverages the mutual benefits of both these subtasks. Within the framework, a robust structured 2.5D pose estimation is designed to recognize inter-person occlusion based on depth relationships. Additionally, we develop an end-to-end geometry-aware depth reasoning method that exploits the mutual benefits of both 2.5D pose and camera-centric root depths. This method first uses 2.5D pose and geometry information to infer camera-centric root depths in a forward pass, and then exploits the root depths to further improve representation learning of 2.5D pose estimation in a backward pass. Further, we designed an adaptive fusion scheme that leverages both visual perception and body geometry to alleviate inherent depth ambiguity issues. Extensive experiments demonstrate the superiority of our proposed model over a wide range of bottom-up methods. Our accuracy is even competitive with top-down counterparts. Notably, our model runs much faster than existing bottom-up and top-down methods.
翻訳日:2022-07-20 07:27:28 公開日:2022-07-16
# ニューラルインバースレンダリングによる自己キャリブレーション型測光ステレオ

Self-calibrating Photometric Stereo by Neural Inverse Rendering ( http://arxiv.org/abs/2207.07815v1 )

ライセンス: Link先を確認
Junxuan Li and Hongdong Li(参考訳) 本稿では, 物体形状, 物体反射率, 照明方向が不明な3次元物体復元のための無補間測光ステレオの課題について述べる。 これは非常に難しい課題であり、この課題は光度ステレオにおけるよく知られた一般化されたbas-relief(GBR)あいまいさの存在とさらに複雑である。 この曖昧さを解決する以前の方法は、過度に単純化された反射率モデルに依存するか、特別な光分布を仮定する。 本研究では,物体形状,光方向,光強度を共同で最適化する新しい手法を提案する。 スペクティリティは、神経逆レンダリングプロセスを介して、非共役フォトメトリックステレオを明示的に解くために使用される。 我々は、新しい進歩的スペクティラーベースを用いて、徐々に明度を明度から粗さに適合させる。 本手法は,物体ごとの復元誤差を最小化することにより,物理式に基づくレンダリング式を活用する。 本手法は,実世界のデータセットにおける光推定と形状復元における最先端の精度を示す。

This paper tackles the task of uncalibrated photometric stereo for 3D object reconstruction, where both the object shape, object reflectance, and lighting directions are unknown. This is an extremely difficult task, and the challenge is further compounded with the existence of the well-known generalized bas-relief (GBR) ambiguity in photometric stereo. Previous methods to resolve this ambiguity either rely on an overly simplified reflectance model, or assume special light distribution. We propose a new method that jointly optimizes object shape, light directions, and light intensities, all under general surfaces and lights assumptions. The specularities are used explicitly to solve uncalibrated photometric stereo via a neural inverse rendering process. We gradually fit specularities from shiny to rough using novel progressive specular bases. Our method leverages a physically based rendering equation by minimizing the reconstruction error on a per-object-basis. Our method demonstrates state-of-the-art accuracy in light estimation and shape recovery on real-world datasets.
翻訳日:2022-07-20 07:27:05 公開日:2022-07-16
# 画像間テキスト認識のための粒度統一表現の学習

Learning Granularity-Unified Representations for Text-to-Image Person Re-identification ( http://arxiv.org/abs/2207.07802v1 )

ライセンス: Link先を確認
Zhiyin Shao, Xinyu Zhang, Meng Fang, Zhifeng Lin, Jian Wang, Changxing Ding(参考訳) ReID(text-to-image person re-identification)は、関心のある人物の歩行者画像の検索を目的としたテキスト記述である。 これは、豊富なモーダル内変異と重要なモーダル間ギャップの両方によって困難である。 既存の作品は通常、2つのモダリティ間の特徴粒度の違いを無視する。つまり、視覚的特徴は通常細粒度であるが、テクスト的特徴は粗いものである。 本稿では,LGURと表記される両モードの粒度統一表現を学習するためのトランスフォーマーに基づくエンドツーエンドフレームワークを提案する。 LGURフレームワークには、Dictionary-based Granularity Alignment (DGA)モジュールとPrototype-based Granularity Unification (PGU)モジュールの2つのモジュールが含まれている。 DGAでは,2つのモードの粒度を調整するために,視覚的特徴とテキスト的特徴の両方を再構成する多モード共有辞書(MSD)を導入する。 さらにDGAは,MSDの最適化を容易にするために,モダリティガイダンスと前景中心の再構築という2つの重要な要素を有している。 pguでは、共有および学習可能なプロトタイプをクエリとして採用し、粒度統一特徴空間における2つのモダリティの多様かつ意味的に整合した特徴を抽出し、さらにreid性能を向上させる。 総合的な実験により、LGURはCUHK-PEDESとICFG-PEDESの両方のデータセットにおいて、最先端のデータを一貫して上回ります。 コードはhttps://github.com/ZhiyinShao-H/LGURで公開される。

Text-to-image person re-identification (ReID) aims to search for pedestrian images of an interested identity via textual descriptions. It is challenging due to both rich intra-modal variations and significant inter-modal gaps. Existing works usually ignore the difference in feature granularity between the two modalities, i.e., the visual features are usually fine-grained while textual features are coarse, which is mainly responsible for the large inter-modal gaps. In this paper, we propose an end-to-end framework based on transformers to learn granularity-unified representations for both modalities, denoted as LGUR. LGUR framework contains two modules: a Dictionary-based Granularity Alignment (DGA) module and a Prototype-based Granularity Unification (PGU) module. In DGA, in order to align the granularities of two modalities, we introduce a Multi-modality Shared Dictionary (MSD) to reconstruct both visual and textual features. Besides, DGA has two important factors, i.e., the cross-modality guidance and the foreground-centric reconstruction, to facilitate the optimization of MSD. In PGU, we adopt a set of shared and learnable prototypes as the queries to extract diverse and semantically aligned features for both modalities in the granularity-unified feature space, which further promotes the ReID performance. Comprehensive experiments show that our LGUR consistently outperforms state-of-the-arts by large margins on both CUHK-PEDES and ICFG-PEDES datasets. Code will be released at https://github.com/ZhiyinShao-H/LGUR.
翻訳日:2022-07-20 07:26:47 公開日:2022-07-16
# 異常なポーズにおける物体認識のための深層ネットワークの進展と限界

Progress and limitations of deep networks to recognize objects in unusual poses ( http://arxiv.org/abs/2207.08034v1 )

ライセンス: Link先を確認
Amro Abbas, St\'ephane Deny(参考訳) 深層ネットワークは、高度な実世界のアプリケーション(自動運転車など)にうまくデプロイされる場合、まれなイベントに対して堅牢であるべきです。 本稿では,異常なポーズで物体を認識するディープネットワークの能力について検討する。 我々は,異方向の物体画像の合成データセットを作成し,画像分類のための最新の38のディープネットワークのロバスト性を評価する。 これらの画像の分類は、テスト対象が直立している場合と比較して平均精度が29.5%低下しているため、テスト対象の全ネットワークにとって依然として課題である。 この脆さは、トレーニング損失(例:教師付き対自己監督)、アーキテクチャ(例:畳み込みネットワーク対トランスフォーマー)、データセットのモダリティ(例:画像対画像-テキスト対)、データ拡張スキームなど、様々なネットワーク設計選択の影響を受けない。 しかし、非常に大きなデータセットでトレーニングされたネットワークは、他のネットワークよりも大幅に優れており、最も優れたネットワークは、jft-300m$\unicode{x2014}$noisyの学生efficentnet-l2をトレーニングした。 それにもかかわらず、騒がしい学生の失敗を視覚的に検査すると、人間の視覚システムとの強固さの欠如が明らかになる。 さらに、複数のオブジェクト変換$\unicode{x2014}$3d回転とスケーリング$\unicode{x2014}$を組み合わせると、すべてのネットワークのパフォーマンスが低下する。 以上から,実世界で使用する際に考慮すべき深層ネットワークのロバスト性について,新たな測定結果が得られた。 コードとデータセットはhttps://github.com/amro-kamal/objectposeで入手できる。

Deep networks should be robust to rare events if they are to be successfully deployed in high-stakes real-world applications (e.g., self-driving cars). Here we study the capability of deep networks to recognize objects in unusual poses. We create a synthetic dataset of images of objects in unusual orientations, and evaluate the robustness of a collection of 38 recent and competitive deep networks for image classification. We show that classifying these images is still a challenge for all networks tested, with an average accuracy drop of 29.5% compared to when the objects are presented upright. This brittleness is largely unaffected by various network design choices, such as training losses (e.g., supervised vs. self-supervised), architectures (e.g., convolutional networks vs. transformers), dataset modalities (e.g., images vs. image-text pairs), and data-augmentation schemes. However, networks trained on very large datasets substantially outperform others, with the best network tested$\unicode{x2014}$Noisy Student EfficentNet-L2 trained on JFT-300M$\unicode{x2014}$showing a relatively small accuracy drop of only 14.5% on unusual poses. Nevertheless, a visual inspection of the failures of Noisy Student reveals a remaining gap in robustness with the human visual system. Furthermore, combining multiple object transformations$\unicode{x2014}$3D-rotations and scaling$\unicode{x2014}$further degrades the performance of all networks. Altogether, our results provide another measurement of the robustness of deep networks that is important to consider when using them in the real world. Code and datasets are available at https://github.com/amro-kamal/ObjectPose.
翻訳日:2022-07-20 07:25:40 公開日:2022-07-16
# LAVA:コントラストビデオ事前学習のための言語音声ビジョンアライメント

LAVA: Language Audio Vision Alignment for Contrastive Video Pre-Training ( http://arxiv.org/abs/2207.08024v1 )

ライセンス: Link先を確認
Sumanth Gurram, Andy Fang, David Chan, John Canny(参考訳) 映像データの表現の生成は、機械知覚の分野を前進させる上で重要である。 現在のほとんどのテクニックは、手書きのデータを頼りにしており、作業が難しく、生成が高価で、スケールが難しい。 本研究では,コントラスト学習に基づく新しい学習手法であるLAVAを提案する。 変換器エンコーダを用いて、Kinetics 700データセット上でLAVAを事前学習し、各モードの表現を学習する。 次に, LAVAは, 未ラベルデータの一部を使用しながら, UCF-101およびHMDB-51ビデオ行動認識において, 最先端の自己監督・弱教師付き事前学習技術と競合することを示した。

Generating representations of video data is of key importance in advancing the field of machine perception. Most current techniques rely on hand-annotated data, which can be difficult to work with, expensive to generate, and hard to scale. In this work, we propose a novel learning approach based on contrastive learning, LAVA, which is capable of learning joint language, audio, and video representations in a self-supervised manner. We pre-train LAVA on the Kinetics 700 dataset using transformer encoders to learn representations for each modality. We then demonstrate that LAVA performs competitively with the current state-of-the-art self-supervised and weakly-supervised pretraining techniques on UCF-101 and HMDB-51 video action recognition while using a fraction of the unlabeled data.
翻訳日:2022-07-20 07:25:06 公開日:2022-07-16
# CARBEN: 複合対向ロバストネスベンチマーク

CARBEN: Composite Adversarial Robustness Benchmark ( http://arxiv.org/abs/2207.07797v1 )

ライセンス: Link先を確認
Lei Hsiung, Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 敵攻撃法に関する以前の文献は、主にLpボールに束縛された摂動のような単一の脅威モデルに対する攻撃と防御に焦点を当てていた。 しかし、複数の脅威モデルを複合摂動に組み合わせることができる。 そのようなアプローチの1つとして、複合対向攻撃(CAA)は、画像の摂動空間を広げるだけでなく、現在の強靭性評価のモードによって見過ごされる可能性がある。 本稿では,caaのアタック順序が結果画像にどのように影響するかを示し,攻撃レベルのパラメータの設定やモデル予測の迅速評価を容易にする,異なるモデルのリアルタイム推論を提供する。 CAAに対する敵対的堅牢性を評価するためのリーダーボードも導入された。

Prior literature on adversarial attack methods has mainly focused on attacking with and defending against a single threat model, e.g., perturbations bounded in Lp ball. However, multiple threat models can be combined into composite perturbations. One such approach, composite adversarial attack (CAA), not only expands the perturbable space of the image, but also may be overlooked by current modes of robustness evaluation. This paper demonstrates how CAA's attack order affects the resulting image, and provides real-time inferences of different models, which will facilitate users' configuration of the parameters of the attack level and their rapid evaluation of model prediction. A leaderboard to benchmark adversarial robustness against CAA is also introduced.
翻訳日:2022-07-20 07:20:39 公開日:2022-07-16
# 多変量長系列予測のための一般化メモリ駆動変圧器

Generalizable Memory-driven Transformer for Multivariate Long Sequence Time-series Forecasting ( http://arxiv.org/abs/2207.07827v1 )

ライセンス: Link先を確認
Mingjie Li, Xiaoyun Zhao, Rui Liu, Changlin Li, Xiaohan Wang, and Xiaojun Chang(参考訳) 多変量長周期時系列予測(M-LSTF)は実用的だが難しい問題である。 従来のタイマーシリーズ予測タスクとは異なり、M-LSTFタスクは2つの側面からより難しい。 1)M-LSTFモデルは、複数の時間的特徴の中と間の両方で時系列パターンを学習する必要がある。 2) 転がり予測条件下では, 2つの連続トレーニングサンプル間の類似度は, 予測長の増大とともに増大し, モデルが過度に適合しやすくなった。 本稿では,M-LSTF問題を対象とした一般化可能なメモリ駆動トランスを提案する。 具体的には、まず、複数の時系列機能を統合して予測手順を進めるグローバルレベルメモリコンポーネントを提案する。 さらに、一般化性を高めるためにモデルをトレーニングするために進歩的な手法を採用し、徐々にBernoulliノイズをトレーニングサンプルに導入する。 複数のフィールドにまたがる5つの異なるデータセットで広範な実験が行われた。 実験の結果,本手法はトランスフォーマーモデルにシームレスに接続でき,最大30%の性能向上が期待できることがわかった。 特に、私たちの知識を最大限に活用するために、M-LSTFタスクに特に焦点を合わせるのは、これが初めてです。

Multivariate long sequence time-series forecasting (M-LSTF) is a practical but challenging problem. Unlike traditional timer-series forecasting tasks, M-LSTF tasks are more challenging from two aspects: 1) M-LSTF models need to learn time-series patterns both within and between multiple time features; 2) Under the rolling forecasting setting, the similarity between two consecutive training samples increases with the increasing prediction length, which makes models more prone to overfitting. In this paper, we propose a generalizable memory-driven Transformer to target M-LSTF problems. Specifically, we first propose a global-level memory component to drive the forecasting procedure by integrating multiple time-series features. In addition, we adopt a progressive fashion to train our model to increase its generalizability, in which we gradually introduce Bernoulli noises to training samples. Extensive experiments have been performed on five different datasets across multiple fields. Experimental results demonstrate that our approach can be seamlessly plugged into varying Transformer-based models to improve their performances up to roughly 30%. Particularly, this is the first work to specifically focus on the M-LSTF tasks to the best of our knowledge.
翻訳日:2022-07-20 07:20:09 公開日:2022-07-16
# 自己指導型学習におけるハイパーパラメータの重要性とデータ拡張について

On the Importance of Hyperparameters and Data Augmentation for Self-Supervised Learning ( http://arxiv.org/abs/2207.07875v1 )

ライセンス: Link先を確認
Diane Wagner, Fabio Ferreira, Danny Stoll, Robin Tibor Schirrmeister, Samuel M\"uller, Frank Hutter(参考訳) 自己監視学習(SSL)はディープラーニング研究の非常に活発な領域となり、分類やその他のタスクの事前学習方法として広く利用されている。 しかし、この分野の急速な進歩のペースは価格に比例し、訓練パイプラインは書類によって大きく異なるため、潜在的に重要な要因となる可能性がある。 ここでは、ハイパーパラメータとデータ拡張戦略の選択がパフォーマンスに劇的な影響を与えうることを示す。 これらの無視された要因に光を当て、SSLのパワーを最大化するために、これらのコンポーネントを過度にパラメータ化し、ベイズ最適化で最適化し、SimSiam SSLアプローチのために複数のデータセットにまたがる改善を示す。 SSLにおけるデータ拡張の重要性を認識し,グループ間のサンプリングを最適化する,新たな自動データ拡張アルゴリズムであるGroupAugmentを導入する。 教師付き学習のために設計されたアルゴリズムとは対照的に、groupaugmentは、検討したすべてのデータセットにおいて一貫して高い線形評価精度を達成した。 全体として、SSLにおけるデータ拡張の重要性と、おそらく過小評価された役割を示している。

Self-Supervised Learning (SSL) has become a very active area of Deep Learning research where it is heavily used as a pre-training method for classification and other tasks. However, the rapid pace of advancements in this area comes at a price: training pipelines vary significantly across papers, which presents a potentially crucial confounding factor. Here, we show that, indeed, the choice of hyperparameters and data augmentation strategies can have a dramatic impact on performance. To shed light on these neglected factors and help maximize the power of SSL, we hyperparameterize these components and optimize them with Bayesian optimization, showing improvements across multiple datasets for the SimSiam SSL approach. Realizing the importance of data augmentations for SSL, we also introduce a new automated data augmentation algorithm, GroupAugment, which considers groups of augmentations and optimizes the sampling across groups. In contrast to algorithms designed for supervised learning, GroupAugment achieved consistently high linear evaluation accuracy across all datasets we considered. Overall, our results indicate the importance and likely underestimated role of data augmentation for SSL.
翻訳日:2022-07-20 07:15:14 公開日:2022-07-16
# カーネルベースフェデレーション学習とパーソナライゼーション

Kernel-based Federated Learning with Personalization ( http://arxiv.org/abs/2207.07948v1 )

ライセンス: Link先を確認
Sudeep Salgia, Sattar Vakili, Qing Zhao(参考訳) 我々は、グローバルな目的に加えて、各クライアントがパーソナライズされたローカルな目的を最大化することに関心を持つ、個人化によるフェデレーションラーニングを考える。 我々は、対象関数が再生核ヒルベルト空間に属する一般的な連続作用空間の設定の下でこの問題を考える。 本稿では, 最適後悔順序(多対数因子まで)を達成する代用ガウス過程(GP)モデルに基づくアルゴリズムを提案する。 さらに,GPモデルのスパース近似は,クライアント間の通信コストを大幅に削減することを示した。

We consider federated learning with personalization, where in addition to a global objective, each client is also interested in maximizing a personalized local objective. We consider this problem under a general continuous action space setting where the objective functions belong to a reproducing kernel Hilbert space. We propose algorithms based on surrogate Gaussian process (GP) models that achieve the optimal regret order (up to polylogarithmic factors). Furthermore, we show that the sparse approximations of the GP models significantly reduce the communication cost across clients.
翻訳日:2022-07-20 07:14:08 公開日:2022-07-16
# 特異ウッドベリーと擬決定行列の同一性とガウス過程回帰への応用

A Singular Woodbury and Pseudo-Determinant Matrix Identities and Application to Gaussian Process Regression ( http://arxiv.org/abs/2207.08038v1 )

ライセンス: Link先を確認
Siavash Ameli, Shawn C. Shadden(参考訳) 我々はウッドベリー行列の恒等式がもはや成立しないときにウッドベリー行列の特異な定式化で生じる行列について研究する。 本稿では、ガウス過程の回帰、特にその可能性表現とその精度行列に直接適用できるような行列に対して、一般化された逆および擬行列の恒等性を示す。 また,提案する行列式に対する効率的なアルゴリズムと数値解析を行い,ガウス過程回帰の帰納関数における対数決定項の計算に適用できる条件下での利点を示す。

We study a matrix that arises in a singular formulation of the Woodbury matrix identity when the Woodbury identity no longer holds. We present generalized inverse and pseudo-determinant identities for such matrix that have direct applications to the Gaussian process regression, in particular, its likelihood representation and its precision matrix. We also provide an efficient algorithm and numerical analysis for the presented determinant identities and demonstrate their advantages in certain conditions which are applicable to computing log-determinant terms in likelihood functions of Gaussian process regression.
翻訳日:2022-07-19 19:29:23 公開日:2022-07-16
# 3次元分子幾何学のための距離幾何グラフ注意ネットワーク(dg-gat)

Distance-Geometric Graph Attention Network (DG-GAT) for 3D Molecular Geometry ( http://arxiv.org/abs/2207.08023v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) 分子科学のためのディープラーニングは主に2D分子グラフに焦点を当てている。 しかし近年,実世界の応用において科学的意義と重要な重要性から,これを3次元分子幾何学に拡張する研究が進められている。 3次元距離幾何学グラフ表現(DG-GR)は、3次元グラフの幾何学を表現する統一的なスキーム(距離)を採用する。 グラフの回転と変換には不変であり、特に3次元分子幾何学に関係したペアワイズノード相互作用とその局所的性質を反映している。 分子科学の深層学習における3次元分子幾何学の組み入れを容易にするため,DG-GRを用いたダイナミックアテンション付きグラフアテンションネットワーク(GATv2)を導入し,3次元距離幾何学グラフアテンションネットワーク(DG-GAT)を提案する。 GATv2は、ノードとノード間の距離によって注意が変わるため、DG-GRにとって非常に適している。 ESOLデータセットとFreeSolvデータセットに対するDG-GATの実験結果は、2D分子グラフに基づく標準グラフ畳み込みネットワークよりも大きな改善(31%と38%)を示した。 同じことがqm9データセットにも当てはまります。 本研究は3次元分子幾何学に基づく深層学習におけるDG-GATの有用性と有用性を示す。

Deep learning for molecular science has so far mainly focused on 2D molecular graphs. Recently, however, there has been work to extend it to 3D molecular geometry, due to its scientific significance and critical importance in real-world applications. The 3D distance-geometric graph representation (DG-GR) adopts a unified scheme (distance) for representing the geometry of 3D graphs. It is invariant to rotation and translation of the graph, and it reflects pair-wise node interactions and their generally local nature, particularly relevant for 3D molecular geometry. To facilitate the incorporation of 3D molecular geometry in deep learning for molecular science, we adopt the new graph attention network with dynamic attention (GATv2) for use with DG-GR and propose the 3D distance-geometric graph attention network (DG-GAT). GATv2 is a great fit for DG-GR since the attention can vary by node and by distance between nodes. Experimental results of DG-GAT for the ESOL and FreeSolv datasets show major improvement (31% and 38%, respectively) over those of the standard graph convolution network based on 2D molecular graphs. The same is true for the QM9 dataset. Our work demonstrates the utility and value of DG-GAT for deep learning based on 3D molecular geometry.
翻訳日:2022-07-19 19:20:31 公開日:2022-07-16
# 深い強化学習のための連想記憶に基づく体験リプレイ

Associative Memory Based Experience Replay for Deep Reinforcement Learning ( http://arxiv.org/abs/2207.07791v1 )

ライセンス: Link先を確認
Mengyuan Li, Arman Kazemi, Ann Franchesca Laguna and X. Sharon Hu(参考訳) 体験リプレイは深層強化学習(DRL)において不可欠な要素であり、エージェントがリアルタイムで学習する経験を記憶し、生成する。 近年、優先体験再生(PER)はDRLエージェントに強力で広く展開されていることが証明されている。 しかし、従来のCPUやGPUアーキテクチャにPERを実装すると、頻繁で不規則なメモリアクセスのために大きな遅延オーバーヘッドが発生する。 本稿では,連想メモリ(AM)ベースのPER,AMPERをAMフレンドリな優先サンプリング操作で設計するハードウェア・ソフトウェア共同設計手法を提案する。 AMPERは、学習性能を保ちながらPERで広く使われる時間費用のかかるツリートラバーサルベースの優先度サンプリングを置き換える。 さらに,並列なメモリ内検索操作を活用することで,AMPERをサポートするメモリ内コンピューティングハードウェアアーキテクチャを設計する。 amperは同等の学習性能を示しながら、提案ハードウェア上で実行する場合のレイテンシを、gpu上での実行時の最先端と比較して55倍から270倍向上させる。

Experience replay is an essential component in deep reinforcement learning (DRL), which stores the experiences and generates experiences for the agent to learn in real time. Recently, prioritized experience replay (PER) has been proven to be powerful and widely deployed in DRL agents. However, implementing PER on traditional CPU or GPU architectures incurs significant latency overhead due to its frequent and irregular memory accesses. This paper proposes a hardware-software co-design approach to design an associative memory (AM) based PER, AMPER, with an AM-friendly priority sampling operation. AMPER replaces the widely-used time-costly tree-traversal-based priority sampling in PER while preserving the learning performance. Further, we design an in-memory computing hardware architecture based on AM to support AMPER by leveraging parallel in-memory search operations. AMPER shows comparable learning performance while achieving 55x to 270x latency improvement when running on the proposed hardware compared to the state-of-the-art PER running on GPU.
翻訳日:2022-07-19 19:13:09 公開日:2022-07-16
# ニューラルモーダルODE:高次元モニタリング構造モデリングのための物理モデルとニューラルODEの統合

Neural Modal ODEs: Integrating Physics-based Modeling with Neural ODEs for Modeling High Dimensional Monitored Structures ( http://arxiv.org/abs/2207.07883v1 )

ライセンス: Link先を確認
Zhilu Lai, Wei Liu, Xudong Jian, Kiran Bacsa, Limin Sun, Eleni Chatzi(参考訳) データに基づいて導出されたモデルの順序/寸法は、一般的に観測数、または監視されたシステムのコンテキストにおいて、センシングノードによって制限される。 これは、典型的には高次元である構造系(例えば、土木構造や機械構造)に特に当てはまる。 本稿では, 物理学を対象とする機械学習の分野において, 物理ベースのモデリングと深層学習(特に, 神経常微分方程式(neural normal differential equation)-neural odes)を統合し, 監視および高次元工学系のダイナミクスをモデル化するための枠組みであるneural modal odesを提案する。 この初歩的な探索では、線形あるいは穏やかに非線形なシステムに限定する。 物理インフォームドニューラルネットワーク(Pi-Neural ODE)と可変オートエンコーダの動的バージョンを結合するアーキテクチャを提案する。 オートエンコーダの一部として、エンコーダは、観測データの最初のいくつかの項目から潜在変数の初期値への抽象的マッピングを学習し、物理にインフォームされたニューラルodeを介して埋め込みダイナミクスの学習を駆動し、その潜在空間に \textit{modal model} 構造を与える。 提案モデルの復号器は,自由度(DOF)間の空間的関係を暗黙的に伝達するプロセスである物理モデルの線形化部分に適用される固有解析から導かれる固有モードを採用する。 このフレームワークは、数値的な例で検証され、学習されたハイブリッドモデルが純粋に物理ベースのモデリングアプローチを上回っていることを示す、ケーブルスタイドブリッジの実験データセットが示される。 さらに、空間的に疎いデータから、未測定のDOFにおける一般応答量の回復という仮想センシングの文脈における提案手法の機能を示す。

The order/dimension of models derived on the basis of data is commonly restricted by the number of observations, or in the context of monitored systems, sensing nodes. This is particularly true for structural systems (e.g. civil or mechanical structures), which are typically high-dimensional in nature. In the scope of physics-informed machine learning, this paper proposes a framework - termed Neural Modal ODEs - to integrate physics-based modeling with deep learning (particularly, Neural Ordinary Differential Equations -- Neural ODEs) for modeling the dynamics of monitored and high-dimensional engineered systems. In this initiating exploration, we restrict ourselves to linear or mildly nonlinear systems. We propose an architecture that couples a dynamic version of variational autoencoders with physics-informed Neural ODEs (Pi-Neural ODEs). An encoder, as a part of the autoencoder, learns the abstract mappings from the first few items of observational data to the initial values of the latent variables, which drive the learning of embedded dynamics via physics-informed Neural ODEs, imposing a \textit{modal model} structure to that latent space. The decoder of the proposed model adopts the eigenmodes derived from an eigen-analysis applied to the linearized portion of a physics-based model: a process implicitly carrying the spatial relationship between degrees-of-freedom (DOFs). The framework is validated on a numerical example, and an experimental dataset of a scaled cable-stayed bridge, where the learned hybrid model is shown to outperform a purely physics-based approach to modeling. We further show the functionality of the proposed scheme within the context of virtual sensing, i.e., the recovery of generalized response quantities in unmeasured DOFs from spatially sparse data.
翻訳日:2022-07-19 19:12:53 公開日:2022-07-16
# 異種グラフを用いた視覚認識型音響イベント検出

Visually-aware Acoustic Event Detection using Heterogeneous Graphs ( http://arxiv.org/abs/2207.07935v1 )

ライセンス: Link先を確認
Amir Shirian, Krishna Somandepalli, Victor Sanchez, Tanaya Guha(参考訳) 聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。 既存の多数のマルチモーダルアプローチでは、各モダリティをモダリティ固有のモデルを使って処理し、埋め込みを融合してジョイント情報をエンコードする。 対照的に,モダリティ間の空間的・時間的関係を明示的に把握し,基礎となる信号に関する詳細な情報を表現するために,異種グラフを用いる。 ヘテロジニアスグラフのアプローチは、グラフの形式でデータを表現するためのコンパクトで効率的でスケーラブルな方法として機能する、視覚的に認識された音響イベント分類のタスクに対処する。 ヘテロジニアスグラフを通して,空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間関係の効率的なモデリングを示す。 我々のモデルは、関連するハイパーパラメータを通して、異なるスケールのイベントに容易に適応できる。 大規模なベンチマークであるAudioSetの実験は、我々のモデルが最先端のパフォーマンスを達成することを示す。

Perception of auditory events is inherently multimodal relying on both audio and visual cues. A large number of existing multimodal approaches process each modality using modality-specific models and then fuse the embeddings to encode the joint information. In contrast, we employ heterogeneous graphs to explicitly capture the spatial and temporal relationships between the modalities and represent detailed information about the underlying signal. Using heterogeneous graph approaches to address the task of visually-aware acoustic event classification, which serves as a compact, efficient and scalable way to represent data in the form of graphs. Through heterogeneous graphs, we show efficiently modelling of intra- and inter-modality relationships both at spatial and temporal scales. Our model can easily be adapted to different scales of events through relevant hyperparameters. Experiments on AudioSet, a large benchmark, shows that our model achieves state-of-the-art performance.
翻訳日:2022-07-19 19:12:18 公開日:2022-07-16
# 弱格下の不可分な参加予算

Indivisible Participatory Budgeting under Weak Rankings ( http://arxiv.org/abs/2207.07981v1 )

ライセンス: Link先を確認
Gogulapati Sreedurga and Yadati Narahari(参考訳) 参加型予算設定(PB)は、社会的選択設定に広く適用できるため、近年で注目されている。 本稿では, プロジェクトよりもエージェントの選好に基づいて, 利用可能な限られた予算を, 特定のコストで特定可能なプロジェクト群に割り当てる非分割型PBについて検討する。 本論文で論じる具体的な,重要な研究のギャップは,分類が弱いPBの分類法を提案し,その重要なアルゴリズム的・公理的問題について検討することである。 異なる意味と動機を持つ2種類のルールを提案する。 1つは階層化された承認ルールで、弱いランキングを慎重に承認票に翻訳することで調査することができる。 もうひとつは、公正な問題をキャプチャできる、ニーズベースのルールです。 階層化された承認ルールの下では, 2つのルールの自然なファミリーについて検討する。 紙には2つの部分があります。 第1部では,提案規則のアルゴリズムおよび複雑性に関する問題について検討する。 第2部では,これらの規則の詳細な公理解析を行い,文献における公理を考察し,一般化するとともに,新たな公理,対確率可能性について紹介する。 本論文は,これらの規則の実践的魅力,計算複雑性,公理的遵守のトレードオフを明らかにするのに役立つ。

Participatory budgeting (PB) has attracted much attention in recent times due to its wide applicability in social choice settings. In this paper, we consider indivisible PB which involves allocating an available, limited budget to a set of indivisible projects, each having a certain cost, based on the preferences of agents over projects. The specific, important, research gap that we address in this paper is to propose classes of rules for indivisible PB with weak rankings (i.e., weak ordinal preferences) and investigate their key algorithmic and axiomatic issues. We propose two classes of rules having distinct significance and motivation. The first is layered approval rules which enable weak rankings to be studied by carefully translating them into approval votes. The second is need-based rules which enable to capture fairness issues. Under layered approval rules, we study two natural families of rules: greedy-truncation rules and cost-worthy rules. The paper has two parts. In the first part, we investigate algorithmic and complexity related issues for the proposed rules. In the second part, we present a detailed axiomatic analysis of these rules, for which, we examine and generalize axioms in the literature and also introduce a new axiom, pro-affordability. The paper helps to highlight the trade-offs among practical appeal, computational complexity, and axiomatic compliance of these rules.
翻訳日:2022-07-19 18:42:38 公開日:2022-07-16
# グループフェア社会選択規則の単一優先条件下でのキャラクタリゼーション

Characterization of Group-Fair Social Choice Rules under Single-Peaked Preferences ( http://arxiv.org/abs/2207.07984v1 )

ライセンス: Link先を確認
Gogulapati Sreedurga, Soumyarup Sadhukhan, Souvik Roy, Yadati Narahari(参考訳) 社会的選択設定における公平さを、単一話者の嗜好の下で研究する。 単一話者領域における社会的選択規則の構築と特徴付けは、これまで広く研究されてきた。 実際、単一話者領域では、一様かつ戦略に反する決定論的ルールはmin-maxルールであり、匿名性も満たすルールは中央値ルールである必要があることが知られている。 さらに、これらの性質を満たすランダムな社会的選択規則は、各決定論的規則の凸結合であることが示されている。 社会的選択に公平性を考慮することで、この結果に自明に加えます。 本研究は, エージェント集団の公正性に直接対処する。 グループフェアネスを研究するために,性別,人種,場所といった自然属性に基づいて,既存のエージェントを論理グループに分割することを検討する。 各グループ内の公平さを捉えるために,グループ毎の匿名性の概念を導入する。 集団全体の公平さを捉えるため、公平性という強い概念とともに弱い概念を提案する。 提案された公正の概念は、既存の個性概念の自然な一般化であり、また既存の群性概念とは異なり、厳密な順序性選好に対して非自明な結果を与える。 グループフェアネスを満足するランダムな社会的選択規則の2つの異なる特徴を提供する。 (i)直接的特徴付け (二)極点特徴付け(公正決定論的社会的選択規則の凸結合として) また,グループのない特別な場合についても検討し,個性を達成するルールのより鋭い特徴付けを提供する。

We study fairness in social choice settings under single-peaked preferences. Construction and characterization of social choice rules in the single-peaked domain has been extensively studied in prior works. In fact, in the single-peaked domain, it is known that unanimous and strategy-proof deterministic rules have to be min-max rules and those that also satisfy anonymity have to be median rules. Further, random social choice rules satisfying these properties have been shown to be convex combinations of respective deterministic rules. We non-trivially add to this body of results by including fairness considerations in social choice. Our study directly addresses fairness for groups of agents. To study group-fairness, we consider an existing partition of the agents into logical groups, based on natural attributes such as gender, race, and location. To capture fairness within each group, we introduce the notion of group-wise anonymity. To capture fairness across the groups, we propose a weak notion as well as a strong notion of fairness. The proposed fairness notions turn out to be natural generalizations of existing individual-fairness notions and moreover provide non-trivial outcomes for strict ordinal preferences, unlike the existing group-fairness notions. We provide two separate characterizations of random social choice rules that satisfy group-fairness: (i) direct characterization (ii) extreme point characterization (as convex combinations of fair deterministic social choice rules). We also explore the special case where there are no groups and provide sharper characterizations of rules that achieve individual-fairness.
翻訳日:2022-07-19 18:42:18 公開日:2022-07-16
# CHARM:モーションセンサを用いた複雑な人間の活動の分類のための階層的深層学習モデル

CHARM: A Hierarchical Deep Learning Model for Classification of Complex Human Activities Using Motion Sensors ( http://arxiv.org/abs/2207.07806v1 )

ライセンス: Link先を確認
Eric Rosen and Doruk Senkal(参考訳) 本稿では,モーションセンサを用いた複雑な人間の活動の分類のための階層的深層学習モデルについて報告する。 ステップカウント,転倒検出,ジェスチャー識別などのイベントベース行動認識に使用される従来のHARモデルとは対照的に,CHARM(Complex Human Activity Recognition Model)と呼ばれるこの新たな深層学習モデルは,食事準備,家事,日常生活などの非決定論的シーケンスにおいて,複数の異なる低レベル活動からなる高レベル人間活動の認識を目的としている。 CHARMは、平均精度とF1スコアの観点から、最先端のアクティビティ認識のための最先端の教師付き学習アプローチを定量的に上回るだけでなく、操作ジェスチャーや移動モードなどの低レベルのアクティビティを、そのようなアクティビティの明確なラベルなしで自動的に認識する。 これにより、ホームオートメーション(例えば、ロボット掃除機、照明、サーモスタット)の制御や、コンテキストに関連のある情報を適切なタイミング(例えば、リマインダー、ステータス更新、天気/ニュースレポート)で提示するといった、自動化タスクと高レベルなアクティビティを関連付けることができる。 さらに、ハイレベルなアクティビティラベルのみを用いてトレーニングされた場合、低レベルのユーザアクティビティを学習する能力は、ラベル付けが本質的に困難であるHARタスクの半教師付き学習の道を開く可能性がある。

In this paper, we report a hierarchical deep learning model for classification of complex human activities using motion sensors. In contrast to traditional Human Activity Recognition (HAR) models used for event-based activity recognition, such as step counting, fall detection, and gesture identification, this new deep learning model, which we refer to as CHARM (Complex Human Activity Recognition Model), is aimed for recognition of high-level human activities that are composed of multiple different low-level activities in a non-deterministic sequence, such as meal preparation, house chores, and daily routines. CHARM not only quantitatively outperforms state-of-the-art supervised learning approaches for high-level activity recognition in terms of average accuracy and F1 scores, but also automatically learns to recognize low-level activities, such as manipulation gestures and locomotion modes, without any explicit labels for such activities. This opens new avenues for Human-Machine Interaction (HMI) modalities using wearable sensors, where the user can choose to associate an automated task with a high-level activity, such as controlling home automation (e.g., robotic vacuum cleaners, lights, and thermostats) or presenting contextually relevant information at the right time (e.g., reminders, status updates, and weather/news reports). In addition, the ability to learn low-level user activities when trained using only high-level activity labels may pave the way to semi-supervised learning of HAR tasks that are inherently difficult to label.
翻訳日:2022-07-19 18:37:21 公開日:2022-07-16
# エッジインテリジェンスのための協調的DNN推論に関する調査

A Survey on Collaborative DNN Inference for Edge Intelligence ( http://arxiv.org/abs/2207.07812v1 )

ライセンス: Link先を確認
Weiqing Ren, Yuben Qu, Chao Dong, Yuqian Jing, Hao Sun, Qihui Wu, Song Guo(参考訳) 人工知能(AI)の活発な発展により、ディープニューラルネットワーク(DNN)に基づくインテリジェントなアプリケーションが人々のライフスタイルと生産効率を変化させる。 しかし、ネットワークエッジから生成される膨大な計算量とデータがボトルネックとなり、従来のクラウドベースのコンピューティングモードはリアルタイム処理タスクの要求を満たすことができなかった。 上記の問題を解決するため、AIモデルのトレーニングと推論機能をネットワークエッジに組み込むことで、エッジインテリジェンス(EI)はAI分野における最先端の方向となる。 さらに、クラウド、エッジ、エンドデバイス間の協調的なDNN推論は、EIを強化する有望な方法を提供する。 しかしながら、現在、EI指向の協調的DNN推論はまだ初期段階にあり、既存の研究活動の体系的な分類と議論が欠けている。 そこで本研究では,EI指向協調DNN推論に関する最近の研究を包括的に調査した。 本稿ではまず,EIの背景と動機について概観する。 次に,4つの典型的な協調的dnn推論パラダイムを分類し,それらの特徴と鍵技術を分析する。 最後に,協調的dnn推論の現在の課題を要約し,今後の開発動向を議論し,今後の研究方向性について述べる。

With the vigorous development of artificial intelligence (AI), the intelligent applications based on deep neural network (DNN) change people's lifestyles and the production efficiency. However, the huge amount of computation and data generated from the network edge becomes the major bottleneck, and traditional cloud-based computing mode has been unable to meet the requirements of real-time processing tasks. To solve the above problems, by embedding AI model training and inference capabilities into the network edge, edge intelligence (EI) becomes a cutting-edge direction in the field of AI. Furthermore, collaborative DNN inference among the cloud, edge, and end device provides a promising way to boost the EI. Nevertheless, at present, EI oriented collaborative DNN inference is still in its early stage, lacking a systematic classification and discussion of existing research efforts. Thus motivated, we have made a comprehensive investigation on the recent studies about EI oriented collaborative DNN inference. In this paper, we firstly review the background and motivation of EI. Then, we classify four typical collaborative DNN inference paradigms for EI, and analyze the characteristics and key technologies of them. Finally, we summarize the current challenges of collaborative DNN inference, discuss the future development trend and provide the future research direction.
翻訳日:2022-07-19 18:36:50 公開日:2022-07-16
# MixTailor: 不正な攻撃に対するロバスト学習のための混合グラディエントアグリゲーション

MixTailor: Mixed Gradient Aggregation for Robust Learning Against Tailored Attacks ( http://arxiv.org/abs/2207.07941v1 )

ライセンス: Link先を確認
Ali Ramezani-Kebrya and Iman Tabrizian and Fartash Faghri and Petar Popovski(参考訳) 分散gpuおよびマルチgpuシステムにおけるsgdの実装は、新たな脆弱性を生み出し、1つ以上の敵エージェントによって識別され、誤用される。 近年、よく知られたビザンチン耐性勾配凝集スキームは、攻撃を調整できるインフォームドアタッカーに対して脆弱であることが示されている(fang et al., 2020; xie et al., 2020b)。 我々は,アタッカーが完全に情報を得ることができないようなアグリゲーション戦略のランダム化に基づくスキームであるMixTailorを紹介する。 決定論的スキームは、追加のハイパーパラメータを導入することなく、オンザフライでMixTailorに統合することができる。 ランダム化は攻撃を調整するための強力な敵の能力を低下させるが、結果として生じるランダム化集約スキームは性能面ではまだ競争力がある。 iid設定と非id設定の両方において、文献で利用できるものよりも強く、より一般的な収束保証をほぼ確実に確立する。 さまざまなデータセット、攻撃、設定にまたがる実証研究は、我々の仮説を検証し、よく知られたビザンチン耐性のスキームが失敗した場合にMixTailorがうまく防御できることを示した。

Implementations of SGD on distributed and multi-GPU systems creates new vulnerabilities, which can be identified and misused by one or more adversarial agents. Recently, it has been shown that well-known Byzantine-resilient gradient aggregation schemes are indeed vulnerable to informed attackers that can tailor the attacks (Fang et al., 2020; Xie et al., 2020b). We introduce MixTailor, a scheme based on randomization of the aggregation strategies that makes it impossible for the attacker to be fully informed. Deterministic schemes can be integrated into MixTailor on the fly without introducing any additional hyperparameters. Randomization decreases the capability of a powerful adversary to tailor its attacks, while the resulting randomized aggregation scheme is still competitive in terms of performance. For both iid and non-iid settings, we establish almost sure convergence guarantees that are both stronger and more general than those available in the literature. Our empirical studies across various datasets, attacks, and settings, validate our hypothesis and show that MixTailor successfully defends when well-known Byzantine-tolerant schemes fail.
翻訳日:2022-07-19 18:36:31 公開日:2022-07-16
# Greedy k-means++の近距離解析

A Nearly Tight Analysis of Greedy k-means++ ( http://arxiv.org/abs/2207.07949v1 )

ライセンス: Link先を確認
Christoph Grunau, Ahmet Alper \"Oz\"udo\u{g}ru, V\'aclav Rozho\v{n}, Jakub T\v{e}tek(参考訳) ArthurとVassilvitskiiの有名な$k$-means++アルゴリズム(SODA 2007)は、実際に$k$-meansの問題を解決する最も一般的な方法である。 アルゴリズムは非常に単純で、最初の中心をランダムに一様にサンプリングし、次に示す$k-1$センターのそれぞれが、常に最も近い中心への2乗距離に比例してサンプリングされる。 その後、ロイドの反復アルゴリズムが実行される。 k$-means++アルゴリズムは期待値の$\Theta(\log k)$近似解を返すことが知られている。 Arthur and Vassilvitskii [SODA 2007] は、以下の変種に対する保証について尋ねた: すべてのステップにおいて、我々は1つではなく$$$ell$の候補センターをサンプリングし、新しいコストを最小限に抑えるものを選ぶ。 これはまた、人気のscikit-learnライブラリ(pedregosa et al.; jmlr 2011)で$k$-means++を実装する方法でもある。 我々は、大げさな $k$-means++ に対して、ほぼ一致する下界と上界を示し、それが $o(\ell^3 \log^3 k)$-approximation アルゴリズムであることを証明する。 一方、下界の$\Omega(\ell^3 \log^3 k / \log^2(\ell\log k))$を証明する。 以前は$\Omega(\ell \log k)$下限のみが知られている(Bhattacharya, Eube, R\"oglin, Schmidt; ESA 2020)。

The famous $k$-means++ algorithm of Arthur and Vassilvitskii [SODA 2007] is the most popular way of solving the $k$-means problem in practice. The algorithm is very simple: it samples the first center uniformly at random and each of the following $k-1$ centers is then always sampled proportional to its squared distance to the closest center so far. Afterward, Lloyd's iterative algorithm is run. The $k$-means++ algorithm is known to return a $\Theta(\log k)$ approximate solution in expectation. In their seminal work, Arthur and Vassilvitskii [SODA 2007] asked about the guarantees for its following \emph{greedy} variant: in every step, we sample $\ell$ candidate centers instead of one and then pick the one that minimizes the new cost. This is also how $k$-means++ is implemented in e.g. the popular Scikit-learn library [Pedregosa et al.; JMLR 2011]. We present nearly matching lower and upper bounds for the greedy $k$-means++: We prove that it is an $O(\ell^3 \log^3 k)$-approximation algorithm. On the other hand, we prove a lower bound of $\Omega(\ell^3 \log^3 k / \log^2(\ell\log k))$. Previously, only an $\Omega(\ell \log k)$ lower bound was known [Bhattacharya, Eube, R\"oglin, Schmidt; ESA 2020] and there was no known upper bound.
翻訳日:2022-07-19 18:36:08 公開日:2022-07-16
# ランダムな平滑化を用いた認証ニューラルネットワーク透かし

Certified Neural Network Watermarks with Randomized Smoothing ( http://arxiv.org/abs/2207.07972v1 )

ライセンス: Link先を確認
Arpit Bansal, Ping-yeh Chiang, Michael Curry, Rajiv Jain, Curtis Wigington, Varun Manjunatha, John P Dickerson, Tom Goldstein(参考訳) ウォーターマーキング(watermarking)は、デジタル画像、ビデオ、オーディオに対するクリエイターの権利を保護するために一般的に用いられる戦略である。 近年、透かし法は深層学習モデルに拡張されており、原則として、敵がそのモデルを模倣しようとするときに透かしを保存すべきである。 しかし実際には、ウォーターマークはしばしば知的敵によって取り除かれる。 いくつかの論文は、異なる種類の除去攻撃に対して経験的に耐性があると主張する透かし法を提案しているが、これらの新しい手法は、しばしば、新しく、あるいはよりよく調整された敵に直面して失敗する。 本稿では,認証可能な透かし方式を提案する。 Chiangらによって提案されたランダムな平滑化手法を用いて、モデルパラメータが特定のl2しきい値以上変更されない限り、我々の透かしは取り外せないことが保証されている。 また,従来の透かし法に比べて,透かしは経験的に頑健であることがわかった。 私たちの実験はhttps://github.com/arpitbansal297/Certified_Watermarksで再現できます。

Watermarking is a commonly used strategy to protect creators' rights to digital images, videos and audio. Recently, watermarking methods have been extended to deep learning models -- in principle, the watermark should be preserved when an adversary tries to copy the model. However, in practice, watermarks can often be removed by an intelligent adversary. Several papers have proposed watermarking methods that claim to be empirically resistant to different types of removal attacks, but these new techniques often fail in the face of new or better-tuned adversaries. In this paper, we propose a certifiable watermarking method. Using the randomized smoothing technique proposed in Chiang et al., we show that our watermark is guaranteed to be unremovable unless the model parameters are changed by more than a certain l2 threshold. In addition to being certifiable, our watermark is also empirically more robust compared to previous watermarking methods. Our experiments can be reproduced with code at https://github.com/arpitbansal297/Certified_Watermarks
翻訳日:2022-07-19 18:35:39 公開日:2022-07-16
# s4: 高性能で高性能なaiアクセラレータ

S4: a High-sparsity, High-performance AI Accelerator ( http://arxiv.org/abs/2207.08006v1 )

ライセンス: Link先を確認
Ian En-Hsu Yen, Zhibin Xiao, Dongkuan Xu(参考訳) ニューラルネットワークを基盤とするスパーシリティの爆発は、推論中のメモリフットプリント、I/Oコスト、計算ワークロードを削減する最も潜在的な方法論の1つになった。 そして、事前訓練された巨大モデルの傾向とともに、より大きなモデルサイズが考慮されるにつれて、利用可能なスパーシリティの度合いも高まっている。 一方、広く支持されている量子化とは対照的に、ほとんどのコンピューティングプラットフォームでは、高次空間での加速度はサポートされない。 本研究では,S4の32倍の高次空間加速をサポートする最初の商用ハードウェアプラットフォームを紹介する。 最先端のスパースプルーニング技術と組み合わせることで、nvidia t4のような主流の推論プラットフォームよりも、s4の実用的推論スピードアップを複数回実証する。 また,サイズが小さいモデルよりも,サイズが小さいモデルの方が,s4の精度とスループットを両立できることを示した。

Exploiting sparsity underlying neural networks has become one of the most potential methodologies to reduce the memory footprint, I/O cost, and computation workloads during inference. And the degree of sparsity one can exploit has become higher as larger model sizes have been considered along with the trend of pre-training giant models. On the other hand, compared with quantization that has been a widely supported option, acceleration through high-degree sparsity is not supported in most computing platforms. In this work, we introduce the first commercial hardware platform supporting high-degree sparsity acceleration up to 32 times -- S4. Combined with state-of-the-art sparse pruning techniques, we demonstrate several-times practical inference speedup on S4 over mainstream inference platforms such as Nvidia T4. We also show that in practice a sparse model of larger size can achieve both higher accuracy and higher throughput on S4 than a dense model of smaller size.
翻訳日:2022-07-19 18:35:22 公開日:2022-07-16
# Dual Knowledge-enhanced Generative Pretrained Language Model を用いたマルチモーダル対話システム

Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model ( http://arxiv.org/abs/2207.07934v1 )

ライセンス: Link先を確認
Xiaolin Chen, Xuemeng Song, Liqiang Jing, Shuo Li, Linmei Hu, and Liqiang Nie(参考訳) マルチモーダル・タスク指向対話システムにおけるテキスト応答生成は,マルチモーダル・コンテキストによって適切なテキスト応答を生成することを目的としている。 既存の取り組みは説得力のある成功を収めたが、それでも2つの重要な制限に苦しめられている。 1) 生成前訓練の利点を見落として, 2)テキスト文脈関連知識を無視する。 これらの制約に対処するために,我々は,二重知識選択,二重知識強化コンテキスト学習,知識強化応答生成という3つの重要な構成要素からなるマルチモーダルタスク指向対話システム (dkmd) のための,新しい二重知識強化前訓練言語モデルを提案する。 具体的には、2つの知識選択コンポーネントは、与えられたコンテキストのテクスチャと視覚の両方に応じて関連する知識を選択することを目的としている。 その後、二元的知識強化コンテキスト学習コンポーネントは、選択した知識をグローバルとローカルの両方の観点からマルチモーダルな文脈学習にシームレスに統合する。 さらに、知識エンハンス応答生成コンポーネントは、テキスト応答生成を前進させるために知識を明示的に利用するために、追加のドット製品ナレッジデコーダアテンションサブ層が導入される改訂されたバートデコーダを含む。 パブリックデータセットの大規模な実験により、提案されたDKMDが最先端の競合相手よりも優れていることを検証する。

Text response generation for multimodal task-oriented dialog systems, which aims to generate the proper text response given the multimodal context, is an essential yet challenging task. Although existing efforts have achieved compelling success, they still suffer from two pivotal limitations: 1) overlook the benefit of generative pre-training, and 2) ignore the textual context related knowledge. To address these limitations, we propose a novel dual knowledge-enhanced generative pretrained language model for multimodal task-oriented dialog systems (DKMD), consisting of three key components: dual knowledge selection, dual knowledge-enhanced context learning, and knowledge-enhanced response generation. To be specific, the dual knowledge selection component aims to select the related knowledge according to both textual and visual modalities of the given context. Thereafter, the dual knowledge-enhanced context learning component targets seamlessly integrating the selected knowledge into the multimodal context learning from both global and local perspectives, where the cross-modal semantic relation is also explored. Moreover, the knowledge-enhanced response generation component comprises a revised BART decoder, where an additional dot-product knowledge-decoder attention sub-layer is introduced for explicitly utilizing the knowledge to advance the text response generation. Extensive experiments on a public dataset verify the superiority of the proposed DKMD over state-of-the-art competitors.
翻訳日:2022-07-19 18:18:53 公開日:2022-07-16
# 低光画像強調のための構造優先生成逆変換器

Structural Prior Guided Generative Adversarial Transformers for Low-Light Image Enhancement ( http://arxiv.org/abs/2207.07828v1 )

ライセンス: Link先を確認
Cong Wang and Jinshan Pan and Xiao-Ming Wu(参考訳) 低照度画像強調を実現するために,SPGAT (Structure Prior Guided Generative Adversarial Transformer) を提案する。 SPGATは主に2つの判別器と構造的事前推定器(SPE)を備えるジェネレータを含む。 ジェネレータはu字型のトランスをベースとし、非局所的な情報を探索してより鮮明な画像復元を行う。 SPEは画像から有用な構造を探索し、より詳細な構造推定のためにジェネレータを誘導する。 より現実的な画像を生成するため,我々は,ジェネレータと識別器のスキップ接続を構築し,実特徴と偽特徴を識別しやすくすることで,新しい構造的事前学習手法を開発した。 最後に,高品質画像復元のために,異なる階層的特徴を集約する並列windowsベースのスウィントランスブロックを提案する。 実験結果から,SPGATは合成データセットと実世界のデータセットの両方において,最近の最先端手法に対して好適に動作することが示された。

We propose an effective Structural Prior guided Generative Adversarial Transformer (SPGAT) to solve low-light image enhancement. Our SPGAT mainly contains a generator with two discriminators and a structural prior estimator (SPE). The generator is based on a U-shaped Transformer which is used to explore non-local information for better clear image restoration. The SPE is used to explore useful structures from images to guide the generator for better structural detail estimation. To generate more realistic images, we develop a new structural prior guided adversarial learning method by building the skip connections between the generator and discriminators so that the discriminators can better discriminate between real and fake features. Finally, we propose a parallel windows-based Swin Transformer block to aggregate different level hierarchical features for high-quality image restoration. Experimental results demonstrate that the proposed SPGAT performs favorably against recent state-of-the-art methods on both synthetic and real-world datasets.
翻訳日:2022-07-19 18:16:34 公開日:2022-07-16
# TransGrasp: 1つのラベル付きインスタンスからのグラフ転送によるオブジェクトのカテゴリのグラフポス推定

TransGrasp: Grasp Pose Estimation of a Category of Objects by Transferring Grasps from Only One Labeled Instance ( http://arxiv.org/abs/2207.07861v1 )

ライセンス: Link先を確認
Hongtao Wen, Jianhang Yan, Wanli Peng, Yi Sun(参考訳) 把持姿勢推定は、ロボットが現実世界と対話する上で重要な課題である。 しかし、既存のメソッドのほとんどは、事前に利用可能な正確な3dオブジェクトモデルや、トレーニングのための大量のgrabアノテーションを必要とする。 これらの問題を回避するために,1つのオブジェクトインスタンスのみをラベル付けすることにより,対象のカテゴリの把持ポーズを予測するカテゴリレベルの把持ポーズ推定手法であるtransgraspを提案する。 具体的には,その形状対応に基づいて対象のカテゴリをまたいだ把持姿勢伝達を行い,把持者の把持姿勢をさらに微調整する把持姿勢改善モジュールを提案する。 実験は, 移動把持ポーズを用いた高品質把持を実現するための手法の有効性を示す。 私たちのコードはhttps://github.com/yanjh97/transgraspで利用可能です。

Grasp pose estimation is an important issue for robots to interact with the real world. However, most of existing methods require exact 3D object models available beforehand or a large amount of grasp annotations for training. To avoid these problems, we propose TransGrasp, a category-level grasp pose estimation method that predicts grasp poses of a category of objects by labeling only one object instance. Specifically, we perform grasp pose transfer across a category of objects based on their shape correspondences and propose a grasp pose refinement module to further fine-tune grasp pose of grippers so as to ensure successful grasps. Experiments demonstrate the effectiveness of our method on achieving high-quality grasps with the transferred grasp poses. Our code is available at https://github.com/yanjh97/TransGrasp.
翻訳日:2022-07-19 18:16:17 公開日:2022-07-16
# 特定物体検出のための自動データセット生成

Automatic dataset generation for specific object detection ( http://arxiv.org/abs/2207.07867v1 )

ライセンス: Link先を確認
Xiaotian Lin, Leiyang Xu, Qiang Wang(参考訳) 過去10年間で、オブジェクト検出タスクは主に大規模な公開データセットによって定義されている。 しかし、非効率な画像収集とラベル付けのため、オブジェクト検出データセットの構築はスケーラブルではない。 さらに、ほとんどのラベルは依然としてバウンディングボックスの形で、実際の人間の視覚システムよりもはるかに少ない情報を提供する。 本稿では,オブジェクトの詳細な特徴を無関係に保持できるオブジェクト・イン・シーン・イメージを合成する手法を提案する。 簡単に言うと、対象オブジェクトを含む一連のイメージを与えられたアルゴリズムは、まずモデルを訓練して、オブジェクトの近似中心をアンカーとして見つけ、その境界を推定するためにアウトライン回帰を行い、最終的にオブジェクトを新しいシーンにブレンドします。 その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。 実験により, sotaセグメンテーションモデルが合成データとうまく連携することを示した。

In the past decade, object detection tasks are defined mostly by large public datasets. However, building object detection datasets is not scalable due to inefficient image collecting and labeling. Furthermore, most labels are still in the form of bounding boxes, which provide much less information than the real human visual system. In this paper, we present a method to synthesize object-in-scene images, which can preserve the objects' detailed features without bringing irrelevant information. In brief, given a set of images containing a target object, our algorithm first trains a model to find an approximate center of the object as an anchor, then makes an outline regression to estimate its boundary, and finally blends the object into a new scene. Our result shows that in the synthesized image, the boundaries of objects blend very well with the background. Experiments also show that SOTA segmentation models work well with our synthesized data.
翻訳日:2022-07-19 18:16:01 公開日:2022-07-16
# 画像処理による肝癌検出の解析

Analysis of liver cancer detection based on image processing ( http://arxiv.org/abs/2207.08032v1 )

ライセンス: Link先を確認
Mahmoudreza Moghimhanjani, Ali Taghavirashidizadeh(参考訳) 医用画像は、内臓の合併症を検出するための最も重要なツールである。 近年, 画像処理技術の発展とともに, 画像のサイズをデジタル医療画像分野の高解像度画像に変換することにより, 画像分割の効率化と高精度化が図られている。 様々な理由から異質性、ノイズ、コントラストが欠如している実世界画像は不可欠である。 医学におけるデジタル画像分割は診断および治療分析に用いられており、医師にとって非常に有用である。 本研究の目的は, 肝腫瘍の病変や腫瘍をより正確に検出することであり, 腫瘍の正確な検出が患者の生存と生存に極めて重要であることから, MR画像研究に関わる有害な研究問題を単純化することである。 肝臓は、転移性疾患に最も関与する2番目の臓器であり、肝癌は世界でも有数の死因の一つである。 健康な肝臓がなければ、人は生き残れない。 生命を脅かす病気であり、医療と工学の両方の技術者にとって非常に困難である。 医用画像処理は腫瘍を検出する非侵襲的な方法として用いられる。 肝腫瘍の生存確率は腫瘍の早期発見と癌性および非癌性腫瘍の分類に大きく依存する。 脳の自動検出のための画像処理技術は、前処理、強調、画像分割、分類、体積計算、肝腫瘍検出のためのポリテクニック、および腫瘍診断に使用される異なる肝toM oR検出アルゴリズムおよび方法を含む。 肝腫瘍の検出と診断のための新しい方法

Medical imaging is the most important tool for detecting complications in the inner body of medicine. Nowadays, with the development of image processing technology as well as changing the size of photos to higher resolution images in the field of digital medical imaging, there is an efficient and accurate system for segmenting this. Real-world images that for a variety of reasons have poor heterogeneity, noise and contrast are essential. Digital image segmentation in medicine is used for diagnostic and therapeutic analysis, which is very helpful for physicians. In this study, we aim at liver cancer photographs, which aim to more accurately detect the lesion or tumor of the liver because accurate and timely detection of the tumor is very important in the survival and life of the patient.The aim of this paper is to simplify the obnoxious study problems related to the study of MR images. The liver is the second organ most generic involved by metastatic disease being liver cancer one of the prominent causes of death worldwide. Without healthy liver a person cannot survive. It is life threatening disease which is very challenging perceptible for both medical and engineering technologists. Medical image processing is used as a non-invasive method to detect tumours. The chances of survival having liver Tumor highly depends on early detection of Tumor and then classification as cancerous and noncancerous tumours. Image processing techniques for automatic detection of brain are includes pre-processing and enhancement, image segmentation, classification and volume calculation, Poly techniques have been developed for the detection of liver Tumor and different liver toM oR detection algorithms and methodologies utilized for Tumor diagnosis. Novel methodology for the detection and diagnosis of liver Tumor.
翻訳日:2022-07-19 18:15:45 公開日:2022-07-16
# モデル対応コントラスト学習 : トレーニングにおける一様性耐性ジレンマの回避に向けて

Model-Aware Contrastive Learning: Towards Escaping Uniformity-Tolerance Dilemma in Training ( http://arxiv.org/abs/2207.07874v1 )

ライセンス: Link先を確認
Zizheng Huang, Chao Zhang, Huaxiong Li, Bo Wang, Chunlin Chen(参考訳) 事例識別比較学習(CL)は伝達可能な表現の学習において大きな成功を収めた。 cl損失の温度$ \tau $に関連するハードネスアウェア特性は、ハードネガティブなサンプルに自動的に集中する上で不可欠な役割を担っている。 しかし、以前の研究では、CL損失に一様性耐性ジレンマ(UTD)が存在することが証明されており、予期せぬ性能劣化を引き起こす。 特に、より低い温度は分離可能な埋め込みを学ぶのに役立つが、意味的に関連したサンプルへの耐性が低く、結果として最適な埋め込み空間となりうる。 本稿では,UTD から逃れるための Model-Aware Contrastive Learning (MACL) 戦略を提案する。 未訓練の位相では、アンカーの高類似度領域が潜在正のサンプルを含んでいる可能性は低い。 したがって、これらの段階で小さな温度を採用すると、強陰性試料により大きなペナルティ強度を課し、CLモデルの識別を改善することができる。 対照的に、よく訓練された相におけるより大きな温度は、潜在的正のサンプルに対する耐性を高めるために意味構造を探索するのに役立つ。 実装中、MACLの温度はCLモデルの信頼性を反映したアライメント特性に適応するように設計されている。 さらに、コントラスト学習が統一的な勾配縮小の観点から多くの負のサンプルを必要とする理由を再検討する。 本研究では,MACLとこれらの分析に基づいて,学習した表現の改善とバッチサイズでのトレーニングを行うため,新たなCL損失を提案する。

Instance discrimination contrastive learning (CL) has achieved significant success in learning transferable representations. A hardness-aware property related to the temperature $ \tau $ of the CL loss is identified to play an essential role in automatically concentrating on hard negative samples. However, previous work also proves that there exists a uniformity-tolerance dilemma (UTD) in CL loss, which will lead to unexpected performance degradation. Specifically, a smaller temperature helps to learn separable embeddings but has less tolerance to semantically related samples, which may result in suboptimal embedding space, and vice versa. In this paper, we propose a Model-Aware Contrastive Learning (MACL) strategy to escape UTD. For the undertrained phases, there is less possibility that the high similarity region of the anchor contains latent positive samples. Thus, adopting a small temperature in these stages can impose larger penalty strength on hard negative samples to improve the discrimination of the CL model. In contrast, a larger temperature in the well-trained phases helps to explore semantic structures due to more tolerance to potential positive samples. During implementation, the temperature in MACL is designed to be adaptive to the alignment property that reflects the confidence of a CL model. Furthermore, we reexamine why contrastive learning requires a large number of negative samples in a unified gradient reduction perspective. Based on MACL and these analyses, a new CL loss is proposed in this work to improve the learned representations and training with small batch size.
翻訳日:2022-07-19 17:51:16 公開日:2022-07-16
# sizeshiftreg:グラフニューラルネットワークにおけるサイズ一般化を改善する正規化手法

SizeShiftReg: a Regularization Method for Improving Size-Generalization in Graph Neural Networks ( http://arxiv.org/abs/2207.07888v1 )

ライセンス: Link先を確認
Davide Buffelli, Pietro Li\`o, Fabio Vandin(参考訳) 過去数年間、グラフニューラルネットワーク(gnns)は、グラフ分類のデファクトモデルとなっている。 理論的な観点からは、ほとんどのGNNは任意の大きさのグラフで操作できるが、その分類性能はトレーニングデータと異なる大きさのグラフに適用されると劣化する。 従来の研究は、グラフの生成過程に関する仮定から導かれる帰納的バイアスのモデルを提供することや、テスト領域からのグラフへのアクセスを要求することで、グラフ分類におけるこの問題に対処しようと試みてきた。 第1の戦略は、アドホックモデルの使用と生成プロセスにおける仮定の質に結びついており、一般的なGNNモデルの性能を改善する方法についての疑問が残る。 一方、第2の戦略は任意のGNNに適用できるが、入手が必ずしも容易ではない情報にアクセスする必要がある。 本研究では,学習データのみにアクセス可能なシナリオを考察し,GNNに適用可能な正規化戦略を提案し,テストデータへのアクセスを必要とせずに,より小さなグラフから大規模なグラフへの一般化能力を向上する。 我々の正規化は、粗い手法を用いてトレーニンググラフのサイズの変化をシミュレートし、そのようなシフトに対して堅牢なモデルを強制するという考え方に基づいている。 標準データセットに対する実験結果から、一般的なGNNモデルは、データセットの50%最小グラフでトレーニングされ、10%最大のグラフでテストされ、正規化戦略でトレーニングされた場合、最大30%の性能改善が得られた。

In the past few years, graph neural networks (GNNs) have become the de facto model of choice for graph classification. While, from the theoretical viewpoint, most GNNs can operate on graphs of any size, it is empirically observed that their classification performance degrades when they are applied on graphs with sizes that differ from those in the training data. Previous works have tried to tackle this issue in graph classification by providing the model with inductive biases derived from assumptions on the generative process of the graphs, or by requiring access to graphs from the test domain. The first strategy is tied to the use of ad-hoc models and to the quality of the assumptions made on the generative process, leaving open the question of how to improve the performance of generic GNN models in general settings. On the other hand, the second strategy can be applied to any GNN, but requires access to information that is not always easy to obtain. In this work we consider the scenario in which we only have access to the training data, and we propose a regularization strategy that can be applied to any GNN to improve its generalization capabilities from smaller to larger graphs without requiring access to the test data. Our regularization is based on the idea of simulating a shift in the size of the training graphs using coarsening techniques, and enforcing the model to be robust to such a shift. Experimental results on standard datasets show that popular GNN models, trained on the 50% smallest graphs in the dataset and tested on the 10% largest graphs, obtain performance improvements of up to 30% when trained with our regularization strategy.
翻訳日:2022-07-19 17:50:51 公開日:2022-07-16
# 合成データ生成を用いた時系列分類のための転送学習

Transfer learning for time series classification using synthetic data generation ( http://arxiv.org/abs/2207.07897v1 )

ライセンス: Link先を確認
Yarden Rotem and Nathaniel Shimoni and Lior Rokach and Bracha Shapira(参考訳) 本稿では,時系列分類のための革新的な転送学習を提案する。 UCRアーカイブの既存のデータセットをソースデータセットとして使用する代わりに、15,000,000の合成単変量時系列データセットを生成しました。 さらに、以前の研究と同様にUCCアーカイブが提供する分類タスクをソースタスクとして使用する代わりに、独自の55の回帰タスクをソースタスクとして使用し、UCCアーカイブから分類タスクを選択するよりも優れた結果を得た。

In this paper, we propose an innovative Transfer learning for Time series classification method. Instead of using an existing dataset from the UCR archive as the source dataset, we generated a 15,000,000 synthetic univariate time series dataset that was created using our unique synthetic time series generator algorithm which can generate data with diverse patterns and angles and different sequence lengths. Furthermore, instead of using classification tasks provided by the UCR archive as the source task as previous studies did,we used our own 55 regression tasks as the source tasks, which produced better results than selecting classification tasks from the UCR archive
翻訳日:2022-07-19 17:50:25 公開日:2022-07-16
# 自律的に長いケーブルを

Autonomously Untangling Long Cables ( http://arxiv.org/abs/2207.07813v1 )

ライセンス: Link先を確認
Vainavi Viswanath, Kaushik Shivakumar, Justin Kerr, Brijen Thananjeyan, Ellen Novoseller, Jeffrey Ichnowski, Alejandro Escontrela, Michael Laskey, Joseph E. Gonzalez, Ken Goldberg(参考訳) ケーブルは多くの場面でユビキタスだが、自己占有や結び目になりやすいため、知覚や操作が困難である。 長いケーブルは、可観測性と到達性を促進するためにより複雑なスラック管理と戦略を必要とする。 本稿では,双方向ロボットを用いて,最大3メートルまでのケーブルを自律的にアンタングすることに着目した。 我々は,この作業に特化した長尺ケーブルと新しいグリップ顎を効率よくアンタングルする新しい動作プリミティブを開発した。 SGTM(Sliding and Grasping for Tangle Manipulation)は,RGBDビジョンでこれらのプリミティブを構成するアルゴリズムである。 sgtmは、孤立したオーバーハンドで67%の成功率でケーブルをアンタングルし、より複雑な構成で8ノット、50%を図示する。 追加資料、視覚化、ビデオはhttps://sites.google.com/view/rss-2022-untangling/home.comで見ることができる。

Cables are ubiquitous in many settings, but are prone to self-occlusions and knots, making them difficult to perceive and manipulate. The challenge often increases with cable length: long cables require more complex slack management and strategies to facilitate observability and reachability. In this paper, we focus on autonomously untangling cables up to 3 meters in length using a bilateral robot. We develop new motion primitives to efficiently untangle long cables and novel gripper jaws specialized for this task. We present Sliding and Grasping for Tangle Manipulation (SGTM), an algorithm that composes these primitives with RGBD vision to iteratively untangle. SGTM untangles cables with success rates of 67% on isolated overhand and figure eight knots and 50% on more complex configurations. Supplementary material, visualizations, and videos can be found at https://sites.google.com/view/rss-2022-untangling/home.
翻訳日:2022-07-19 17:47:39 公開日:2022-07-16
# 敵ゲームにおける意思決定に関する調査研究

A Survey of Decision Making in Adversarial Games ( http://arxiv.org/abs/2207.07971v1 )

ライセンス: Link先を確認
Xiuxian Li, Min Meng, Yiguang Hong, and Jie Chen(参考訳) ゲーム理論は、経済学、産業、法学、人工知能など様々な分野に応用され、各プレイヤーは非協力的または協調的な方法でのみ関心を持つが、他のプレイヤーに明らかな悪意は持たない。 しかし、ポーカー、チェス、エバダー追跡、麻薬の調停、沿岸警備、サイバーセキュリティ、国家防衛といった多くの実践的応用において、プレイヤーは他のプレイヤーに対して必然的に、または故意に損失を被ったり、不穏な野蛮な態度をとることが多い。 そこで本研究では,ゲームモデルの基本知識,(約)平衡概念,問題分類,研究フロンティア,(約)最適戦略探索手法,アルゴリズム,実用的応用など,様々な視点から,敵ゲーム,すなわちゼロサム正規形および拡張フォームゲーム,stackelberg(セキュリティ)ゲーム,ゼロサムディファレンシャルゲーム,ゼロサムディファレンシャルゲームに広く採用されている3つの主要なゲームモデルに関する体系的調査を行う。 最後に、関連する対戦ゲームについて、将来的な研究方向性についても論じる。

Game theory has by now found numerous applications in various fields, including economics, industry, jurisprudence, and artificial intelligence, where each player only cares about its own interest in a noncooperative or cooperative manner, but without obvious malice to other players. However, in many practical applications, such as poker, chess, evader pursuing, drug interdiction, coast guard, cyber-security, and national defense, players often have apparently adversarial stances, that is, selfish actions of each player inevitably or intentionally inflict loss or wreak havoc on other players. Along this line, this paper provides a systematic survey on three main game models widely employed in adversarial games, i.e., zero-sum normal-form and extensive-form games, Stackelberg (security) games, zero-sum differential games, from an array of perspectives, including basic knowledge of game models, (approximate) equilibrium concepts, problem classifications, research frontiers, (approximate) optimal strategy seeking techniques, prevailing algorithms, and practical applications. Finally, promising future research directions are also discussed for relevant adversarial games.
翻訳日:2022-07-19 17:47:21 公開日:2022-07-16
# アクセシビリティデータセットにおけるデータ代表性:メタ分析

Data Representativeness in Accessibility Datasets: A Meta-Analysis ( http://arxiv.org/abs/2207.08037v1 )

ライセンス: Link先を確認
Rie Kamikubo, Lining Wang, Crystal Marte, Amnah Mahmood, Hernisa Kacorri(参考訳) データ駆動システムが大規模に展開されるにつれて、トレーニングデータに不足している歴史的に疎外されたグループに対する不公平で差別的な結果に関する倫理的な懸念が生まれている。 本稿では、アクセシビリティーデータセット(障害のある人や高齢者から得られたデータセット)における年齢、性別、人種および民族の代表性について分析し、aiを融合したアプリケーションのバイアスを軽減する上で重要な役割を果たす可能性について述べる。 190のデータセットの公開可能な情報をレビューすることで,障害者が発信するデータセット内の表現の現状を調べ,これらのアクセシビリティデータセットと呼ぶ。 アクセシビリティデータセットは様々な年齢を表すが、性別と人種の差がある。 さらに、人口統計学変数のセンシティブで複雑な性質が、分類を困難かつ一貫性のない(例えば、性別、人種、民族)ものにし、ラベル付けの源泉がしばしば不明である。 障害のあるデータコントリビューターの現時点の課題と機会を反映して、当社の取り組みが、aiに干渉されたシステムにおけるマージン化されたコミュニティを包含する可能性を広げることを願っています。

As data-driven systems are increasingly deployed at scale, ethical concerns have arisen around unfair and discriminatory outcomes for historically marginalized groups that are underrepresented in training data. In response, work around AI fairness and inclusion has called for datasets that are representative of various demographic groups.In this paper, we contribute an analysis of the representativeness of age, gender, and race & ethnicity in accessibility datasets - datasets sourced from people with disabilities and older adults - that can potentially play an important role in mitigating bias for inclusive AI-infused applications. We examine the current state of representation within datasets sourced by people with disabilities by reviewing publicly-available information of 190 datasets, we call these accessibility datasets. We find that accessibility datasets represent diverse ages, but have gender and race representation gaps. Additionally, we investigate how the sensitive and complex nature of demographic variables makes classification difficult and inconsistent (e.g., gender, race & ethnicity), with the source of labeling often unknown. By reflecting on the current challenges and opportunities for representation of disabled data contributors, we hope our effort expands the space of possibility for greater inclusion of marginalized communities in AI-infused systems.
翻訳日:2022-07-19 17:46:58 公開日:2022-07-16
# CLOSE: より優れたワンショットNASに向けた共有活動に関するカリキュラム学習

CLOSE: Curriculum Learning On the Sharing Extent Towards Better One-shot NAS ( http://arxiv.org/abs/2207.07868v1 )

ライセンス: Link先を確認
Zixuan Zhou and Xuefei Ning and Yi Cai and Jiashu Han and Yiping Deng and Yuhan Dong and Huazhong Yang and Yu Wang(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、その効率性からアーキテクチャを発見するために広く利用されている。 しかし、以前の研究では、アーキテクチャ間の操作パラメータ(すなわち大きな共有範囲)の過度な共有のため、アーキテクチャのワンショットパフォーマンス推定とスタンドアロントレーニングのパフォーマンスとの相関が不十分であることが分かった。 このように、最近の手法は共有範囲を減らすために、さらに過パラメータ化されたスーパーネットを構築している。 しかし、これらの改良された手法は、多くの追加パラメータを導入し、トレーニングコストとランキング品質の間の望ましくないトレードオフを引き起こす。 上記の問題を緩和するために,スーパーネットを効果的かつ効果的にトレーニングするためにCLOSE(Curriculum Learning On Sharing Extent)を適用することを提案する。 具体的には、まず、スーパーネットの共有範囲を広く(簡単なカリキュラム)訓練し、スーパーネットの共有範囲を徐々に減少させる(より難しいカリキュラム)。 このトレーニング戦略を支援するために,パラメータを操作から切り離してフレキシブルな共有方式と調整可能な共有範囲を実現する新しいスーパーネット(CLOSENet)を設計する。 大規模な実験により、CLOSEは他のワンショットのスーパーネットよりも計算予算の制約によって優れたランク付け品質が得られることが示され、様々な検索戦略と組み合わせることで優れたアーキテクチャを発見することができる。 コードはhttps://github.com/walkerning/aw_nasで入手できる。

One-shot Neural Architecture Search (NAS) has been widely used to discover architectures due to its efficiency. However, previous studies reveal that one-shot performance estimations of architectures might not be well correlated with their performances in stand-alone training because of the excessive sharing of operation parameters (i.e., large sharing extent) between architectures. Thus, recent methods construct even more over-parameterized supernets to reduce the sharing extent. But these improved methods introduce a large number of extra parameters and thus cause an undesirable trade-off between the training costs and the ranking quality. To alleviate the above issues, we propose to apply Curriculum Learning On Sharing Extent (CLOSE) to train the supernet both efficiently and effectively. Specifically, we train the supernet with a large sharing extent (an easier curriculum) at the beginning and gradually decrease the sharing extent of the supernet (a harder curriculum). To support this training strategy, we design a novel supernet (CLOSENet) that decouples the parameters from operations to realize a flexible sharing scheme and adjustable sharing extent. Extensive experiments demonstrate that CLOSE can obtain a better ranking quality across different computational budget constraints than other one-shot supernets, and is able to discover superior architectures when combined with various search strategies. Code is available at https://github.com/walkerning/aw_nas.
翻訳日:2022-07-19 16:45:59 公開日:2022-07-16
# CA-SpaceNet:空間における6次元空間推定のための実測解析

CA-SpaceNet: Counterfactual Analysis for 6D Pose Estimation in Space ( http://arxiv.org/abs/2207.07869v1 )

ライセンス: Link先を確認
Shunli Wang, Shuaibing Wang, Bo Jiao, Dingkang Yang, Liuzhen Su, Peng Zhai, Chixiao Chen, Lihua Zhang(参考訳) 不安定な宇宙物体の信頼性と安定な6次元ポーズ推定は、軌道上のサービシングとデブリ除去ミッションにおいて重要な役割を果たす。 ポーズ推定器は背景干渉に敏感であると考え,複雑な背景下でのロバストな6次元姿勢推定を行うために,caspacenet という反事実分析フレームワークを提案する。 具体的には,画像全体の特徴を実例で抽出するために,従来手法を採用する。 反事実の場合、被写体以外の背景のみの非存在像を想像する。 背景干渉による副作用は反ファクト解析によって減少し、最終結果の偏りのない予測につながる。 さらに、我々はCA-SpaceNetの低ビット幅量子化を行い、FPGA上のProcessing-In-Memory(PIM)アクセラレータにフレームワークの一部をデプロイする。 質的・定量的な結果から,提案手法の有効性と有効性を示す。 そこで本研究では,宇宙空間を対象とする物体の6次元ポーズ推定に因果推論とネットワーク量子化を適用した。 コードはhttps://github.com/Shunli-Wang/CA-SpaceNetで公開されている。

Reliable and stable 6D pose estimation of uncooperative space objects plays an essential role in on-orbit servicing and debris removal missions. Considering that the pose estimator is sensitive to background interference, this paper proposes a counterfactual analysis framework named CASpaceNet to complete robust 6D pose estimation of the spaceborne targets under complicated background. Specifically, conventional methods are adopted to extract the features of the whole image in the factual case. In the counterfactual case, a non-existent image without the target but only the background is imagined. Side effect caused by background interference is reduced by counterfactual analysis, which leads to unbiased prediction in final results. In addition, we also carry out lowbit-width quantization for CA-SpaceNet and deploy part of the framework to a Processing-In-Memory (PIM) accelerator on FPGA. Qualitative and quantitative results demonstrate the effectiveness and efficiency of our proposed method. To our best knowledge, this paper applies causal inference and network quantization to the 6D pose estimation of space-borne targets for the first time. The code is available at https://github.com/Shunli-Wang/CA-SpaceNet.
翻訳日:2022-07-19 16:45:36 公開日:2022-07-16
# Clover: 統合ビデオ言語アライメントとフュージョンモデルを目指して

Clover: Towards A Unified Video-Language Alignment and Fusion Model ( http://arxiv.org/abs/2207.07885v1 )

ライセンス: Link先を確認
Jingjia Huang, Yinan Li, Jiashi Feng, Xiaoshuai Sun and Rongrong Ji(参考訳) さまざまなビデオ理解タスク(テキストビデオ検索、ビデオ質問応答など)を解決するためのユニバーサルビデオ言語モデルの構築は、機械学習分野に対するオープンチャレンジである。 この目標に向けて、最近の試みでは、通常はユニモーダルとクロスモーダルの機能エンコーダで構成されるモデルをトレーニングしている。 魅力的な汎用性を提供するが、結果として得られたモデルは効率と性能を損なう必要がある。 この欠陥は、事前トレーニング戦略によって引き起こされている、と主張する。textemdashは、異なるモダリティから機能を適切に調整し、同時に融合することはできない。 次に、複数のビデオ理解タスクを、パフォーマンスと効率の妥協を伴わずに解決するための普遍的なビデオ言語モデルに対して、Cloverを紹介します。 新たなtri-modal alignment pre-trainingタスクにより、クロスモーダル特徴のアライメントと融合を改善する。 さらに,マスク付きサンプルからの学習と,新しいペアワイズランキングロスを組み込むことにより,三モードアライメントを強化することを提案する。 クローバーは卓越した一般性を示している。 これには、ゼロショットと微調整の両方のための3つの検索タスクと8つのビデオ質問応答タスクが含まれる。 コードと事前トレーニングされたモデルはhttps://github.com/leeyn-43/cloverでリリースされる。

Building a universal video-language model for solving various video understanding tasks (e.g., text-video retrieval, video question answering) is an open challenge to the machine learning field. Towards this goal, most recent attempts train the models, usually consisting of uni-modal and cross-modal feature encoders, with supervised or pair-wise contrastive pre-text tasks. Though offering attractive generality, the resulted models have to compromise between efficiency and performance. We argue the flaws are caused by their pre-training strategies\textemdash they cannot well align and fuse features from different modalities simultaneously. We then introduce Clover -- a Correlated Video-Language pre-training method -- towards a universal video-language model for solving multiple video understanding tasks with neither performance nor efficiency compromise. It improves cross-modal feature alignment and fusion via a novel tri-modal alignment pre-training task. Additionally, we propose to enhance the tri-modal alignment via incorporating learning from masked samples and a novel pair-wise ranking loss. Clover demonstrates outstanding generality. It establishes new state-of-the-arts on multiple downstream tasks, including three retrieval tasks for both zero-shot and fine-tuning settings, and eight video question answering tasks. Codes and pre-trained models will be released at https://github.com/LeeYN-43/Clover.
翻訳日:2022-07-19 16:45:18 公開日:2022-07-16
# 手術室ワークフロー分析のためのマルチモード教師なし事前訓練

Multi-Modal Unsupervised Pre-Training for Surgical Operating Room Workflow Analysis ( http://arxiv.org/abs/2207.07894v1 )

ライセンス: Link先を確認
Muhammad Abdullah Jamal, Omid Mohareri(参考訳) 作業室(あるいは)ワークフロー分析を支援するデータ駆動アプローチは、収集に要する時間と費用のかかる大規模なキュレーションデータセットに依存する。 一方,教師付き学習から,ラベルなしデータセットから表現を学習できる自己教師付き学習アプローチ,あるいは教師なし学習アプローチへのパラダイムシフトが近年見られる。 本稿では,ロボット手術で収集されたラベルなしのデータを活用し,マルチモーダルデータを単一の映像フレームや画像に融合する新しい手法を提案する。 自己教師付き学習において一般的な同じ画像やビデオフレームの異なる拡張(あるいは「ビュー」)を生成する代わりに、マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。 本手法を他の術法と比較し,手術的映像活動認識および意味セグメンテーションにおけるアプローチの優れた性能を示す。

Data-driven approaches to assist operating room (OR) workflow analysis depend on large curated datasets that are time consuming and expensive to collect. On the other hand, we see a recent paradigm shift from supervised learning to self-supervised and/or unsupervised learning approaches that can learn representations from unlabeled datasets. In this paper, we leverage the unlabeled data captured in robotic surgery ORs and propose a novel way to fuse the multi-modal data for a single video frame or image. Instead of producing different augmentations (or 'views') of the same image or video frame which is a common practice in self-supervised learning, we treat the multi-modal data as different views to train the model in an unsupervised manner via clustering. We compared our method with other state of the art methods and results show the superior performance of our approach on surgical video activity recognition and semantic segmentation.
翻訳日:2022-07-19 16:44:53 公開日:2022-07-16
# JPerceiver:運転シーンにおける深さ・姿勢・レイアウト推定のための共同知覚ネットワーク

JPerceiver: Joint Perception Network for Depth, Pose and Layout Estimation in Driving Scenes ( http://arxiv.org/abs/2207.07895v1 )

ライセンス: Link先を確認
Haimei Zhao, Jing Zhang, Sen Zhang, Dacheng Tao(参考訳) 奥行き推定,ビジュアル・オドメトリー(VO),鳥眼視(BEV)シーンレイアウト推定は,自律走行における動作計画とナビゲーションの基礎となる3つの重要な課題である。 それらは互いに補完的だが、以前の作業は通常個々のタスクに集中し、3つのタスクすべてを一緒に扱うことは滅多にない。 ナイーブな方法は、シーケンシャルまたは並列な方法でそれらを独立に達成することであるが、多くの欠点がある。 1) 深度及びVO結果は,本質的な規模あいまいさの問題に悩まされる。 2) 深度マップはシーンレイアウトの推測に有用な幾何学的手がかりを含むが, 深度関連情報を用いることなく, 前面画像からBEVレイアウトを直接予測する。 本稿では,jperceiverという新たな統合知覚フレームワークを提案し,単眼映像列からスケール認識深度とvo,およびbevレイアウトを同時に推定する手法を提案する。 クロスビュー幾何変換(CGT)を利用して、慎重に設計されたスケールロスに基づいて、絶対スケールを道路レイアウトから深さまで伝播する。 一方,道路や車両のレイアウトを注意機構を通じて推論するための奥行き情報を活用するために,クロスビュー・クロスモーダルトランスファー(CCT)モジュールが開発された。 JPerceiverは、CGTスケールロスとCCTモジュールがタスク間の知識伝達を促進し、各タスクの特徴学習に役立てる、エンドツーエンドのマルチタスク学習方法で訓練することができる。 Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクのすべてにおいて、精度、モデルサイズ、推論速度の点で、JPerceiverが既存のメソッドよりも優れていることを示している。 コードとモデルは、~\href{https://github.com/sunnyHelen/JPerceiver}{https://github.com/sunnyHelen/JPerceiver} で入手できる。

Depth estimation, visual odometry (VO), and bird's-eye-view (BEV) scene layout estimation present three critical tasks for driving scene perception, which is fundamental for motion planning and navigation in autonomous driving. Though they are complementary to each other, prior works usually focus on each individual task and rarely deal with all three tasks together. A naive way is to accomplish them independently in a sequential or parallel manner, but there are many drawbacks, i.e., 1) the depth and VO results suffer from the inherent scale ambiguity issue; 2) the BEV layout is directly predicted from the front-view image without using any depth-related information, although the depth map contains useful geometry clues for inferring scene layouts. In this paper, we address these issues by proposing a novel joint perception framework named JPerceiver, which can simultaneously estimate scale-aware depth and VO as well as BEV layout from a monocular video sequence. It exploits the cross-view geometric transformation (CGT) to propagate the absolute scale from the road layout to depth and VO based on a carefully-designed scale loss. Meanwhile, a cross-view and cross-modal transfer (CCT) module is devised to leverage the depth clues for reasoning road and vehicle layout through an attention mechanism. JPerceiver can be trained in an end-to-end multi-task learning way, where the CGT scale loss and CCT module promote inter-task knowledge transfer to benefit feature learning of each task. Experiments on Argoverse, Nuscenes and KITTI show the superiority of JPerceiver over existing methods on all the above three tasks in terms of accuracy, model size, and inference speed. The code and models are available at~\href{https://github.com/sunnyHelen/JPerceiver}{https://github.com/sunnyHelen/JPerceiver}.
翻訳日:2022-07-19 16:44:36 公開日:2022-07-16
# 低コストRGB-Dカメラとミリ波レーダを用いたクロスビジョンRF歩行同定

Cross Vision-RF Gait Re-identification with Low-cost RGB-D Cameras and mmWave Radars ( http://arxiv.org/abs/2207.07896v1 )

ライセンス: Link先を確認
Dongjiang Cao, Ruofeng Liu, Hao Li, Shuai Wang, Wenchao Jiang, Chris Xiaoxuan Lu(参考訳) パーソナライズされたサービス、自動監視、継続的認証、パンデミック時の連絡先追跡など、日常生活における多くのアプリケーションにとって、人間識別は重要な要件である。 本研究は,異種センサを装着したカメラ対応領域(街路など)とカメラ制限領域(オフィスなど)を横断する人間の運動に応答して,人間再識別(reid)の問題を研究する。 低コストのRGB-DカメラとmmWaveレーダを活用することで,マルチモーダルマルチパーソンReIDのための第1種視覚RFシステムを提案する。 まず,本研究では,人体のスペクトル反射モデルに基づく署名合成アルゴリズムを提案する。 次に,レーダやカメラ間の非同期データによる干渉に対処するために,効果的なクロスモーダル深度学習モデルを導入する。 屋内および屋外の両方で広範な実験を行い、56名のボランティアのうち92.5%がトップ1の精度、97.5%がトップ5の精度を達成できることを示した。 また,本システムでは,センサの視野に複数の被験者が存在する場合でも,被験者をしっかりと同定できることを示す。

Human identification is a key requirement for many applications in everyday life, such as personalized services, automatic surveillance, continuous authentication, and contact tracing during pandemics, etc. This work studies the problem of cross-modal human re-identification (ReID), in response to the regular human movements across camera-allowed regions (e.g., streets) and camera-restricted regions (e.g., offices) deployed with heterogeneous sensors. By leveraging the emerging low-cost RGB-D cameras and mmWave radars, we propose the first-of-its-kind vision-RF system for cross-modal multi-person ReID at the same time. Firstly, to address the fundamental inter-modality discrepancy, we propose a novel signature synthesis algorithm based on the observed specular reflection model of a human body. Secondly, an effective cross-modal deep metric learning model is introduced to deal with interference caused by unsynchronized data across radars and cameras. Through extensive experiments in both indoor and outdoor environments, we demonstrate that our proposed system is able to achieve ~92.5% top-1 accuracy and ~97.5% top-5 accuracy out of 56 volunteers. We also show that our proposed system is able to robustly reidentify subjects even when multiple subjects are present in the sensors' field of view.
翻訳日:2022-07-19 16:43:57 公開日:2022-07-16
# SPSN:RGB-D能動物体検出のための超画素プロトタイプサンプリングネットワーク

SPSN: Superpixel Prototype Sampling Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2207.07898v1 )

ライセンス: Link先を確認
Minhyeok Lee, Chaewon Park, Suhwan Cho, Sangyoun Lee(参考訳) rgb-d salient object detection (sod) は様々な視覚タスクにおいて重要な前処理操作であるため、近年注目を浴びている。 しかし,RGB画像と深度マップと低品質深度マップとの領域差が大きいため,深度学習手法の進歩にもかかわらず,RGB-D SODは依然として困難である。 そこで本研究では,新しいスーパーピクセルプロトタイプサンプリングネットワーク(spsn)アーキテクチャを提案する。 提案モデルは入力されたrgb画像と深度マップをコンポーネントスーパーピクセルに分割し,コンポーネントプロトタイプを生成する。 本研究では,本ネットワークが有能なオブジェクトに対応するプロトタイプのみをサンプリングするために,プロトタイプサンプリングネットワークを設計する。 さらに,各RGBおよび深度特徴マップの品質を認識し,その信頼性に比例してそれらを適応的に重み付けする信頼選択モジュールを提案する。 提案手法は,RGB画像と深度マップの不整合に頑健にし,非塩性物体の影響を除去する。 提案手法は5つの人気のあるデータセットで評価され,最新性能が得られた。 提案手法の有効性を比較実験により検証した。

RGB-D salient object detection (SOD) has been in the spotlight recently because it is an important preprocessing operation for various vision tasks. However, despite advances in deep learning-based methods, RGB-D SOD is still challenging due to the large domain gap between an RGB image and the depth map and low-quality depth maps. To solve this problem, we propose a novel superpixel prototype sampling network (SPSN) architecture. The proposed model splits the input RGB image and depth map into component superpixels to generate component prototypes. We design a prototype sampling network so that the network only samples prototypes corresponding to salient objects. In addition, we propose a reliance selection module to recognize the quality of each RGB and depth feature map and adaptively weight them in proportion to their reliability. The proposed method makes the model robust to inconsistencies between RGB images and depth maps and eliminates the influence of non-salient objects. Our method is evaluated on five popular datasets, achieving state-of-the-art performance. We prove the effectiveness of the proposed method through comparative experiments.
翻訳日:2022-07-19 16:43:32 公開日:2022-07-16
# 非バイアスシーングラフ生成のためのデュアルブランチハイブリッド学習ネットワーク

Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation ( http://arxiv.org/abs/2207.07913v1 )

ライセンス: Link先を確認
Chaofan Zheng, Lianli Gao, Xinyu Lyu, Pengpeng Zeng, Abdulmotaleb El Saddik, Heng Tao Shen(参考訳) シーングラフ生成(sgg)に関する最近の研究は、不偏のシーングラフを生成するためのロングテール問題を解くことに焦点を当てている。 しかし、ほとんどの脱バイアス法は、訓練を通して尾部述語と頭述語を過度に強調し、それによって頭部述語の特徴の表現能力を損なう。 さらに,これらの頭部述語の特徴は尾部述語の学習を損なう。 実際、尾の推論は頭から学んだ一般的なパターンに大きく依存しており、例えば「立ち上がって」は「オン」に依存する。 したがって、これらの非バイアスのSGG法は、尾の述語における優れた性能や、頭部の挙動を満たすことができない。 この問題に対処するため、我々は、粗粒度学習部(CLB)と細粒度学習部(FLB)を含む、SGGの頭部述語と尾部述語の両方を扱うDual-branch Hybrid Learning Network (DHL)を提案する。 具体的には、CLBは頭部述語に関する専門知識と堅牢な特徴を学習し、FLBは情報的尾述語を予測する。 さらに、DHLは分岐カリキュラムスケジュール(BCS)を備えており、2つのブランチをうまく連携させる。 実験の結果,本手法はVGおよびGQAデータセット上での新たな最先端性能を実現し,尾部述語と頭部述語のパフォーマンスのトレードオフを実現する。 さらに,2つの下流タスク(画像キャプションとグラフ検索)に関する広範な実験により,本手法の一般化と実践性をさらに検証した。

The current studies of Scene Graph Generation (SGG) focus on solving the long-tailed problem for generating unbiased scene graphs. However, most de-biasing methods overemphasize the tail predicates and underestimate head ones throughout training, thereby wrecking the representation ability of head predicate features. Furthermore, these impaired features from head predicates harm the learning of tail predicates. In fact, the inference of tail predicates heavily depends on the general patterns learned from head ones, e.g., "standing on" depends on "on". Thus, these de-biasing SGG methods can neither achieve excellent performance on tail predicates nor satisfying behaviors on head ones. To address this issue, we propose a Dual-branch Hybrid Learning network (DHL) to take care of both head predicates and tail ones for SGG, including a Coarse-grained Learning Branch (CLB) and a Fine-grained Learning Branch (FLB). Specifically, the CLB is responsible for learning expertise and robust features of head predicates, while the FLB is expected to predict informative tail predicates. Furthermore, DHL is equipped with a Branch Curriculum Schedule (BCS) to make the two branches work well together. Experiments show that our approach achieves a new state-of-the-art performance on VG and GQA datasets and makes a trade-off between the performance of tail predicates and head ones. Moreover, extensive experiments on two downstream tasks (i.e., Image Captioning and Sentence-to-Graph Retrieval) further verify the generalization and practicability of our method.
翻訳日:2022-07-19 16:43:12 公開日:2022-07-16
# 映像オブジェクトセグメンテーションのための学習品質認識動的メモリ

Learning Quality-aware Dynamic Memory for Video Object Segmentation ( http://arxiv.org/abs/2207.07922v1 )

ライセンス: Link先を確認
Yong Liu, Ran Yu, Fei Yin, Xinyuan Zhao, Wei Zhao, Weihao Xia, Yujiu Yang(参考訳) 近年,中間フレームとそのマスクをメモリとして保存することは,映像中の対象物をセグメント化するのに有効であることが確認されている。 しかし、それらは主に、メモリの品質に明示的に注意を払わずに、現在のフレームとメモリフレームのマッチングを改善することに重点を置いている。 したがって、セグメンテーションマスクの少ないフレームは記憶されやすく、セグメンテーションマスクエラーの蓄積問題を引き起こし、セグメンテーション性能にさらに影響を及ぼす。 さらに、フレーム数の増加に伴うメモリフレームの線形増加により、モデルが長いビデオを扱う能力も制限される。 そこで本研究では,各フレームのセグメンテーション品質を評価するためのQDMN(Quality-Aware Dynamic Memory Network)を提案する。 次に,セグメント化品質と時間的整合性を組み合わせることで,メモリバンクを動的に更新し,モデルの実用性を向上させる。 私たちのQDMNは、DAVISとYouTube-VOSベンチマークの両方で最新のパフォーマンスを実現しています。 さらに,提案する品質評価モジュール(qam)を汎用プラグインとしてメモリベースメソッドに適用し,性能を大幅に向上できることを示す実験を行った。 ソースコードはhttps://github.com/workforai/qdmnで閲覧できます。

Recently, several spatial-temporal memory-based methods have verified that storing intermediate frames and their masks as memory are helpful to segment target objects in videos. However, they mainly focus on better matching between the current frame and the memory frames without explicitly paying attention to the quality of the memory. Therefore, frames with poor segmentation masks are prone to be memorized, which leads to a segmentation mask error accumulation problem and further affect the segmentation performance. In addition, the linear increase of memory frames with the growth of frame number also limits the ability of the models to handle long videos. To this end, we propose a Quality-aware Dynamic Memory Network (QDMN) to evaluate the segmentation quality of each frame, allowing the memory bank to selectively store accurately segmented frames to prevent the error accumulation problem. Then, we combine the segmentation quality with temporal consistency to dynamically update the memory bank to improve the practicability of the models. Without any bells and whistles, our QDMN achieves new state-of-the-art performance on both DAVIS and YouTube-VOS benchmarks. Moreover, extensive experiments demonstrate that the proposed Quality Assessment Module (QAM) can be applied to memory-based methods as generic plugins and significantly improves performance. Our source code is available at https://github.com/workforai/QDMN.
翻訳日:2022-07-19 16:41:58 公開日:2022-07-16
# 重回帰学習による軽量超解法を目指して

Towards Lightweight Super-Resolution with Dual Regression Learning ( http://arxiv.org/abs/2207.07929v1 )

ライセンス: Link先を確認
Yong Guo, Jingdong Wang, Qi Chen, Jiezhang Cao, Zeshuai Deng, Yanwu Xu, Jian Chen, Mingkui Tan(参考訳) ディープニューラルネットワークは、低解像度(LR)画像から高解像度(HR)画像へのマッピングを学習することで、画像超解像(SR)タスクにおいて顕著なパフォーマンスを示した。 しかし、sr問題は通常不適切な問題であり、既存の方法にはいくつかの制限がある。 まず、SRのマッピング空間は、同じLR画像にダウンサンプリングできる多くの異なるHR画像が存在するため、非常に大きい可能性がある。 その結果、このような大きな空間から有望なsrマッピングを直接学習することは困難である。 第二に、非常に高い計算コストで非常に大きなモデルを開発することは、しばしば避けられない。 実際、モデルの冗長性を減らしてコンパクトなモデルを得るためにモデル圧縮技術を用いることができる。 しかし、既存のモデル圧縮手法では、非常に大きなSRマッピング空間のため、冗長なコンポーネントを正確に識別することは困難である。 最初の課題を解決するために、SRマッピングの可能な空間を減らすための二重回帰学習方式を提案する。 具体的には、LR画像からHR画像へのマッピングに加えて、ダウンサンプリングカーネルを推定し、LR画像を再構成するための2重回帰マッピングについても学習する。 このように、双対写像は可能な写像の空間を減らすための制約として作用する。 第2の課題に対処すべく,チャネルプルーニングに基づく層レベルとチャネルレベルでのモデル冗長性を低減するための,軽量な2重回帰圧縮手法を提案する。 具体的には,まず2重回帰損失を最小化し,各層の冗長性を決定するチャネル数探索法を開発した。 探索されたチャネル数を考えると、さらに2重回帰法を利用してチャネルの重要性を評価し、冗長なチャネルをプルーンする。 広範な実験により,本手法がsrモデルの有効性を示す。

Deep neural networks have exhibited remarkable performance in image super-resolution (SR) tasks by learning a mapping from low-resolution (LR) images to high-resolution (HR) images. However, the SR problem is typically an ill-posed problem and existing methods would come with several limitations. First, the possible mapping space of SR can be extremely large since there may exist many different HR images that can be downsampled to the same LR image. As a result, it is hard to directly learn a promising SR mapping from such a large space. Second, it is often inevitable to develop very large models with extremely high computational cost to yield promising SR performance. In practice, one can use model compression techniques to obtain compact models by reducing model redundancy. Nevertheless, it is hard for existing model compression methods to accurately identify the redundant components due to the extremely large SR mapping space. To alleviate the first challenge, we propose a dual regression learning scheme to reduce the space of possible SR mappings. Specifically, in addition to the mapping from LR to HR images, we learn an additional dual regression mapping to estimate the downsampling kernel and reconstruct LR images. In this way, the dual mapping acts as a constraint to reduce the space of possible mappings. To address the second challenge, we propose a lightweight dual regression compression method to reduce model redundancy in both layer-level and channel-level based on channel pruning. Specifically, we first develop a channel number search method that minimizes the dual regression loss to determine the redundancy of each layer. Given the searched channel numbers, we further exploit the dual regression manner to evaluate the importance of channels and prune the redundant ones. Extensive experiments show the effectiveness of our method in obtaining accurate and efficient SR models.
翻訳日:2022-07-19 16:41:37 公開日:2022-07-16
# 網膜画像マッチングのためのセミスーパービジョンキーポイント検出器とディスクリプタ

Semi-Supervised Keypoint Detector and Descriptor for Retinal Image Matching ( http://arxiv.org/abs/2207.07932v1 )

ライセンス: Link先を確認
Jiazhen Liu, Xirong Li, Qijie Wei, Jie Xu, Dayong Ding(参考訳) 網膜画像マッチング(rim)では,キーポイント検出とディスクリプタを併用した最初のエンド・ツー・エンド方式であるsuperretinaを提案する。 SuperRetinaは、新しい半教師付き方法で訓練されている。 少数の(100近い)画像が不完全ラベル付けされ、ネットワークを監督して血管木のキーポイントを検出する。 手動ラベリングの不完全性を攻撃するために,各トレーニング時代のキーポイントラベルを充実させるために,進行キーポイント拡張を提案する。 キーポイントベースの改良三重項損失を記述損失として利用することにより、SuperRetinaは、フル入力画像サイズで高い差別的記述子を生成する。 複数の実世界のデータセットに対する大規模な実験は、SuperRetinaの生存可能性を正当化する。 手動ラベリングを自動ラベリングに置き換え、トレーニングプロセスを完全に手動でアノテートするが、SuperRetinaは2つのRIMタスクの強力なベースラインである画像登録とアイデンティティ検証とを良好に比較する。 SuperRetinaはオープンソースになる。

For retinal image matching (RIM), we propose SuperRetina, the first end-to-end method with jointly trainable keypoint detector and descriptor. SuperRetina is trained in a novel semi-supervised manner. A small set of (nearly 100) images are incompletely labeled and used to supervise the network to detect keypoints on the vascular tree. To attack the incompleteness of manual labeling, we propose Progressive Keypoint Expansion to enrich the keypoint labels at each training epoch. By utilizing a keypoint-based improved triplet loss as its description loss, SuperRetina produces highly discriminative descriptors at full input image size. Extensive experiments on multiple real-world datasets justify the viability of SuperRetina. Even with manual labeling replaced by auto labeling and thus making the training process fully manual-annotation free, SuperRetina compares favorably against a number of strong baselines for two RIM tasks, i.e. image registration and identity verification. SuperRetina will be open source.
翻訳日:2022-07-19 16:41:08 公開日:2022-07-16
# 単眼3次元物体検出における暗黙的特徴と明示的特徴の一致

Consistency of Implicit and Explicit Features Matters for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.07933v1 )

ライセンス: Link先を確認
Qian Ye, Ling Jiang, Yuyang Du(参考訳) 単眼3次元物体検出は、低コストの自律エージェントが周囲の環境を知覚するための一般的なソリューションである。 モノキュラー検出は,(1)フロントビュー画像から直接3dバウンディングボックスを推定する直接法,(2)画像特徴を3d空間にマッピングしてその後の3d検出を行う3dメディア表現法,の2つのカテゴリに分類されている。 第2のカテゴリは、より有意義で代表的な特徴の慈悲に3D検出が前進するだけでなく、認識パイプラインから鳥の目視の特徴マップを必要とする、SOTAのエンドツーエンド予測と計画パラダイムの出現によって注目されている。 しかし、3D表現への変換において、これらの手法はオブジェクトの暗黙の向きや潜在空間の位置がユークリッド空間で明示的に観察されるものと一致していることを保証するものではない。 したがって、暗黙的特徴と明示的特徴の一貫性が重要であり、それに続く3次元表現における暗黙的特徴と明示的特徴の相違をなくすための最初の方向認識画像バックボーンを備えた、新しい単眼的検出法であるciefを提案する。 第2の貢献として,レイアテンション機構を紹介する。 投影線に沿って特徴を繰り返したり、別の中間フラストム点クラウドに依存したりする従来の手法とは対照的に、画像特徴を局所化された特徴を持つボクセル表現に直接変換する。 また, 正弦波符号化関数よりも優れているが, 連続性が維持できる手作りガウス位置符号化関数を提案する。 CIEFは、提出時にKITTIの3DおよびBEV検出ベンチマークで報告されたすべての手法の中で、第1位であった。

Monocular 3D object detection is a common solution for low-cost autonomous agents to perceive their surrounding environment. Monocular detection has progressed into two categories: (1)Direct methods that infer 3D bounding boxes directly from a frontal-view image; (2)3D intermedia representation methods that map image features to 3D space for subsequent 3D detection. The second category is standing out not only because 3D detection forges ahead at the mercy of more meaningful and representative features, but because of emerging SOTA end-to-end prediction and planning paradigms that require a bird's-eye-view feature map from a perception pipeline. However, in transforming to 3D representation, these methods do not guarantee that objects' implicit orientations and locations in latent space are consistent with those explicitly observed in Euclidean space, which will hurt model performance. Hence, we argue that the consistency of implicit and explicit features matters and present a novel monocular detection method, named CIEF, with the first orientation-aware image backbone to eliminate the disparity of implicit and explicit features in subsequent 3D representation. As a second contribution, we introduce a ray attention mechanism. In contrast to previous methods that repeat features along the projection ray or rely on another intermedia frustum point cloud, we directly transform image features to voxel representations with well-localized features. We also propose a handcrafted gaussian positional encoding function that outperforms the sinusoidal encoding function but maintains the benefit of being continuous. CIEF ranked 1st among all reported methods on both 3D and BEV detection benchmark of KITTI at submission time.
翻訳日:2022-07-19 16:40:48 公開日:2022-07-16
# 顔超解像に対する確率的属性モデリング

Stochastic Attribute Modeling for Face Super-Resolution ( http://arxiv.org/abs/2207.07945v1 )

ライセンス: Link先を確認
Hanbyel Cho, Yekang Lee, Jaemyung Yu, Junmo Kim(参考訳) 高分解能(HR)画像が低分解能(LR)画像に分解されると、画像は既存の情報の一部を失う。 これにより、複数のHR画像がLR画像に対応できる。 既存の手法の多くは確率的属性による不確かさを考慮せず、確率論的に推測できるだけである。 したがって、予測されたHR画像は、ネットワークが単一の出力画像にすべての可能性を反映しようとするため、しばしばぼやけている。 この限界を克服するため,本稿では確率的モデリングによる不確実性を考慮した新しい顔超解像(sr)スキームを提案する。 具体的には、LR画像の情報は、決定論的および確率的属性に別々に符号化される。 さらに、入力条件属性予測器を提案し、lr画像のみから部分生存確率属性を予測するように個別に訓練する。 大規模評価の結果,提案手法は学習過程における不確実性を低減し,既存の最先端手法よりも優れていることがわかった。

When a high-resolution (HR) image is degraded into a low-resolution (LR) image, the image loses some of the existing information. Consequently, multiple HR images can correspond to the LR image. Most of the existing methods do not consider the uncertainty caused by the stochastic attribute, which can only be probabilistically inferred. Therefore, the predicted HR images are often blurry because the network tries to reflect all possibilities in a single output image. To overcome this limitation, this paper proposes a novel face super-resolution (SR) scheme to take into the uncertainty by stochastic modeling. Specifically, the information in LR images is separately encoded into deterministic and stochastic attributes. Furthermore, an Input Conditional Attribute Predictor is proposed and separately trained to predict the partially alive stochastic attributes from only the LR images. Extensive evaluation shows that the proposed method successfully reduces the uncertainty in the learning process and outperforms the existing state-of-the-art approaches.
翻訳日:2022-07-19 16:40:18 公開日:2022-07-16
# 学習から分解:顔表情認識のためのカスケード分解ネットワーク

Learn-to-Decompose: Cascaded Decomposition Network for Cross-Domain Few-Shot Facial Expression Recognition ( http://arxiv.org/abs/2207.07973v1 )

ライセンス: Link先を確認
Xinyi Zou, Yan Yan, Jing-Hao Xue, Si Chen, Hanzi Wang(参考訳) 既存の複合表情認識(fer)手法のほとんどは、トレーニングのために大規模ラベル付き複合表情データに依存している。 しかし、そのようなデータは労働集約的で時間を要する。 本稿では,対象領域における複合表現のサンプルをわずかに必要とするFSL設定において,複合FERタスクに対処する。 具体的には,逐次分解機構に基づく共有パラメータを持つ複数の学習分解モジュールをカスケードし,転送可能な特徴空間を得る新しいカスケード分解ネットワーク(cdnet)を提案する。 タスクのベースクラスが限定的であることによるオーバーフィッティング問題を軽減するため、エピソディックトレーニングとバッチトレーニングの両方のベストを効果的に活用する部分正則化戦略を考案した。 複数の基本表現データセット上で同様のタスクをトレーニングすることで、CDNetは、見知らぬ複合表現を容易に識別できる学習と分解の能力を学ぶ。 In-the-labとin-the-wildの複合表現データセットの広範な実験により、提案したCDNetがいくつかの最先端FSL法に対して優れていることが示された。 コードはhttps://github.com/zouxinyi0625/cdnet。

Most existing compound facial expression recognition (FER) methods rely on large-scale labeled compound expression data for training. However, collecting such data is labor-intensive and time-consuming. In this paper, we address the compound FER task in the cross-domain few-shot learning (FSL) setting, which requires only a few samples of compound expressions in the target domain. Specifically, we propose a novel cascaded decomposition network (CDNet), which cascades several learn-to-decompose modules with shared parameters based on a sequential decomposition mechanism, to obtain a transferable feature space. To alleviate the overfitting problem caused by limited base classes in our task, a partial regularization strategy is designed to effectively exploit the best of both episodic training and batch training. By training across similar tasks on multiple basic expression datasets, CDNet learns the ability of learn-to-decompose that can be easily adapted to identify unseen compound expressions. Extensive experiments on both in-the-lab and in-the-wild compound expression datasets demonstrate the superiority of our proposed CDNet against several state-of-the-art FSL methods. Code is available at: https://github.com/zouxinyi0625/CDNet.
翻訳日:2022-07-19 16:40:03 公開日:2022-07-16
# 人間-物体相互作用検出のための知識誘導双方向注意ネットワーク

Knowledge Guided Bidirectional Attention Network for Human-Object Interaction Detection ( http://arxiv.org/abs/2207.07979v1 )

ライセンス: Link先を確認
Jingjia Huang and Baixiang Yang(参考訳) ヒューマンオブジェクトインタラクション(HOI)検出は、人間とオブジェクトのペア間の相互作用を区別する必要がある課題である。 注意に基づく関係解析は,HOIで広く利用されている,効果的な戦略である。 しかし、現在のメソッドは"bottom-up"方法で関係解析を実行する。 HOIにおけるボトムアップ構文解析戦略の独立的利用は直感に反し、注意の拡散につながる可能性があると論じる。 そこで,本研究では,新しい知識誘導型トップダウンの注意をHOIに導入し,その関係解析を「ルックアンドサーチ」プロセスとして,シーンコンテキストモデリング(ルック)を実行し,対象のペアの知識を考慮し,両者の相互作用を識別するための視覚的手がかりを探索する手法を提案する。 一つのエンコーダ-デコーダモデルでボトムアップとトップダウンの注意を統一することで、プロセスを実装する。 実験の結果,V-COCOデータセットとHICO-DETデータセットの競合性能が得られた。

Human Object Interaction (HOI) detection is a challenging task that requires to distinguish the interaction between a human-object pair. Attention based relation parsing is a popular and effective strategy utilized in HOI. However, current methods execute relation parsing in a "bottom-up" manner. We argue that the independent use of the bottom-up parsing strategy in HOI is counter-intuitive and could lead to the diffusion of attention. Therefore, we introduce a novel knowledge-guided top-down attention into HOI, and propose to model the relation parsing as a "look and search" process: execute scene-context modeling (i.e. look), and then, given the knowledge of the target pair, search visual clues for the discrimination of the interaction between the pair. We implement the process via unifying the bottom-up and top-down attention in a single encoder-decoder based model. The experimental results show that our model achieves competitive performance on the V-COCO and HICO-DET datasets.
翻訳日:2022-07-19 16:39:43 公開日:2022-07-16
# diffustereo:スパースカメラを用いた拡散型ステレオによる高品質ヒト再建

DiffuStereo: High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras ( http://arxiv.org/abs/2207.08000v1 )

ライセンス: Link先を確認
Ruizhi Shao, Zerong Zheng, Hongwen Zhang, Jingxiang Sun, Yebin Liu(参考訳) 高品質な3次元再構成のためのスパースカメラ(本研究では8台)のみを用いた新しいシステムであるDiffuStereoを提案する。 中心となるのは拡散に基づく新しいステレオモジュールであり、これは拡散モデル(強力な生成モデルの一種)を反復ステレオマッチングネットワークに導入する。 この目的のために,ネットワーク内でのステレオマッチングと深度推定を容易にするために,新しい拡散カーネルと追加のステレオ制約を設計する。 さらに,メモリフットプリントを必要とせず,高解像度(最大4k)入力を処理するマルチレベルステレオネットワークアーキテクチャを提案する。 提案する多層拡散型ステレオネットワークは,人間のスパースカラー画像の集合を考慮し,高精度な深度マップを作成可能とし,効率的なマルチビュー融合戦略により高品質な3次元人体モデルに変換する。 本手法は,高精細度カメラリグに匹敵する品質の人体モデルの自動再構成を可能にし,より軽量なハードウェア構成で実現している。 実験により,本手法は定性的にも定量的にも,最先端の手法よりも高い性能を示した。

We propose DiffuStereo, a novel system using only sparse cameras (8 in this work) for high-quality 3D human reconstruction. At its core is a novel diffusion-based stereo module, which introduces diffusion models, a type of powerful generative models, into the iterative stereo matching network. To this end, we design a new diffusion kernel and additional stereo constraints to facilitate stereo matching and depth estimation in the network. We further present a multi-level stereo network architecture to handle high-resolution (up to 4k) inputs without requiring unaffordable memory footprint. Given a set of sparse-view color images of a human, the proposed multi-level diffusion-based stereo network can produce highly accurate depth maps, which are then converted into a high-quality 3D human model through an efficient multi-view fusion strategy. Overall, our method enables automatic reconstruction of human models with quality on par to high-end dense-view camera rigs, and this is achieved using a much more light-weight hardware setup. Experiments show that our method outperforms state-of-the-art methods by a large margin both qualitatively and quantitatively.
翻訳日:2022-07-19 16:39:24 公開日:2022-07-16
# SVGraph: 教育ビデオから意味グラフを学ぶ

SVGraph: Learning Semantic Graphs from Instructional Videos ( http://arxiv.org/abs/2207.08001v1 )

ライセンス: Link先を確認
Madeline C. Schiappa, Yogesh S. Rawat(参考訳) 本研究は,映像理解のための雑音・指導ビデオのグラフィカルな表現に焦点をあてる。 我々は,グラフ表現のアノテーションを必要としない自己教師あり,解釈可能な手法を提案する。 学習グラフの意味解釈にナレーションを利用するマルチモーダルアプローチであるセマンティックビデオグラフ(svgraph)を提示することで,「ブラックボックス」学習の限界を克服しようとする。 SVGraph 1)複数モーダル間の合意に依拠し、相互注意の助けを借りて統一的なグラフィカル構造を学ぶ。 2)ビデオナレーションから意味をキャプチャするセマンティックアサインメント(semantic-assignment)の助けを借りて意味解釈を割り当てる。 複数のデータセットの実験を行い、セマンティックグラフ学習におけるSVGraphの解釈可能性を示す。

In this work, we focus on generating graphical representations of noisy, instructional videos for video understanding. We propose a self-supervised, interpretable approach that does not require any annotations for graphical representations, which would be expensive and time consuming to collect. We attempt to overcome "black box" learning limitations by presenting Semantic Video Graph or SVGraph, a multi-modal approach that utilizes narrations for semantic interpretability of the learned graphs. SVGraph 1) relies on the agreement between multiple modalities to learn a unified graphical structure with the help of cross-modal attention and 2) assigns semantic interpretation with the help of Semantic-Assignment, which captures the semantics from video narration. We perform experiments on multiple datasets and demonstrate the interpretability of SVGraph in semantic graph learning.
翻訳日:2022-07-19 16:38:29 公開日:2022-07-16
# マルチスケール因果構造学習

Multiscale Causal Structure Learning ( http://arxiv.org/abs/2207.07908v1 )

ライセンス: Link先を確認
Gabriele D'Acunto, Paolo Di Lorenzo, Sergio Barbarossa(参考訳) 観測データからの因果構造の推定は、システムの基盤となるダイナミクスを明らかにする上で重要な役割を果たす。 本稿では,異なる時間スケールで発生する線形因果関係の構造を推定する手法として,Multiscale-Causal Structure Learning (MS-CASTLE) を提案する。 既存のアプローチと異なり、MS-CASTLEは、定常ウェーブレット変換と非凸最適化に基づいて、異なるスケールで表される複数の時系列間の即時およびラタグの相互関係を明示的に考慮している。 MS-CASTLEは特殊なケースとしてSS-CASTLEと呼ばれる単一のスケールバージョンを組み込んでいる。 我々は、MS-CASTLEを用いて15のグローバルエクイティ市場リスクのマルチスケール因果構造を調査し、そのマルチスケール分析によりMS-CASTLEが有意義な情報を抽出し、SS-CASTLEを上回った。 最も永続的で強い相互作用は、中期の時間分解能で起こる。 さらに, ブラジル, カナダ, イタリアなど, 想定された期間にリスクを増大させる株式市場を特定した。 提案されたアプローチは、投資の方向に応じて、因果的な観点から株式ポートフォリオ内のリスクを管理できる金融投資家によって活用できる。

The inference of causal structures from observed data plays a key role in unveiling the underlying dynamics of the system. This paper exposes a novel method, named Multiscale-Causal Structure Learning (MS-CASTLE), to estimate the structure of linear causal relationships occurring at different time scales. Differently from existing approaches, MS-CASTLE takes explicitly into account instantaneous and lagged inter-relations between multiple time series, represented at different scales, hinging on stationary wavelet transform and non-convex optimization. MS-CASTLE incorporates, as a special case, a single-scale version named SS-CASTLE, which compares favorably in terms of computational efficiency, performance and robustness with respect to the state of the art onto synthetic data. We used MS-CASTLE to study the multiscale causal structure of the risk of 15 global equity markets, during covid-19 pandemic, illustrating how MS-CASTLE can extract meaningful information thanks to its multiscale analysis, outperforming SS-CASTLE. We found that the most persistent and strongest interactions occur at mid-term time resolutions. Moreover, we identified the stock markets that drive the risk during the considered period: Brazil, Canada and Italy. The proposed approach can be exploited by financial investors who, depending to their investment horizon, can manage the risk within equity portfolios from a causal perspective.
翻訳日:2022-07-19 16:22:04 公開日:2022-07-16
# 深部エネルギーと深部画像を用いたeuler's elasticaのcnn解析

CNN-based Euler's Elastica Inpainting with Deep Energy and Deep Image Prior ( http://arxiv.org/abs/2207.07921v1 )

ライセンス: Link先を確認
Karl Schrader, Tobias Alt, Joachim Weickert, Michael Ertel(参考訳) オイラーの弾性体は魅力的な変分画像の塗装モデルを構成する。 全体の変動とレベルラインの曲率を伴うエネルギーを最小化する。 これらのコンポーネントは透明で、形状完了タスクに魅力的です。 しかし、勾配流は4階の特異、異方性、非線形PDEであり、数値的に困難である: 鋭いエッジと良好な回転不変性を提供する効率的なアルゴリズムを見つけることは困難である。 治療として,eulerのelasticaによるインペインティングをシミュレートする最初のニューラルアルゴリズムを設計した。 ニューラルネットワークの損失として変動エネルギーを利用するディープエネルギーの概念を用いる。 さらに、ネットワークアーキテクチャ自体が先行として機能する、より深いイメージと組み合わせる。 これにより、最適化軌道を所望の解に近づけることで、より良い塗り込みが得られる。 この結果はelasticaベースの形状補完に関する最先端アルゴリズムと同程度に定性的である。 良好な回転不変性と鋭いエッジを組み合わせる。 さらに、ニューラルフレームワーク内での高効率かつ無駄な並列化の恩恵を受ける。 我々の神経弾性アプローチは3x3中心差ステンシルのみを必要とする。 したがって、他の弾性体塗布の優れたアルゴリズムよりもはるかに単純である。 最後に、基礎的な真理のトレーニングデータを必要としないため、教師なしです。

Euler's elastica constitute an appealing variational image inpainting model. It minimises an energy that involves the total variation as well as the level line curvature. These components are transparent and make it attractive for shape completion tasks. However, its gradient flow is a singular, anisotropic, and nonlinear PDE of fourth order, which is numerically challenging: It is difficult to find efficient algorithms that offer sharp edges and good rotation invariance. As a remedy, we design the first neural algorithm that simulates inpainting with Euler's Elastica. We use the deep energy concept which employs the variational energy as neural network loss. Furthermore, we pair it with a deep image prior where the network architecture itself acts as a prior. This yields better inpaintings by steering the optimisation trajectory closer to the desired solution. Our results are qualitatively on par with state-of-the-art algorithms on elastica-based shape completion. They combine good rotation invariance with sharp edges. Moreover, we benefit from the high efficiency and effortless parallelisation within a neural framework. Our neural elastica approach only requires 3x3 central difference stencils. It is thus much simpler than other well-performing algorithms for elastica inpainting. Last but not least, it is unsupervised as it requires no ground truth training data.
翻訳日:2022-07-19 16:18:29 公開日:2022-07-16
# Generative Adversarial Network を用いた単一MR画像超解像

Single MR Image Super-Resolution using Generative Adversarial Network ( http://arxiv.org/abs/2207.08036v1 )

ライセンス: Link先を確認
Shawkh Ibne Rashid, Elham Shakibapour, Mehran Ebrahimi(参考訳) 医療画像の空間分解能は超解像法で改善できる。 Real Enhanced Super Resolution Generative Adversarial Network (Real-ESRGAN) は、解像度の低い入力画像に対して高解像度画像を生成するために使われている最近の効果的なアプローチの1つである。 本稿では,この手法を用いて2次元mr画像の空間分解能を向上させる。 提案手法では,脳腫瘍セグメンテーションチャレンジ(BraTS)2018データセットから得られた2次元磁気共鳴画像(MRI)をトレーニングするために,Real-ESRGANの構造をわずかに修正する。 得られた結果は、SSIM(Structural similarity Index Measure)、NEMSE(Normalized Root Mean Square Error)、MAE(Mean Absolute Error)、VIF(Visual Information Fidelity)の値を定性的に定量的に検証する。

Spatial resolution of medical images can be improved using super-resolution methods. Real Enhanced Super Resolution Generative Adversarial Network (Real-ESRGAN) is one of the recent effective approaches utilized to produce higher resolution images, given input images of lower resolution. In this paper, we apply this method to enhance the spatial resolution of 2D MR images. In our proposed approach, we slightly modify the structure of the Real-ESRGAN to train 2D Magnetic Resonance images (MRI) taken from the Brain Tumor Segmentation Challenge (BraTS) 2018 dataset. The obtained results are validated qualitatively and quantitatively by computing SSIM (Structural Similarity Index Measure), NRMSE (Normalized Root Mean Square Error), MAE (Mean Absolute Error), and VIF (Visual Information Fidelity) values.
翻訳日:2022-07-19 16:18:13 公開日:2022-07-16
# mac-do:出力定常マッピングを用いたdram対応の電荷型マルチビットアナログインメモリアクセラレータ

MAC-DO: Charge Based Multi-Bit Analog In-Memory Accelerator Compatible with DRAM Using Output Stationary Mapping ( http://arxiv.org/abs/2207.07862v1 )

ライセンス: Link先を確認
Minki Jeong, Wanyeong Jung(参考訳) ディープニューラルネットワーク(DNN)は、分類問題、画像処理、ビデオセグメンテーション、音声認識など、様々な分野で有効であることが証明されている。 アクセル・イン・メモリ(AiM)アーキテクチャは、従来のフォン・ノイマンアーキテクチャのメモリボトルネックを回避するため、DNNを効率的に高速化する有望なソリューションである。 多くのシステムではメインメモリがDRAMであるため、DRAM内の高並列多重累積(MAC)アレイは、プロセッサとメインメモリ間のデータ移動距離と量の両方を減らし、AiMの利点を最大化することができる。 本稿では、MAC-DOというアナログMACアレイに基づくAiMアーキテクチャを提案する。 従来のDRAMアクセラレータとは対照的に、MAC-DOはDRAMアレイ全体をアイドルセルなしでMAC計算に同時に参加させ、高いスループットとエネルギー効率をもたらす。 この改善は、電荷ステアリングに基づく新しいアナログ計算法を利用して実現されている。 さらにMAC-DOは、本質的には線形性の良いマルチビットMACをサポートする。 MAC-DOは、DRAMセルとアレイを一切変更することなく、現在の1T1C DRAM技術と互換性がある。 MAC-DO配列は、出力定常写像に基づいて行列乗算を加速し、DNNで実行される計算の大部分をサポートする。 トランジスタレベルのシミュレーションにより、16 x 16 MAC-DOセルを用いたテストMAC-DOアレイは188.7TOPS/Wを実現し、MNISTデータセットの97.07%のTop-1精度を示した。

Deep neural networks (DNN) have been proved for its effectiveness in various areas such as classification problems, image processing, video segmentation, and speech recognition. The accelerator-in-memory (AiM) architectures are a promising solution to efficiently accelerate DNNs as they can avoid the memory bottleneck of the traditional von Neumann architecture. As the main memory is usually DRAM in many systems, a highly parallel multiply-accumulate (MAC) array within the DRAM can maximize the benefit of AiM by reducing both the distance and amount of data movement between the processor and the main memory. This paper presents an analog MAC array based AiM architecture named MAC-DO. In contrast with previous in-DRAM accelerators, MAC-DO makes an entire DRAM array participate in MAC computations simultaneously without idle cells, leading to higher throughput and energy efficiency. This improvement is made possible by exploiting a new analog computation method based on charge steering. In addition, MAC-DO innately supports multi-bit MACs with good linearity. MAC-DO is still compatible with current 1T1C DRAM technology without any modifications of a DRAM cell and array. A MAC-DO array can accelerate matrix multiplications based on output stationary mapping and thus supports most of the computations performed in DNNs. Our evaluation using transistor-level simulation shows that a test MAC-DO array with 16 x 16 MAC-DO cells achieves 188.7 TOPS/W, and shows 97.07% Top-1 accuracy for MNIST dataset without retraining.
翻訳日:2022-07-19 16:13:04 公開日:2022-07-16
# 適度な対向訓練による望ましい意思決定境界に向けて

Towards the Desirable Decision Boundary by Moderate-Margin Adversarial Training ( http://arxiv.org/abs/2207.07793v1 )

ライセンス: Link先を確認
Xiaoyu Liang, Yaguan Qian, Jianchang Huang, Xiang Ling, Bin Wang, Chunming Wu, and Wassim Swaileh(参考訳) 敵の攻撃に対する最も効果的な防御方法の1つである敵の訓練は、深い学習モデルの堅牢性を高めるために包括的決定境界を学習する傾向がある。 しかし, 逆行方向のマージンが大きく, 不要な増加により, 逆行訓練は自然例と逆行例との間に大きな交叉を引き起こし, 頑健さと自然な精度のトレードオフのバランスをとらない。 本稿では,ロバスト性と自然な正確性とのトレードオフを改善するための新しい対向訓練手法を提案する。 これは、決定境界の下での自然例のマージンが中程度であることを意味する、中程度の決定境界を学ぶことを目的としている。 我々はこのスキームをModerate-Margin Adversarial Training (MMAT)と呼び、クロスオーバー問題を緩和するためによりきめ細かい逆例を生成する。 また,モデルの学習を指導するために十分に訓練された教師モデルからのロジットも活用した。 最後に、MMATはブラックボックス攻撃とホワイトボックス攻撃の両方において、高い自然な精度と堅牢性を達成する。 例えばSVHNでは、最先端の堅牢性と自然な精度を達成する。

Adversarial training, as one of the most effective defense methods against adversarial attacks, tends to learn an inclusive decision boundary to increase the robustness of deep learning models. However, due to the large and unnecessary increase in the margin along adversarial directions, adversarial training causes heavy cross-over between natural examples and adversarial examples, which is not conducive to balancing the trade-off between robustness and natural accuracy. In this paper, we propose a novel adversarial training scheme to achieve a better trade-off between robustness and natural accuracy. It aims to learn a moderate-inclusive decision boundary, which means that the margins of natural examples under the decision boundary are moderate. We call this scheme Moderate-Margin Adversarial Training (MMAT), which generates finer-grained adversarial examples to mitigate the cross-over problem. We also take advantage of logits from a teacher model that has been well-trained to guide the learning of our model. Finally, MMAT achieves high natural accuracy and robustness under both black-box and white-box attacks. On SVHN, for example, state-of-the-art robustness and natural accuracy are achieved.
翻訳日:2022-07-19 16:12:20 公開日:2022-07-16
# RCRN:スケルトン抽出による実世界キャラクタ画像復元ネットワーク

RCRN: Real-world Character Image Restoration Network via Skeleton Extraction ( http://arxiv.org/abs/2207.07795v1 )

ライセンス: Link先を確認
Daqian Shi, Xiaolei Diao, Hao Tang, Xiaomin Li, Hao Xing, Hao Xu(参考訳) 実世界の画像はしばしば画像劣化によって影響を受けるため、高品質な文字画像データセットの構築は困難である。 現実の文字画像に現在の画像復元法を適用する場合、それ以来制限がある。 (i)文字画像におけるノイズのカテゴリは、一般画像のものとは異なる。 (ii)実世界の文字画像は通常、より複雑な画像劣化、例えば異なる雑音レベルの混合雑音を含む。 これらの問題に対処するために,文字スケルトン情報とスケールアンサンブル特徴抽出を利用して,劣化した文字画像を効果的に復元する実世界の文字復元ネットワーク(RCRN)を提案する。 提案手法は, 骨格抽出器 (SENet) と文字画像復元器 (CiRNet) から構成される。 SENetは文字の構造的一貫性を維持し、複雑なノイズを正規化する。 そして、CiRNetは劣化した文字画像とその骨格からクリーンなイメージを再構築する。 実世界の文字画像復元のためのベンチマークの欠如により,提案手法の有効性を評価するために,実世界の劣化を伴う1,606文字画像を含むデータセットを構築した。 実験の結果,RCRNは最先端の手法よりも定量的に,質的に優れていた。

Constructing high-quality character image datasets is challenging because real-world images are often affected by image degradation. There are limitations when applying current image restoration methods to such real-world character images, since (i) the categories of noise in character images are different from those in general images; (ii) real-world character images usually contain more complex image degradation, e.g., mixed noise at different noise levels. To address these problems, we propose a real-world character restoration network (RCRN) to effectively restore degraded character images, where character skeleton information and scale-ensemble feature extraction are utilized to obtain better restoration performance. The proposed method consists of a skeleton extractor (SENet) and a character image restorer (CiRNet). SENet aims to preserve the structural consistency of the character and normalize complex noise. Then, CiRNet reconstructs clean images from degraded character images and their skeletons. Due to the lack of benchmarks for real-world character image restoration, we constructed a dataset containing 1,606 character images with real-world degradation to evaluate the validity of the proposed method. The experimental results demonstrate that RCRN outperforms state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-07-19 16:12:01 公開日:2022-07-16
# charformer:高精度文字画像検出のためのglyph fusionベースの注意フレームワーク

CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising ( http://arxiv.org/abs/2207.07798v1 )

ライセンス: Link先を確認
Daqian Shi, Xiaolei Diao, Lida Shi, Hao Tang, Yang Chi, Chuntao Li, Hao Xu(参考訳) 劣化画像は一般的に文字画像の一般的なソースに存在し、不満足な文字認識結果をもたらす。 既存の手法では、劣化した文字画像の復元に力を入れている。 しかし,これらの手法は文字認識性能の向上に寄与しないと考えられる。 これは主に、現在の手法がピクセルレベルの情報のみに焦点をあて、グリフのような文字の批判的な特徴を無視しているためである。 本稿では,グリフ融合とアテンション機構に基づく新しい汎用フレームワーク,すなわちCharFormerを導入し,固有のグリフを変更せずに文字イメージを正確に復元する。 既存のフレームワークとは異なり、CharFormerでは、追加情報をキャプチャしてバックボーンを飾るイメージに注入する並列ターゲットタスクを導入している。 さらに,注目に基づくネットワークをグローバルな特徴相互作用に活用し,視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。 CharFormerを複数のデータセット上の最先端のメソッドと比較する。 実験の結果,CharFormerの定量的および定性的優位性を示した。

Degraded images commonly exist in the general sources of character images, leading to unsatisfactory character recognition results. Existing methods have dedicated efforts to restoring degraded character images. However, the denoising results obtained by these methods do not appear to improve character recognition performance. This is mainly because current methods only focus on pixel-level information and ignore critical features of a character, such as its glyph, resulting in character-glyph damage during the denoising process. In this paper, we introduce a novel generic framework based on glyph fusion and attention mechanisms, i.e., CharFormer, for precisely recovering character images without changing their inherent glyphs. Unlike existing frameworks, CharFormer introduces a parallel target task for capturing additional information and injecting it into the image denoising backbone, which will maintain the consistency of character glyphs during character image denoising. Moreover, we utilize attention-based networks for global-local feature interaction, which will help to deal with blind denoising and enhance denoising performance. We compare CharFormer with state-of-the-art methods on multiple datasets. The experimental results show the superiority of CharFormer quantitatively and qualitatively.
翻訳日:2022-07-19 16:11:42 公開日:2022-07-16
# マスク付き空間スペクトルオートエンコーダは優れたハイパースペクトルデフェンダである

Masked Spatial-Spectral Autoencoders Are Excellent Hyperspectral Defenders ( http://arxiv.org/abs/2207.07803v1 )

ライセンス: Link先を確認
Jiahao Qi, Zhiqiang Gong, Xingyue Liu, Kangcheng Bin, Chen Chen, Yongqian Li, Wei Xue, Yu Zhang, and Ping Zhong(参考訳) ディープラーニング手法は、ハイパースペクトル画像(HSI)分析コミュニティの発展に大きく貢献する。 しかし、HSI分析システムは敵攻撃に対して脆弱である。 そこで本稿では,HSI解析システムの堅牢性を高めるために,自己教師付き学習理論に基づくマスク付き空間スペクトルオートエンコーダ(MSSA)を提案する。 まず、スペクトルチャネルに沿ってhsi分析システムの固有ロバスト性を促進するために、マスキングシーケンス注意学習モジュールを実行する。 Then, we develop a graph convolutional network with learnable graph structure to establish global pixel-wise combinations.In this way, the attack effect would be dispersed by all the related pixels among each combination, and a better defense performance is achievable in spatial aspect.Finally, to improve the defense transferability and address the problem of limited labelled samples, MSSA employs spectra reconstruction as a pretext task and fits the datasets in a self-supervised manner.Comprehensive experiments over three benchmarks verify the effectiveness of MSSA in comparison with the state-of-the-art hyperspectral classification methods and representative adversarial defense strategies.

Deep learning methodology contributes a lot to the development of hyperspectral image (HSI) analysis community. However, it also makes HSI analysis systems vulnerable to adversarial attacks. To this end, we propose a masked spatial-spectral autoencoder (MSSA) in this paper under self-supervised learning theory, for enhancing the robustness of HSI analysis systems. First, a masked sequence attention learning module is conducted to promote the inherent robustness of HSI analysis systems along spectral channel. Then, we develop a graph convolutional network with learnable graph structure to establish global pixel-wise combinations.In this way, the attack effect would be dispersed by all the related pixels among each combination, and a better defense performance is achievable in spatial aspect.Finally, to improve the defense transferability and address the problem of limited labelled samples, MSSA employs spectra reconstruction as a pretext task and fits the datasets in a self-supervised manner.Comprehensive experiments over three benchmarks verify the effectiveness of MSSA in comparison with the state-of-the-art hyperspectral classification methods and representative adversarial defense strategies.
翻訳日:2022-07-19 16:11:17 公開日:2022-07-16
# 弱教師付き物体定位のためのバグング地域分類活性化マップ

Bagging Regional Classification Activation Maps for Weakly Supervised Object Localization ( http://arxiv.org/abs/2207.07818v1 )

ライセンス: Link先を確認
Lei Zhu, Qian Chen, Lujia Jin, Yunfei You, and Yanye Lu(参考訳) 分類アクティベーションマップ (CAM) は, 画素ワイドなローカライゼーションマップを生成するために分類構造を利用しており, 弱教師付きオブジェクトローカライゼーション (WSOL) の重要なメカニズムである。 しかし、CAMは画像レベルの特徴に基づいて訓練された分類器を直接使用して対象を特定する。 したがって、この分類器に画素レベルの特徴を供給すると、識別位置のみが活性化される。 そこで本研究では,BagCAMと呼ばれるプラグイン・アンド・プレイ機構を,ベースライン構造を洗練・再学習することなく,局所化タスクのためのよく訓練された分類器をよりよく計画する。 提案する地域ローカライザ生成 (rlg) 戦略を用いて, 地域ローカライザの集合を定義し, 十分に訓練された分類器から導出する。 これらの地域ローカライザは、局所化タスクの領域的対象因子のみを識別する基礎学習者と見なすことができ、その結果は我々のBagCAMsによって効果的に重み付けされ、最終ローカライズマップを形成することができる。 実験により,提案したBagCAMを用いることで,ベースラインWSOL法の性能が大幅に向上し,3つのWSOLベンチマークの最先端性能が得られることが示された。 コードはhttps://github.com/zh460045050/bagcamsでリリースされる。

Classification activation map (CAM), utilizing the classification structure to generate pixel-wise localization maps, is a crucial mechanism for weakly supervised object localization (WSOL). However, CAM directly uses the classifier trained on image-level features to locate objects, making it prefers to discern global discriminative factors rather than regional object cues. Thus only the discriminative locations are activated when feeding pixel-level features into this classifier. To solve this issue, this paper elaborates a plug-and-play mechanism called BagCAMs to better project a well-trained classifier for the localization task without refining or re-training the baseline structure. Our BagCAMs adopts a proposed regional localizer generation (RLG) strategy to define a set of regional localizers and then derive them from a well-trained classifier. These regional localizers can be viewed as the base learner that only discerns region-wise object factors for localization tasks, and their results can be effectively weighted by our BagCAMs to form the final localization map. Experiments indicate that adopting our proposed BagCAMs can improve the performance of baseline WSOL methods to a great extent and obtains state-of-the-art performance on three WSOL benchmarks. Code are released at https://github.com/zh460045050/BagCAMs.
翻訳日:2022-07-19 16:11:02 公開日:2022-07-16
# コンパクト表現とアライメント表現の学習によるクロスドメイン・クロスセット・マイノショット学習

Cross-Domain Cross-Set Few-Shot Learning via Learning Compact and Aligned Representations ( http://arxiv.org/abs/2207.07826v1 )

ライセンス: Link先を確認
Wentao Chen, Zhang Zhang, Wei Wang, Liang Wang, Zilei Wang, Tieniu Tan(参考訳) FSL(Few-shot Learning)は,ベースデータセットからの事前知識を活用することで,サポートサンプルのごく一部で,新しいクエリを認識することを目的とする。 本稿では,fslにおけるドメインシフト問題について考察し,サポートセットとクエリセット間のドメインギャップに対処することを目的としている。 ベースクラスと新規クラス間のドメインシフトを考慮した従来のクロスドメインFSLワーク(CD-FSL)とは異なり、新しい問題であるクロスドメインクロスセットFSL(CDSC-FSL)は、新しいドメインに適応するだけでなく、新規クラス内の異なるドメイン間の一貫性も必要とする。 この目的のために我々は,ドメインシフトと少数ショット学習を同時に扱うために,原型的コンパクトかつクロスドメイン整列表現を学習する,新しいアプローチ,すなわちstabPAを提案する。 我々は、DomainNetとOffice-Homeのデータセットから構築された2つのCDCS-FSLベンチマークに対するアプローチを評価した。 注目すべきは、我々のアプローチは、複数の精巧なベースラインを大きなマージンで上回り、例えば、DomainNetの平均で5ショットの精度を6.0ポイント向上させる。 コードはhttps://github.com/WentaoChen0813/CDCS-FSLで公開されている。

Few-shot learning (FSL) aims to recognize novel queries with only a few support samples through leveraging prior knowledge from a base dataset. In this paper, we consider the domain shift problem in FSL and aim to address the domain gap between the support set and the query set. Different from previous cross-domain FSL work (CD-FSL) that considers the domain shift between base and novel classes, the new problem, termed cross-domain cross-set FSL (CDSC-FSL), requires few-shot learners not only to adapt to the new domain, but also to be consistent between different domains within each novel class. To this end, we propose a novel approach, namely stabPA, to learn prototypical compact and cross-domain aligned representations, so that the domain shift and few-shot learning can be addressed simultaneously. We evaluate our approach on two new CDCS-FSL benchmarks built from the DomainNet and Office-Home datasets respectively. Remarkably, our approach outperforms multiple elaborated baselines by a large margin, e.g., improving 5-shot accuracy by 6.0 points on average on DomainNet. Code is available at https://github.com/WentaoChen0813/CDCS-FSL
翻訳日:2022-07-19 16:10:36 公開日:2022-07-16
# 深層学習とWiFiヒューマンセンシングへの応用:ベンチマークとチュートリアル

Deep Learning and Its Applications to WiFi Human Sensing: A Benchmark and A Tutorial ( http://arxiv.org/abs/2207.07859v1 )

ライセンス: Link先を確認
Jianfei Yang, Xinyan Chen, Dazhuo Wang, Han Zou, Chris Xiaoxuan Lu, Sumei Sun, Lihua Xie(参考訳) 近年、WiFiセンサーは急速に進化している。 伝播モデルや深層学習の手法を応用して、WiFiベースの人間行動認識やジェスチャー認識など、多くの挑戦的な応用が実現されている。 しかし、視覚認識や自然言語処理のディープラーニングとは対照的に、十分に包括的な公開ベンチマークは存在しない。 本稿では, 深層学習によるWiFiセンシングの最近の進歩に注目し, そして, 各種深層学習モデルのWiFiセンシングへの適用性を検討するためのベンチマークSenseFiを提案する。 これらの高度なモデルは、異なるセンシングタスク、wifiプラットフォーム、認識精度、モデルサイズ、計算複雑性、特徴伝達可能性、教師なし学習の適応性の観点から比較される。 また、CSIハードウェアプラットフォームからセンシングアルゴリズムに至るまで、ディープラーニングベースのWiFiセンシングのチュートリアルと見なされている。 広範な実験によって、実世界のアプリケーションのための深いモデル設計、学習戦略スキル、トレーニングテクニックの経験が得られます。 われわれの知る限りでは、WiFiセンシング研究におけるディープラーニングのためのオープンソースのライブラリの最初のベンチマークとなる。 ベンチマークコードはhttps://github.com/CHENXINYAN-sg/WiFi-CSI-Sensing-Benchmarkで公開されている。

WiFi sensing has been evolving rapidly in recent years. Empowered by propagation models and deep learning methods, many challenging applications are realized such as WiFi-based human activity recognition and gesture recognition. However, in contrast to deep learning for visual recognition and natural language processing, no sufficiently comprehensive public benchmark exists. In this paper, we highlight the recent progress on deep learning enabled WiFi sensing, and then propose a benchmark, SenseFi, to study the effectiveness of various deep learning models for WiFi sensing. These advanced models are compared in terms of distinct sensing tasks, WiFi platforms, recognition accuracy, model size, computational complexity, feature transferability, and adaptability of unsupervised learning. It is also regarded as a tutorial for deep learning based WiFi sensing, starting from CSI hardware platform to sensing algorithms. The extensive experiments provide us with experiences in deep model design, learning strategy skills and training techniques for real-world applications. To the best of our knowledge, this is the first benchmark with an open-source library for deep learning in WiFi sensing research. The benchmark codes are available at https://github.com/CHENXINYAN-sg/WiFi-CSI-Sensing-Benchmark.
翻訳日:2022-07-19 15:44:30 公開日:2022-07-16
# EEG2Vec: 変分オートエンコーダによる影響のある脳波表現の学習

EEG2Vec: Learning Affective EEG Representations via Variational Autoencoders ( http://arxiv.org/abs/2207.08002v1 )

ライセンス: Link先を確認
David Bethge, Philipp Hallgarten, Tobias Grosse-Puppendahl, Mohamed Kari, Lewis L. Chuang, Ozan \"Ozdenizci, Albrecht Schmidt(参考訳) 計算メモリリソースが限られているシナリオで使用できる、人間の感情状態のスパース表現形式の必要性が高まっている。 潜在ベクトル空間における感情刺激に応答して、神経データ表現が感情状態の予測と、参加者および/または感情特異的な合成脳波データを生成するのに役立つかどうかを検討する。 脳波データから生成的識別的表現を学習するための条件付き変分オートエンコーダベースのフレームワークEEG2Vecを提案する。 情動脳波記録データセットを用いた実験の結果,本モデルは教師なし脳波モデリングに適しており,潜在表現に基づく3つの異なる感情カテゴリー(正・中・負)の分類は68.49%のロバスト性能を達成し,生成された合成脳波配列は実際の脳波データ入力に類似し,特に低周波信号成分を再構成する。 本研究は,人工的(ラベル付き)トレーニングデータの生成や手作業による特徴抽出の緩和など,感情的脳波表現が有用な領域を開拓し,メモリ制約のあるエッジコンピューティングアプリケーションに対して効率性を提供する。

There is a growing need for sparse representational formats of human affective states that can be utilized in scenarios with limited computational memory resources. We explore whether representing neural data, in response to emotional stimuli, in a latent vector space can serve to both predict emotional states as well as generate synthetic EEG data that are participant- and/or emotion-specific. We propose a conditional variational autoencoder based framework, EEG2Vec, to learn generative-discriminative representations from EEG data. Experimental results on affective EEG recording datasets demonstrate that our model is suitable for unsupervised EEG modeling, classification of three distinct emotion categories (positive, neutral, negative) based on the latent representation achieves a robust performance of 68.49%, and generated synthetic EEG sequences resemble real EEG data inputs to particularly reconstruct low-frequency signal components. Our work advances areas where affective EEG representations can be useful in e.g., generating artificial (labeled) training data or alleviating manual feature extraction, and provide efficiency for memory constrained edge computing applications.
翻訳日:2022-07-19 15:43:44 公開日:2022-07-16
# NeFSAC: ニューラルネットワークによる最小サンプル

NeFSAC: Neurally Filtered Minimal Samples ( http://arxiv.org/abs/2207.07872v1 )

ライセンス: Link先を確認
Luca Cavalli, Marc Pollefeys, Daniel Barath(参考訳) RANSAC以来、その正確性と実行時間の両方を改善するために多くの研究が続けられてきた。 それでも、しばしば高価なモデル推定と品質計算が行われる前に、無効な最小限のサンプルを早期に認識することを目的とした方法はごくわずかである。 この目的のために,動作不整合かつ条件が不整な最小サンプルをニューラルネットワークでフィルタリングするアルゴリズムNeFSACを提案する。 画像対応の画素座標のみに基づいて、nefsacを訓練して、正確な相対的なポーズにつながる最小サンプルの確率を予測する。 我々のニューラルフィルタリングモデルは、不安定なポーズにつながるサンプルの典型的な動きパターンを学習し、起こりうる動きの規則性は、よく調和し、おそらく正しいサンプルを好む。 新しい軽量アーキテクチャはポーズ推定のための最小サンプルの主不変量を実装し、新しいトレーニングスキームは極端なクラス不均衡の問題に対処する。 NeFSACは既存のRANSACベースのパイプラインに接続できる。 私たちはそれをusacに統合し、極端な列車テストのドメイン間隙の下でも一貫して強力なスピードアップを提供することを示した。 我々は、公開されている3つの実世界のデータセットから100万枚以上のイメージペアでNeFSACをテストし、それが1桁のスピードアップにつながることを発見した。 ソースコードはhttps://github.com/cavalli1234/NeFSACで入手できる。

Since RANSAC, a great deal of research has been devoted to improving both its accuracy and run-time. Still, only a few methods aim at recognizing invalid minimal samples early, before the often expensive model estimation and quality calculation are done. To this end, we propose NeFSAC, an efficient algorithm for neural filtering of motion-inconsistent and poorly-conditioned minimal samples. We train NeFSAC to predict the probability of a minimal sample leading to an accurate relative pose, only based on the pixel coordinates of the image correspondences. Our neural filtering model learns typical motion patterns of samples which lead to unstable poses, and regularities in the possible motions to favour well-conditioned and likely-correct samples. The novel lightweight architecture implements the main invariants of minimal samples for pose estimation, and a novel training scheme addresses the problem of extreme class imbalance. NeFSAC can be plugged into any existing RANSAC-based pipeline. We integrate it into USAC and show that it consistently provides strong speed-ups even under extreme train-test domain gaps - for example, the model trained for the autonomous driving scenario works on PhotoTourism too. We tested NeFSAC on more than 100k image pairs from three publicly available real-world datasets and found that it leads to one order of magnitude speed-up, while often finding more accurate results than USAC alone. The source code is available at https://github.com/cavalli1234/NeFSAC.
翻訳日:2022-07-19 15:21:46 公開日:2022-07-16
# SSMTL++:ビデオ異常検出のための自己改善型マルチタスク学習の再検討

SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video Anomaly Detection ( http://arxiv.org/abs/2207.08003v1 )

ライセンス: Link先を確認
Antonio Barbalau, Radu Tudor Ionescu, Mariana-Iuliana Georgescu, Jacob Dueholm, Bharathkumar Ramachandra, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 近年,ビデオ異常検出のための自己教師型マルチタスク学習(SSMTL)フレームワークが文献で紹介されている。 精度の高い結果から、この手法は多くの研究者の注目を集めた。 本研究では,自己教師付きマルチタスク学習フレームワークを再検討し,元のメソッドの更新を複数提案する。 まず,光流や背景サブトラクションを用いた高動き領域の検出などにより,現在使用中のyolov3は準最適,例えば動作中の物体や未知のクラスの物体は検出されないため,様々な検出方法を検討した。 第2に,視覚トランスフォーマーの成功に触発されたマルチヘッド自己照準モジュールの導入により,3次元畳み込みバックボーンの近代化を行う。 そこで, 2D と 3D の畳み込み型視覚変換器 (CvT) ブロックを導入する。 第三に, モデルをさらに改善しようとする試みとして, 知識蒸留によるセグメンテーションマップの予測, ジグソーパズルの解法, 知識蒸留によるボディポーズの推定, マスク領域の予測(インペインティング), 擬似異常による逆学習など, 自己教師あり学習タスクについて検討した。 導入した変更のパフォーマンスへの影響を評価する実験を行う。 SSMTL++v1 と SSMTL++v2 と呼ばれるフレームワークのより有望な構成を見つけると、予備的な実験をより多くのデータセットに拡張し、パフォーマンス向上がすべてのデータセットで一貫していることを示します。 ほとんどの場合、アベニュー、上海テック、UBnormalの成果は最先端のパフォーマンスを新たなレベルに引き上げます。

A self-supervised multi-task learning (SSMTL) framework for video anomaly detection was recently introduced in literature. Due to its highly accurate results, the method attracted the attention of many researchers. In this work, we revisit the self-supervised multi-task learning framework, proposing several updates to the original method. First, we study various detection methods, e.g. based on detecting high-motion regions using optical flow or background subtraction, since we believe the currently used pre-trained YOLOv3 is suboptimal, e.g. objects in motion or objects from unknown classes are never detected. Second, we modernize the 3D convolutional backbone by introducing multi-head self-attention modules, inspired by the recent success of vision transformers. As such, we alternatively introduce both 2D and 3D convolutional vision transformer (CvT) blocks. Third, in our attempt to further improve the model, we study additional self-supervised learning tasks, such as predicting segmentation maps through knowledge distillation, solving jigsaw puzzles, estimating body pose through knowledge distillation, predicting masked regions (inpainting), and adversarial learning with pseudo-anomalies. We conduct experiments to assess the performance impact of the introduced changes. Upon finding more promising configurations of the framework, dubbed SSMTL++v1 and SSMTL++v2, we extend our preliminary experiments to more data sets, demonstrating that our performance gains are consistent across all data sets. In most cases, our results on Avenue, ShanghaiTech and UBnormal raise the state-of-the-art performance to a new level.
翻訳日:2022-07-19 15:21:22 公開日:2022-07-16
# Echo状態ネットワークにおけるハイパーパラメータチューニング

Hyperparameter Tuning in Echo State Networks ( http://arxiv.org/abs/2207.07976v1 )

ライセンス: Link先を確認
Filip Matzner(参考訳) エコー状態ネットワークは、大きなランダムに生成された貯水池と、線形回帰によって訓練された少数の読み取り接続を持つ、リカレントニューラルネットワークの一種を表している。 貯水池の最も一般的なトポロジーは、最大数千のニューロンからなる完全に接続されたネットワークである。 長年にわたり、研究者たちは円形のネットワークや接続の線形経路など、様々な代替の貯水池トポロジーを導入した。 異なるトポロジや他のアーキテクチャ変更のパフォーマンスを比較する際には、それぞれのトポロジの特性が著しく異なる可能性があるため、それぞれのトポロジのハイパーパラメータを個別に調整する必要がある。 ハイパーパラメータチューニングは通常、事前定義された組み合わせのスパースグリッドから最適なパラメータセットを選択することで手動で実行される。 残念ながら、このアプローチは、特にセンシティブなトポロジにおいて、低パフォーマンスな構成をもたらす可能性がある。 本稿では,CMA-ES(Covariance Matrix Adaptation Evolution Strategy)に基づくハイパーパラメータチューニング手法を提案する。 この手法を用いて,複数のトポロジーの比較結果を桁違いに改善し,トポロジーだけでは適切に調整されたハイパーパラメーターほど重要な役割を果たさないことを示唆した。

Echo State Networks represent a type of recurrent neural network with a large randomly generated reservoir and a small number of readout connections trained via linear regression. The most common topology of the reservoir is a fully connected network of up to thousands of neurons. Over the years, researchers have introduced a variety of alternative reservoir topologies, such as a circular network or a linear path of connections. When comparing the performance of different topologies or other architectural changes, it is necessary to tune the hyperparameters for each of the topologies separately since their properties may significantly differ. The hyperparameter tuning is usually carried out manually by selecting the best performing set of parameters from a sparse grid of predefined combinations. Unfortunately, this approach may lead to underperforming configurations, especially for sensitive topologies. We propose an alternative approach of hyperparameter tuning based on the Covariance Matrix Adaptation Evolution Strategy (CMA-ES). Using this approach, we have improved multiple topology comparison results by orders of magnitude suggesting that topology alone does not play as important role as properly tuned hyperparameters.
翻訳日:2022-07-19 15:17:50 公開日:2022-07-16
# 作曲学習行動学習のためのメタレファレンシャルゲーム

Meta-Referential Games to Learn Compositional Learning Behaviours ( http://arxiv.org/abs/2207.08012v1 )

ライセンス: Link先を確認
Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker(参考訳) 人間は構成性を利用して、過去の経験から現実的または現実的な新しい経験へと一般化する。 そのため、私たちは経験を基本的な原子部品に分けています。 これらの原子部品を新しい方法で組み換えることで、新しい体験を想像し、関与する能力を支援することができます。 私たちはこれを、作曲を一般化する能力と捉えています。 また、この能力を構成学習行動(clb)として利用する行動についても言及する。 CLBの学習における中心的な問題は、結合問題(BP)の解決である(まず、複数の刺激の観察から支持刺激成分を分離し、1つのエピソード的な経験で組み合わせることを学ぶ)。 人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。 そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。 我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)というメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマークを構築し,シンボリックビヘイビアベンチマーク(S2B)と名付ける。 しかし本論文では,単にCLBではなく,より象徴的な動作をテストすることができるが,本論文では,CLBをテストする単一エージェント言語基盤タスクにのみ焦点をあてる。 我々は最先端のrlエージェントを用いて、そのベースラインとなる結果を提供し、提案するベンチマークが研究コミュニティがより有能な人工エージェントを開発するための魅力的な課題であることを示す。

Human beings use compositionality to generalise from past experiences to actual or fictive, novel experiences. To do so, we separate our experiences into fundamental atomic components. These atomic components can then be recombined in novel ways to support our ability to imagine and engage with novel experiences. We frame this as the ability to learn to generalise compositionally. And, we will refer to behaviours making use of this ability as compositional learning behaviours (CLBs). A central problem to learning CLBs is the resolution of a binding problem (BP) (by learning to, firstly, segregate the supportive stimulus components from the observation of multiple stimuli, and then, combine them in a single episodic experience). While it is another feat of intelligence that human beings perform with ease, it is not the case for state-of-the-art artificial agents. Thus, in order to build artificial agents able to collaborate with human beings, we propose to develop a novel benchmark to investigate agents' abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We take inspiration from the language emergence and grounding framework of referential games and propose a meta-learning extension of referential games, entitled Meta-Referential Games, and use this framework to build our benchmark, that we name Symbolic Behaviour Benchmark (S2B). While it has the potential to test for more symbolic behaviours, rather than solely CLBs, in the present paper, though, we solely focus on the single-agent language grounding task that tests for CLBs. We provide baseline results for it, using state-of-the-art RL agents, and show that our proposed benchmark is a compelling challenge that we hope will spur the research community towards developing more capable artificial agents.
翻訳日:2022-07-19 15:08:35 公開日:2022-07-16
# ChronosPerseus: POSMDPの重要サンプリングによるランダム化ポイントベースの値イテレーション

ChronosPerseus: Randomized Point-based Value Iteration with Importance Sampling for POSMDPs ( http://arxiv.org/abs/2207.07825v1 )

ライセンス: Link先を確認
Richard Kohar, Fran\c{c}ois Rivest and Alain Gosselin(参考訳) 強化学習では、エージェントはマルコフ決定プロセス(MDP)でモデル化された環境をうまく利用した。 しかし、多くの問題領域では、エージェントはその後の決定までうるさい観察やランダムな時間に悩まされることがある。 部分的に観測可能なマルコフ決定過程(POMDP)はノイズの観測に対処しているが、未知の時間的側面には対応していない。 もちろん、時間を見分けることはできるが、これはベルマンの次元の呪いに繋がる。 エージェントの意思決定に連続的な sojourn-time 分布を組み込むために, 半可観測半マルコフ決定過程 (posmdps) が有効であることを提案する。 我々は,POMDP に使用されるランダム化点ベース値反復 (PBVI) アルゴリズムを,連続的なソジュール時間分布を取り入れ,重要サンプリングを用いて拡張し,解の複雑性を低減する。 我々は、この新しいPBVIアルゴリズムを、POSMDPの重要サンプリング -- \textsc{ChronosPerseus} と呼ぶ。 さらに、この情報をPOMSDPのステート・ソジュール時間に移動させることで、時間状態情報を必要とする圧縮された複雑なPOMDPを可能にする。 2つめの洞察は、サンプリングされた時間のセットを保持して、その可能性によって重み付けすることで、単一のバックアップで使用できるということだ。 解法はまた、エピソジック問題や非エピソジック問題にも作用する。 本論文は,エピソジックバス問題と非エピソジック保守問題という2つの例で結論づける。

In reinforcement learning, agents have successfully used environments modeled with Markov decision processes (MDPs). However, in many problem domains, an agent may suffer from noisy observations or random times until its subsequent decision. While partially observable Markov decision processes (POMDPs) have dealt with noisy observations, they have yet to deal with the unknown time aspect. Of course, one could discretize the time, but this leads to Bellman's Curse of Dimensionality. To incorporate continuous sojourn-time distributions in the agent's decision making, we propose that partially observable semi-Markov decision processes (POSMDPs) can be helpful in this regard. We extend \citet{Spaan2005a} randomized point-based value iteration (PBVI) \textsc{Perseus} algorithm used for POMDP to POSMDP by incorporating continuous sojourn time distributions and using importance sampling to reduce the solver complexity. We call this new PBVI algorithm with importance sampling for POSMDPs -- \textsc{ChronosPerseus}. This further allows for compressed complex POMDPs requiring temporal state information by moving this information into state sojourn time of a POMSDP. The second insight is that keeping a set of sampled times and weighting it by its likelihood can be used in a single backup; this helps further reduce the algorithm complexity. The solver also works on episodic and non-episodic problems. We conclude our paper with two examples, an episodic bus problem and a non-episodic maintenance problem.
翻訳日:2022-07-19 15:05:14 公開日:2022-07-16
# マルチラベル分類における生涯学習

Class-Incremental Lifelong Learning in Multi-Label Classification ( http://arxiv.org/abs/2207.07840v1 )

ライセンス: Link先を確認
Kaile Du, Linyan Li, Fan Lyu, Fuyuan Hu, Zhenping Xia, Fenglei Xu(参考訳) 既存のクラスインクリメンタルな生涯学習研究は、データのみがシングルラベルであり、マルチラベルデータへの適応を制限する。 本稿では,シーケンシャルなマルチラベル分類データストリームにオンラインクラスインクリメンタル分類器を構築するlml分類について検討する。 LML分類における部分ラベルを用いたデータのトレーニングは、古いクラスにおいてより深刻な破滅的なフォーミングをもたらす可能性がある。 そこで本研究では,逐次部分ラベルタスク間の拡張相関行列(acm)を用いた拡張グラフ畳み込みネットワーク(agcn)を提案する。 2つのベンチマークの結果から,LML分類に有効であることを示す。

Existing class-incremental lifelong learning studies only the data is with single-label, which limits its adaptation to multi-label data. This paper studies Lifelong Multi-Label (LML) classification, which builds an online class-incremental classifier in a sequential multi-label classification data stream. Training on the data with Partial Labels in LML classification may result in more serious Catastrophic Forgetting in old classes. To solve the problem, the study proposes an Augmented Graph Convolutional Network (AGCN) with a built Augmented Correlation Matrix (ACM) across sequential partial-label tasks. The results of two benchmarks show that the method is effective for LML classification and reducing forgetting.
翻訳日:2022-07-19 15:04:47 公開日:2022-07-16
# 離散幾何を用いたグラフニューラルネットワークトレーニングのためのリウィーリングネットワーク

Rewiring Networks for Graph Neural Network Training Using Discrete Geometry ( http://arxiv.org/abs/2207.08026v1 )

ライセンス: Link先を確認
Jakub Bober, Anthea Monod, Emil Saucan, and Kevin N. Webster(参考訳) 情報オーバースカッシングは、ネットワーク上の遠いノード間での非効率な情報伝達現象である。 ノードの受容場が指数関数的に増加するにつれて、グラフニューラルネットワーク(GNN)のトレーニングに大きな影響を与えることが知られている重要な問題である。 この問題を緩和するため、再配線と呼ばれる前処理手順が入力ネットワークに適用されることが多い。 本稿では,ネットワーク上の情報の流れをモデル化し,それらを再構成するために,古典幾何学的な曲率の概念の離散アナログを用いて検討する。 これらの古典的概念は、様々な実世界のネットワークデータセット上でのGNNトレーニング精度において、最先端の性能を達成することを示す。 さらに、現在の最先端と比較して、これらの古典的概念は計算実行時の数桁のアドバンテージを示している。

Information over-squashing is a phenomenon of inefficient information propagation between distant nodes on networks. It is an important problem that is known to significantly impact the training of graph neural networks (GNNs), as the receptive field of a node grows exponentially. To mitigate this problem, a preprocessing procedure known as rewiring is often applied to the input network. In this paper, we investigate the use of discrete analogues of classical geometric notions of curvature to model information flow on networks and rewire them. We show that these classical notions achieve state-of-the-art performance in GNN training accuracy on a variety of real-world network datasets. Moreover, compared to the current state-of-the-art, these classical notions exhibit a clear advantage in computational runtime by several orders of magnitude.
翻訳日:2022-07-19 15:01:33 公開日:2022-07-16
# 形態知覚と一般化を用いたニューラルネットワークの近似能力

Approximation Capabilities of Neural Networks using Morphological Perceptrons and Generalizations ( http://arxiv.org/abs/2207.07832v1 )

ライセンス: Link先を確認
William Chang, Hassan Hamad, Keith M. Chugg(参考訳) 標準人工ニューラルネットワーク(ANN)は、メモリレス非線形アクティベーションを備えた総積または乗算累積ノード演算を使用する。 これらのニューラルネットワークは普遍関数近似能力を持つことが知られている。 従来提案された形態素パーセプトロンは、和積、ノード処理の代わりにmax-sumを使用し、回路実装に有望な特性を持つ。 本稿では,これらの最大 ANN は普遍近似能力を持たないことを示す。 さらに, モルフォロジー ANN の符号-max-sum と最大星-sum の一般化について検討し, これらの変種が普遍近似能力を持たないことを示す。 これらのバリエーションを、乗算を避けつつ普遍近似能力を示すlog-number system (lns) 実装と比較する。

Standard artificial neural networks (ANNs) use sum-product or multiply-accumulate node operations with a memoryless nonlinear activation. These neural networks are known to have universal function approximation capabilities. Previously proposed morphological perceptrons use max-sum, in place of sum-product, node processing and have promising properties for circuit implementations. In this paper we show that these max-sum ANNs do not have universal approximation capabilities. Furthermore, we consider proposed signed-max-sum and max-star-sum generalizations of morphological ANNs and show that these variants also do not have universal approximation capabilities. We contrast these variations to log-number system (LNS) implementations which also avoid multiplications, but do exhibit universal approximation capabilities.
翻訳日:2022-07-19 14:35:33 公開日:2022-07-16
# 粗教師付きスムースu-netによる超微細分解能空間からの植生モニタリング

Monitoring Vegetation From Space at Extremely Fine Resolutions via Coarsely-Supervised Smooth U-Net ( http://arxiv.org/abs/2207.08022v1 )

ライセンス: Link先を確認
Joshua Fan, Di Chen, Jiaming Wen, Ying Sun, Carla P. Gomes(参考訳) 植生の生産性を極めて微細な解像度で監視することは、作物のストレスの検出や食料不足の早期警告など、実世界の農業用途に有用である。 太陽誘起クロロフィル蛍光(SIF)は、宇宙から植物の生産性を直接測定する有望な方法である。 しかし、衛星SIF観測は粗い空間分解能でしか利用できないため、個々の作物や農場の状況を監視することは不可能である。 トレーニング時には、粗い解像度(3km)でsifラベルしか持たないが、より細かい空間分解能でsifを予測したい(例えば、30m、100倍の増加)。 追加の詳細な入力機能もありますが、これらの機能とsifの関係は不明です。 そこで我々は,この粗い監視設定のための新しい手法であるCS-SUNet(Coarsely-Supervised Smooth U-Net)を提案する。 CS-SUNetは、深層畳み込みネットワークの表現力と、オーバーフィットを防ぐために不可欠な事前知識(スムーズな損失など)に基づく新しい正規化手法を組み合わせる。 実験の結果,CS-SUNetは既存手法よりも高精度にSIFの微細な変化を解消できることがわかった。

Monitoring vegetation productivity at extremely fine resolutions is valuable for real-world agricultural applications, such as detecting crop stress and providing early warning of food insecurity. Solar-Induced Chlorophyll Fluorescence (SIF) provides a promising way to directly measure plant productivity from space. However, satellite SIF observations are only available at a coarse spatial resolution, making it impossible to monitor how individual crop types or farms are doing. This poses a challenging coarsely-supervised regression (or downscaling) task; at training time, we only have SIF labels at a coarse resolution (3km), but we want to predict SIF at much finer spatial resolutions (e.g. 30m, a 100x increase). We also have additional fine-resolution input features, but the relationship between these features and SIF is unknown. To address this, we propose Coarsely-Supervised Smooth U-Net (CS-SUNet), a novel method for this coarse supervision setting. CS-SUNet combines the expressive power of deep convolutional networks with novel regularization methods based on prior knowledge (such as a smoothness loss) that are crucial for preventing overfitting. Experiments show that CS-SUNet resolves fine-grained variations in SIF more accurately than existing methods.
翻訳日:2022-07-19 14:34:09 公開日:2022-07-16
# 畳み込みニューラルネットワークにおける自己アテンションのための抽選チケット仮説

The Lottery Ticket Hypothesis for Self-attention in Convolutional Neural Network ( http://arxiv.org/abs/2207.07858v1 )

ライセンス: Link先を確認
Zhongzhan Huang, Senwei Liang, Mingfu Liang, Wei He, Haizhao Yang and Liang Lin(参考訳) 近年,深層畳み込みニューラルネットワーク(CNN)の内部情報を活用することにより,モデル一般化の促進を図るために,多数のSAMモジュールが提案されている。 一般に、従来の研究はSAMをCNNバックボーンのブロック全体と個別に接続するため、SAMをプラグインする場所を無視しており、インクリメンタルな計算コストとネットワーク深さの増大を伴うパラメータの数に繋がる。 しかし、経験的にいくつかの直観に反する現象を見つけ、検証します。 (a)samsをすべてのブロックに接続することは、必ずしも最大のパフォーマンス向上をもたらすとは限らないし、部分的なブロックに接続する方が、さらによいでしょう。 b) CNNにSAMを追加すると、必ずしもパフォーマンスが向上するわけではなく、代わりに元のCNNバックボーンのパフォーマンスに悪影響を及ぼす可能性がある。 そこで,本研究では,自己着脱ネットワークに対する抽選チケット仮説を定式化・実証する。 完全自己着脱ネットワークは, (1) 推論を加速できる疎自己着接続を持つサブネットワークを含み, (2) 追加パラメータ増分を削減し,(3) 精度を維持する。 実証的な証拠に加えて、この仮説は理論的な証拠からも支持されている。 さらに,上記の3つの条件を満たす接続方式として,簡易かつ効果的な強化学習に基づくチケット検索手法を提案する。 広く利用されているベンチマークデータセットと一般的な自己注意ネットワークに関する大規模な実験により,本手法の有効性が示された。 さらに,検索したチケットは,例えば,群集数やセグメンテーションなどの視覚的タスクに移動可能であることを示す。

Recently many plug-and-play self-attention modules (SAMs) are proposed to enhance the model generalization by exploiting the internal information of deep convolutional neural networks (CNNs). In general, previous works ignore where to plug in the SAMs since they connect the SAMs individually with each block of the entire CNN backbone for granted, leading to incremental computational cost and the number of parameters with the growth of network depth. However, we empirically find and verify some counterintuitive phenomena that: (a) Connecting the SAMs to all the blocks may not always bring the largest performance boost, and connecting to partial blocks would be even better; (b) Adding the SAMs to a CNN may not always bring a performance boost, and instead it may even harm the performance of the original CNN backbone. Therefore, we articulate and demonstrate the Lottery Ticket Hypothesis for Self-attention Networks: a full self-attention network contains a subnetwork with sparse self-attention connections that can (1) accelerate inference, (2) reduce extra parameter increment, and (3) maintain accuracy. In addition to the empirical evidence, this hypothesis is also supported by our theoretical evidence. Furthermore, we propose a simple yet effective reinforcement-learning-based method to search the ticket, i.e., the connection scheme that satisfies the three above-mentioned conditions. Extensive experiments on widely-used benchmark datasets and popular self-attention networks show the effectiveness of our method. Besides, our experiments illustrate that our searched ticket has the capacity of transferring to some vision tasks, e.g., crowd counting and segmentation.
翻訳日:2022-07-19 14:13:18 公開日:2022-07-16