このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220624となっている論文です。

PDF登録状況(公開日: 20220624)

TitleAuthorsAbstract論文公表日・翻訳日
# RISを用いたマルチユーザMISO無線通信のチャネル推定

Channel Estimation for RIS-Empowered Multi-User MISO Wireless Communications ( http://arxiv.org/abs/2008.01459v2 )

ライセンス: Link先を確認
Li Wei, Chongwen Huang, George C. Alexandropoulos, Chau Yuen, Zhaoyang Zhang, and M\'erouane Debbah(参考訳) Reconfigurable Intelligent Surfaces (RIS) は、高速かつ低消費電力な構成のため、将来の無線ネットワークにおけるエネルギー効率の高いソリューションとして近年検討されている。 RISベースのシステムにおける正確なチャネル推定と低オーバヘッドチャネル推定は、通常多くのRISユニット要素とその固有のハードウェア制約のために最も重要な課題の1つである。 本稿では,RISを利用したマルチユーザマルチインプット・シングル・アウトプット(MISO)アップリンク通信システムのアップリンクに着目し,並列係数分解に基づくチャネル推定フレームワークを提案する。 本稿では,基地局とRIS間のチャネルと,RISとユーザ間のチャネルに対する2つの反復推定アルゴリズムを提案する。 1つは交互最小二乗(ALS)に基づいており、もう1つは推定ベクトルから2つの未知チャネルを反復的に再構築するベクトル近似メッセージを使用する。 理論的にALSに基づくアルゴリズムの性能を評価するため,CRB (Cram\'er-Rao Bound) を導出した。 また、推定チャネルと基地局の異なるプリコーディング方式を用いて、ダウンリンク達成可能な和率計算についても論じる。 シミュレーションの結果,我々のアルゴリズムはベンチマーク手法より優れており,ALS手法がCRBを実現することが示された。 また,提案手法の有効性とロバスト性を検証するため,推定チャネルを用いた合計率が常に様々な設定下での完全チャネルに到達できることが実証された。

Reconfigurable Intelligent Surfaces (RISs) have been recently considered as an energy-efficient solution for future wireless networks due to their fast and low-power configuration, which has increased potential in enabling massive connectivity and low-latency communications. Accurate and low-overhead channel estimation in RIS-based systems is one of the most critical challenges due to the usually large number of RIS unit elements and their distinctive hardware constraints. In this paper, we focus on the uplink of a RIS-empowered multi-user Multiple Input Single Output (MISO) uplink communication systems and propose a channel estimation framework based on the parallel factor decomposition to unfold the resulting cascaded channel model. We present two iterative estimation algorithms for the channels between the base station and RIS, as well as the channels between RIS and users. One is based on alternating least squares (ALS), while the other uses vector approximate message passing to iteratively reconstruct two unknown channels from the estimated vectors. To theoretically assess the performance of the ALS-based algorithm, we derived its estimation Cram\'er-Rao Bound (CRB). We also discuss the downlink achievable sum rate computation with estimated channels and different precoding schemes for the base station. Our extensive simulation results show that our algorithms outperform benchmark schemes and that the ALS technique achieves the CRB. It is also demonstrated that the sum rate using the estimated channels always reach that of perfect channels under various settings, thus, verifying the effectiveness and robustness of the proposed estimation algorithms.
翻訳日:2022-11-03 01:15:58 公開日:2022-06-24
# RARTS: 効率的な1次緩和アーキテクチャ探索手法

RARTS: An Efficient First-Order Relaxed Architecture Search Method ( http://arxiv.org/abs/2008.03901v2 )

ライセンス: Link先を確認
Fanghui Xue, Yingyong Qi, Jack Xin(参考訳) 微分可能なアーキテクチャ探索(DARTS)は、二段階最適化問題の解法に基づくデータ駆動型ニューラルネットワーク設計の有効な方法である。 多くのアーキテクチャ検索タスクで成功したにもかかわらず、一階のdartの精度と二階のdartの効率にはまだ懸念が残っている。 本稿では、DARTSのような損失関数の2次微分を混合することなく、データとネットワーク分割の両方を通してアーキテクチャ学習のデータセット全体を利用する、単一レベルの代替と緩和アーキテクチャ探索(RARTS)法を定式化する。 ネットワーク分割の定式化では,共有アーキテクチャの探索において,異なる重みを持つ2つのネットワークが協調する。 DARTS に対する RARTS の利点は収束定理と解析的に解けるモデルによって正当化される。 さらに、RARTSはDARTSとその変種を十分な実験結果で示すように精度と探索効率で上回る。 RARTSは、トポロジカルアーキテクチャ、すなわちエッジと演算を探索するタスクにおいて、CIFAR-10上の2階DARTSよりも高い精度と60倍の計算コストを得る。 RARTSはImageNetへの転送時にDARTSを上回り続けており、我々の革新は純粋に検索空間を変更することなくトレーニングアルゴリズムに基づいているにもかかわらず、最近のDARTSと同等である。 RARTSは、幅の探索、すなわち畳み込み層内のチャネル数に対して、従来のネットワークプルーニングベンチマークよりも優れている。 NATS-Benchのような公開アーキテクチャ検索ベンチマークに関するさらなる実験は、RARTSの優位性もサポートする。

Differentiable architecture search (DARTS) is an effective method for data-driven neural network design based on solving a bilevel optimization problem. Despite its success in many architecture search tasks, there are still some concerns about the accuracy of first-order DARTS and the efficiency of the second-order DARTS. In this paper, we formulate a single level alternative and a relaxed architecture search (RARTS) method that utilizes the whole dataset in architecture learning via both data and network splitting, without involving mixed second derivatives of the corresponding loss functions like DARTS. In our formulation of network splitting, two networks with different but related weights cooperate in search of a shared architecture. The advantage of RARTS over DARTS is justified by a convergence theorem and an analytically solvable model. Moreover, RARTS outperforms DARTS and its variants in accuracy and search efficiency, as shown in adequate experimental results. For the task of searching topological architecture, i.e., the edges and the operations, RARTS obtains a higher accuracy and 60\% reduction of computational cost than second-order DARTS on CIFAR-10. RARTS continues to out-perform DARTS upon transfer to ImageNet and is on par with recent variants of DARTS even though our innovation is purely on the training algorithm without modifying search space. For the task of searching width, i.e., the number of channels in convolutional layers, RARTS also outperforms the traditional network pruning benchmarks. Further experiments on the public architecture search benchmark like NATS-Bench also support the preeminence of RARTS.
翻訳日:2022-10-31 22:11:48 公開日:2022-06-24
# 実データを用いた自律走行車の社会的適合行動設計

Socially-Compatible Behavior Design of Autonomous Vehicles with Verification on Real Human Data ( http://arxiv.org/abs/2010.14712v8 )

ライセンス: Link先を確認
Letian Wang, Liting Sun, Masayoshi Tomizuka, and Wei Zhan(参考訳) 自動運転車(AV)が公道に配備されるようになり、社会的に互換性のある行動の設計がますます重要になっている。 安全かつ効率的な行動を生成するために、AVは、他の交通参加者の将来の行動を予測するだけでなく、そのような行動予測に関連する不確実性も認識する必要がある。 本稿では,不確実な統合予測・計画(UAPP)フレームワークを提案する。 AVは、他の道路利用者の特徴をオンラインで推測し、自分の報酬だけでなく、他人への礼儀、予測の不確実性に対する信頼を最適化する行動を生成する。 まず、礼儀と信任の定義を提案する。 この結果から,インタラクティブ運転シナリオにおけるavの挙動への影響を考察した。 さらに,生成した行動と基底的真理を比較することにより,自然主義的人間運転データに対する提案アルゴリズムを評価する。 その結果,オンライン推論は生成した行動の人間的類似性を大幅に改善できることがわかった。 さらに、人間ドライバーは、通行権のない人でも、他人に素晴らしい礼儀を示せることがわかりました。 また、こうした運転の好みは文化によって大きく異なることもわかりました。

As more and more autonomous vehicles (AVs) are being deployed on public roads, designing socially compatible behaviors for them is becoming increasingly important. In order to generate safe and efficient actions, AVs need to not only predict the future behaviors of other traffic participants, but also be aware of the uncertainties associated with such behavior prediction. In this paper, we propose an uncertain-aware integrated prediction and planning (UAPP) framework. It allows the AVs to infer the characteristics of other road users online and generate behaviors optimizing not only their own rewards, but also their courtesy to others, and their confidence regarding the prediction uncertainties. We first propose the definitions for courtesy and confidence. Based on that, their influences on the behaviors of AVs in interactive driving scenarios are explored. Moreover, we evaluate the proposed algorithm on naturalistic human driving data by comparing the generated behavior against ground truth. Results show that the online inference can significantly improve the human-likeness of the generated behaviors. Furthermore, we find that human drivers show great courtesy to others, even for those without right-of-way. We also find that such driving preferences vary significantly in different cultures.
翻訳日:2022-10-02 05:03:12 公開日:2022-06-24
# (参考訳) Emotiv Epoc+ Neuroheadset を用いた非侵襲脳-コンピュータインタフェースの検討とその効果

An Investigation on Non-Invasive Brain-Computer Interfaces: Emotiv Epoc+ Neuroheadset and Its Effectiveness ( http://arxiv.org/abs/2207.06914v1 )

ライセンス: CC BY 4.0
Md Jobair Hossain Faruk, Maria Valero, Hossain Shahriar(参考訳) 本研究では,BCI研究の進展と,同時代の発表の成果を紹介する。 まず、人間の言語を人間の脳から直接、facebook reality labとカリフォルニア大学サンフランシスコ校が導入したデジタルスクリーンにデコードする自然言語アプローチについて検討する。 そこで我々は,脳-機械インタフェース(BMI)アプローチを用いてヒト脳を制御するビジョンプロジェクトについて検討した。 また,eeg(emotiv epoc+ neuroheadset)を用いて,epc+装置の正確性と能力を示すために,教師付き学習分類器(naive bayes)と線形回帰(linear regression)の2つの教師付き学習分類器を用いて,神経工学研究における神経ヘッドセットを実験することにより,脳信号を用いたエンゲージメント,興奮、焦点、ストレス、緩和、関心などの6つの感情パラメータを同定する。 実験の結果, 被験者のパフォーマンス行列を読み取る際に, 上記の分類器の精度が69%, 62%向上したことが示された。 我々は、非侵襲的で挿入可能で低コストなBCIアプローチが、身体麻痺患者の代替手段であるだけでなく、記憶や脳に近づいた場所へアクセスし、制御するのに役立つ脳を理解するための焦点となると想定している。

In this study, we illustrate the progress of BCI research and present scores of unveiled contemporary approaches. First, we explore a decoding natural speech approach that is designed to decode human speech directly from the human brain onto a digital screen introduced by Facebook Reality Lab and University of California San Francisco. Then, we study a recently presented visionary project to control the human brain using Brain-Machine Interfaces (BMI) approach. We also investigate well-known electroencephalography (EEG) based Emotiv Epoc+ Neuroheadset to identify six emotional parameters including engagement, excitement, focus, stress, relaxation, and interest using brain signals by experimenting the neuroheadset among three human subjects where we utilize two supervised learning classifiers, Naive Bayes and Linear Regression to show the accuracy and competency of the Epoc+ device and its associated applications in neurotechnological research. We present experimental studies and the demonstration indicates 69% and 62% improved accuracy for the aforementioned classifiers respectively in reading the performance matrices of the participants. We envision that non-invasive, insertable, and low-cost BCI approaches shall be the focal point for not only an alternative for patients with physical paralysis but also understanding the brain that would pave us to access and control the memories and brain somewhere very near.
翻訳日:2022-07-17 20:34:24 公開日:2022-06-24
# (参考訳) FLVoogd: フェデレーション学習のためのロバストでプライバシー保護

FLVoogd: Robust And Privacy Preserving Federated Learning ( http://arxiv.org/abs/2207.00428v1 )

ライセンス: CC BY 4.0
Yuhang Tian, Rui Wang, Yanqi Qiao, Emmanouil Panaousis and Kaitai Liang(参考訳) 本研究では,サーバとクライアントがプライバシを保ちながらビザンチン攻撃を協調的に排除する,新たなフェデレート学習手法であるFLVoogdを提案する。 特にサーバは、ノイズ(dbscan)とs2pcを組み合わせたアプリケーションの自動密度ベースの空間クラスタリングを使用して、センシティブな個人情報を取得することなく、多数派をクラスタ化する。 一方、クライアントはデュアルモデルを構築し、テストベースの距離制御を実行し、グローバルモデルに向けてローカルモデルを調整し、パーソナライズを実現する。 私たちのフレームワークは自動的かつ適応的であるため、サーバ/クライアントはトレーニング中にパラメータをチューニングする必要がありません。 さらに,本フレームワークでは,乗算や加算,比較などのセキュアなマルチパーティ計算(SMPC)処理を活用している。 画像分類分野の従来のデータセットを用いて評価を行った。 その結果、FLVoogdは、ほとんどのシナリオにおいて、悪意のあるアップロードを効果的に拒否できることがわかった。

In this work, we propose FLVoogd, an updated federated learning method in which servers and clients collaboratively eliminate Byzantine attacks while preserving privacy. In particular, servers use automatic Density-based Spatial Clustering of Applications with Noise (DBSCAN) combined with S2PC to cluster the benign majority without acquiring sensitive personal information. Meanwhile, clients build dual models and perform test-based distance controlling to adjust their local models toward the global one to achieve personalizing. Our framework is automatic and adaptive that servers/clients don't need to tune the parameters during the training. In addition, our framework leverages Secure Multi-party Computation (SMPC) operations, including multiplications, additions, and comparison, where costly operations, like division and square root, are not required. Evaluations are carried out on some conventional datasets from the image classification field. The result shows that FLVoogd can effectively reject malicious uploads in most scenarios; meanwhile, it avoids data leakage from the server-side.
翻訳日:2022-07-10 14:48:25 公開日:2022-06-24
# (参考訳) ピアレビューにおける有害紙入札に関するデータセット

A Dataset on Malicious Paper Bidding in Peer Review ( http://arxiv.org/abs/2207.02303v1 )

ライセンス: CC BY 4.0
Steven Jecmen, Minji Yoon, Vincent Conitzer, Nihar B. Shah, Fei Fang(参考訳) カンファレンスのピアレビューにおいて、レビュアーは、提出された各論文に対して、その論文のレビューに関心を示す「bid」を提供するよう要求される。 論文割当アルゴリズムは、これらの入札(と他のデータ)を使って、論文に対するレビュアーの高品質な割当を計算する。 しかし、このプロセスは、非倫理的に紙の割り当てを操作するために戦略的に入札した悪意あるレビュワーによって悪用され、ピアレビュープロセスが著しく損なわれている。 例えば、これらのレビュアーは、quid-pro-quo契約の一環として、友人の論文に割り当てられることを目指している。 この問題を軽減するための方法の作成と評価に関する重要な障害は、悪質な紙の入札に関する公開データがないことである。 本研究では,このギャップを埋めるための新しいデータセットを収集,公開し,参加者に率直に,悪意的に入札するよう指示されたモックカンファレンス活動から収集した。 さらに,参加者が採用する異なる戦略の分類を含め,入札行動の記述的分析を行う。 最後に、各戦略が割り当てを操作する能力を評価し、悪意ある入札を検出するためのいくつかの単純なアルゴリズムの性能を評価する。 これらの検出アルゴリズムの性能は、悪意のある入札を検出するための将来の研究のベースラインとすることができる。

In conference peer review, reviewers are often asked to provide "bids" on each submitted paper that express their interest in reviewing that paper. A paper assignment algorithm then uses these bids (along with other data) to compute a high-quality assignment of reviewers to papers. However, this process has been exploited by malicious reviewers who strategically bid in order to unethically manipulate the paper assignment, crucially undermining the peer review process. For example, these reviewers may aim to get assigned to a friend's paper as part of a quid-pro-quo deal. A critical impediment towards creating and evaluating methods to mitigate this issue is the lack of any publicly-available data on malicious paper bidding. In this work, we collect and publicly release a novel dataset to fill this gap, collected from a mock conference activity where participants were instructed to bid either honestly or maliciously. We further provide a descriptive analysis of the bidding behavior, including our categorization of different strategies employed by participants. Finally, we evaluate the ability of each strategy to manipulate the assignment, and also evaluate the performance of some simple algorithms meant to detect malicious bidding. The performance of these detection algorithms can be taken as a baseline for future research on detecting malicious bidding.
翻訳日:2022-07-10 14:31:48 公開日:2022-06-24
# オンライン教師なしドメイン適応のための平均部分空間計算と再帰フィードバックを備えた多段階フレームワーク

A Multi-stage Framework with Mean Subspace Computation and Recursive Feedback for Online Unsupervised Domain Adaptation ( http://arxiv.org/abs/2207.00003v1 )

ライセンス: Link先を確認
Jihoon Moon, Debasmit Das, C. S. George Lee(参考訳) 本稿では,OUDA(Online Unsupervised Domain Adaptation)問題に対処し,ターゲットデータにラベルが付かず,バッチで順次オンラインに到達した場合に,現実の状況を解決するための新しい多段階フレームワークを提案する。 提案するフレームワークは,ソースとターゲットドメインから共通部分空間にデータを投影し,投影されたデータをリアルタイムで操作するために,カーチャー平均に近似した平均目標部分空間の近似を計算するICMS (Incrmental Computation of Mean-Subspace) と呼ばれる新しい手法を提案する。 さらに、平均目標部分空間から算出された変換行列を、再帰的フィードバックステージにおける次の目標データに適用し、対象データをソースドメインに近づける。 変換行列の計算と次目標部分空間の予測は、グラスマン多様体上の対象部分空間の流れの累積時間依存性を考慮して再帰的フィードバックステージの性能を活用する。 変換対象データのラベルは、事前訓練されたソース分類器によって予測され、変換されたデータと予測されたラベルによって分類器が更新される。 6つのデータセットに関する広範囲な実験を行い,提案手法における各ステージの効果と貢献度,その性能について,分類精度と計算速度の観点から検討した。 さらに,従来の多様体型学習モデルとニューラルネットワーク型学習モデルを用いた実験により,様々な学習モデルに対する提案フレームワークの適用性が示された。

In this paper, we address the Online Unsupervised Domain Adaptation (OUDA) problem and propose a novel multi-stage framework to solve real-world situations when the target data are unlabeled and arriving online sequentially in batches. To project the data from the source and the target domains to a common subspace and manipulate the projected data in real-time, our proposed framework institutes a novel method, called an Incremental Computation of Mean-Subspace (ICMS) technique, which computes an approximation of mean-target subspace on a Grassmann manifold and is proven to be a close approximate to the Karcher mean. Furthermore, the transformation matrix computed from the mean-target subspace is applied to the next target data in the recursive-feedback stage, aligning the target data closer to the source domain. The computation of transformation matrix and the prediction of next-target subspace leverage the performance of the recursive-feedback stage by considering the cumulative temporal dependency among the flow of the target subspace on the Grassmann manifold. The labels of the transformed target data are predicted by the pre-trained source classifier, then the classifier is updated by the transformed data and predicted labels. Extensive experiments on six datasets were conducted to investigate in depth the effect and contribution of each stage in our proposed framework and its performance over previous approaches in terms of classification accuracy and computational speed. In addition, the experiments on traditional manifold-based learning models and neural-network-based learning models demonstrated the applicability of our proposed framework for various types of learning models.
翻訳日:2022-07-10 12:01:06 公開日:2022-06-24
# (参考訳) 医療レポート生成のためのコンピテンスに基づくマルチモーダルカリキュラム学習

Competence-based Multimodal Curriculum Learning for Medical Report Generation ( http://arxiv.org/abs/2206.14579v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Shen Ge, Xian Wu(参考訳) 医用画像の長期的かつ一貫性のある記述を目標とする医療報告作成タスクは近年,研究の関心が高まりつつある。 一般的な画像キャプションタスクとは異なり、データ駆動ニューラルモデルでは、医療レポート生成がより難しい。 これは主に原因である 1)深刻なデータバイアスと 2) 限られた医療データ。 データのバイアスを緩和し、利用可能なデータを活用するために、能力に基づくマルチモーダルカリキュラム学習フレームワーク(cmcl)を提案する。 具体的には,放射線科医の学習過程をシミュレートし,段階的にモデルを最適化する。 第一に、cmclは各トレーニングインスタンスの難易度を推定し、現在のモデルの能力を評価する。 2つのステップを繰り返すことで、CMCLは徐々にモデルの性能を向上させることができる。 公開IU-XrayとMIMIC-CXRデータセットの実験では、CMCLを既存のモデルに組み込んでパフォーマンスを向上させることができる。

Medical report generation task, which targets to produce long and coherent descriptions of medical images, has attracted growing research interests recently. Different from the general image captioning tasks, medical report generation is more challenging for data-driven neural models. This is mainly due to 1) the serious data bias and 2) the limited medical data. To alleviate the data bias and make best use of available data, we propose a Competence-based Multimodal Curriculum Learning framework (CMCL). Specifically, CMCL simulates the learning process of radiologists and optimizes the model in a step by step manner. Firstly, CMCL estimates the difficulty of each training instance and evaluates the competence of current model; Secondly, CMCL selects the most suitable batch of training instances considering current model competence. By iterating above two steps, CMCL can gradually improve the model's performance. The experiments on the public IU-Xray and MIMIC-CXR datasets show that CMCL can be incorporated into existing models to improve their performance.
翻訳日:2022-07-04 01:13:48 公開日:2022-06-24
# (参考訳) クレジットカード詐欺検出におけるbfloat 16を用いた機械学習アルゴリズムの学習中に拡張性を高める新しい手法

A novel approach to increase scalability while training machine learning algorithms using Bfloat 16 in credit card fraud detection ( http://arxiv.org/abs/2206.12415v1 )

ライセンス: CC BY 4.0
Bushra Yousuf, Rejwan Bin Sulaiman, Musarrat Saberin Nipun(参考訳) 近年、デジタルバンキングが一般化し、クレジットカードの利用が盛んになっている。 この増加により、クレジットカードの不正行為も大きな問題となり、銀行や顧客も損失を被ります。 通常の不正検出システムは、詐欺師が不正を犯す新しいテクニックを身につけるため、不正を検出することができない。 これにより、不正を検出するために機械学習ベースのソフトウェアを使用する必要が生じる。 現在利用可能な機械学習ソフトウェアは、不正検出の精度のみに焦点を当てているが、検出するコストや時間要素に焦点をあてていない。 本研究は、銀行のクレジットカード不正検出システムにおける機械学習のスケーラビリティに焦点を当てる。 提案手法で利用可能な既存の機械学習アルゴリズムと手法を比較した。 目標は、機械学習アルゴリズムのトレーニングにビットが少ないため、よりスケーラブルなシステムが実現され、時間が短縮され、実装にコストがかかることを証明することだ。

The use of credit cards has become quite common these days as digital banking has become the norm. With this increase, fraud in credit cards also has a huge problem and loss to the banks and customers alike. Normal fraud detection systems, are not able to detect the fraud since fraudsters emerge with new techniques to commit fraud. This creates the need to use machine learning-based software to detect frauds. Currently, the machine learning softwares that are available focuses only on the accuracy of detecting frauds but does not focus on the cost or time factors to detect. This research focuses on machine learning scalability for banks' credit card fraud detection systems. We have compared the existing machine learning algorithms and methods that are available with the newly proposed technique. The goal is to prove that using fewer bits for training a machine learning algorithm will result in a more scalable system, that will reduce the time and will also be less costly to implement.
翻訳日:2022-07-03 13:10:38 公開日:2022-06-24
# (参考訳) PACSリポジトリクラスタリングのための深層クラスタリングアルゴリズム

Deep embedded clustering algorithm for clustering PACS repositories ( http://arxiv.org/abs/2206.12417v1 )

ライセンス: CC BY 4.0
Teo Manojlovi\'c, Matija Milani\v{c}, Ivan \v{S}tajduhar(参考訳) 医療放射線画像の大規模なデータセットを複数のソースから作成することは、取得と保管基準の違いから困難である。 画像選択プロセスの制御および/または評価の可能な方法は、医用画像クラスタリングである。 しかし、これは遅延画像表現を学習する効率的な方法を必要とする。 本稿では,ピクセルデータのみを用いた医用画像の完全教師なしクラスタリングの問題に取り組む。 畳み込み型自己エンコーダ(CAE)と畳み込み型深層クラスタリング(CDEC)と畳み込み型改良型深層クラスタリング(CIDEC)と,予め設定された特徴抽出に基づく3つのアプローチ(向き勾配のヒストグラム(HOG)、局所二分パターン(LBP)、主成分分析(PCA)を併用して,現代手法の性能を検証した。 CDECとCIDECは、遅延表現とクラスタリングの同時学習を含むエンドツーエンドのクラスタリングソリューションである。 3万枚の画像でモデルをトレーニングし、8,000枚の画像からなる別個のテストセットを使ってテストします。 臨床病院センターrijekaのpacsリポジトリアーカイブからデータを採取した。 評価には,通常発生するDICOMタグ (Modality) と解剖学的領域 (Adjusted BodyPartExamined tag) と密接に関連する2つの目標パラメータに対して,シルエットスコア,均一性スコア,および正規化相互情報(NMI)を用いる。 CIDECは解剖学的領域に対して0.473のNMIスコアを獲得し、CDECはタグのモダリティに関して0.645のNMIスコアを得る。

Creating large datasets of medical radiology images from several sources can be challenging because of the differences in the acquisition and storage standards. One possible way of controlling and/or assessing the image selection process is through medical image clustering. This, however, requires an efficient method for learning latent image representations. In this paper, we tackle the problem of fully-unsupervised clustering of medical images using pixel data only. We test the performance of several contemporary approaches, built on top of a convolutional autoencoder (CAE) - convolutional deep embedded clustering (CDEC) and convolutional improved deep embedded clustering (CIDEC) - and three approaches based on preset feature extraction - histogram of oriented gradients (HOG), local binary pattern (LBP) and principal component analysis (PCA). CDEC and CIDEC are end-to-end clustering solutions, involving simultaneous learning of latent representations and clustering assignments, whereas the remaining approaches rely on k-means clustering from fixed embeddings. We train the models on 30,000 images, and test them using a separate test set consisting of 8,000 images. We sampled the data from the PACS repository archive of the Clinical Hospital Centre Rijeka. For evaluation, we use silhouette score, homogeneity score and normalised mutual information (NMI) on two target parameters, closely associated with commonly occurring DICOM tags - Modality and anatomical region (adjusted BodyPartExamined tag). CIDEC attains an NMI score of 0.473 with respect to anatomical region, and CDEC attains an NMI score of 0.645 with respect to the tag Modality - both outperforming other commonly used feature descriptors.
翻訳日:2022-07-03 13:09:43 公開日:2022-06-24
# (参考訳) 幾何学的相互作用知識グラフ埋め込み

Geometry Interaction Knowledge Graph Embeddings ( http://arxiv.org/abs/2206.12418v1 )

ライセンス: CC BY 4.0
Zongsheng Cao, Qianqian Xu, Zhiyong Yang, Xiaochun Cao, Qingming Huang(参考訳) 知識グラフ(KG)埋め込みは、エンティティの表現とリンク予測タスクの関係の学習において大きな力を示している。 以前の研究は通常、KGをユークリッド空間(ゼロ曲線)、双曲空間(負曲線)、球面空間(正曲線)のような単一の幾何学空間に埋め込んで、特定の幾何学構造(例えば鎖、階層構造、環構造)を維持する。 しかし、KGsの位相構造は、複数の幾何学的構造を同時に含むため、複雑であるように見える。 したがって、ユークリッド空間、双曲空間、超球面空間であっても、1つの空間にkgsを組み込むことは、kgsの複素構造を正確に捉えることができない。 この課題を克服するために,ユークリッド空間,双曲空間,超球面空間間の空間構造を対話的に学習する幾何相互作用知識グラフ埋め込み(gie)を提案する。 理論的には、提案したGIEはよりリッチな関係情報、モデルキー推論パターンをキャプチャし、エンティティ間の表現的セマンティックマッチングを可能にする。 確立された3つのナレッジグラフ補完ベンチマークの実験結果から,gieは少ないパラメータで最先端のパフォーマンスを達成できた。

Knowledge graph (KG) embeddings have shown great power in learning representations of entities and relations for link prediction tasks. Previous work usually embeds KGs into a single geometric space such as Euclidean space (zero curved), hyperbolic space (negatively curved) or hyperspherical space (positively curved) to maintain their specific geometric structures (e.g., chain, hierarchy and ring structures). However, the topological structure of KGs appears to be complicated, since it may contain multiple types of geometric structures simultaneously. Therefore, embedding KGs in a single space, no matter the Euclidean space, hyperbolic space or hyperspheric space, cannot capture the complex structures of KGs accurately. To overcome this challenge, we propose Geometry Interaction knowledge graph Embeddings (GIE), which learns spatial structures interactively between the Euclidean, hyperbolic and hyperspherical spaces. Theoretically, our proposed GIE can capture a richer set of relational information, model key inference patterns, and enable expressive semantic matching across entities. Experimental results on three well-established knowledge graph completion benchmarks show that our GIE achieves the state-of-the-art performance with fewer parameters.
翻訳日:2022-07-03 12:59:53 公開日:2022-06-24
# (参考訳) MultiSAGE:層間リンク予測のための多重埋め込みアルゴリズム

MultiSAGE: a multiplex embedding algorithm for inter-layer link prediction ( http://arxiv.org/abs/2206.13223v1 )

ライセンス: CC BY 4.0
Luca Gallo and Vito Latora and Alfredo Pulvirenti(参考訳) 近年,グラフ表現学習の研究が注目されている。 しかし、これまでの研究のほとんどは単層グラフの埋め込みに焦点を当てている。 多層構造の表現学習問題に対処する数少ない研究は、層間リンクが知られているという強い仮説に依存しており、これは応用範囲を制限する。 本稿では,複数のネットワークを埋め込むグラフSAGEアルゴリズムの一般化であるMultiSAGEを提案する。 マルチセージは,単純なグラフ用に設計されたgraphsageよりも,層内および層間接続の両方を再構築できることを示した。 次に,包括的実験解析により,単純ネットワークと多重ネットワークの両方において埋め込みの性能に光を当て,グラフの密度とリンクのランダム性が埋め込みの質に大きく影響することを示した。

Research on graph representation learning has received great attention in recent years. However, most of the studies so far have focused on the embedding of single-layer graphs. The few studies dealing with the problem of representation learning of multilayer structures rely on the strong hypothesis that the inter-layer links are known, and this limits the range of possible applications. Here we propose MultiSAGE, a generalization of the GraphSAGE algorithm that allows to embed multiplex networks. We show that MultiSAGE is capable to reconstruct both the intra-layer and the inter-layer connectivity, outperforming GraphSAGE, which has been designed for simple graphs. Next, through a comprehensive experimental analysis, we shed light also on the performance of the embedding, both in simple and in multiplex networks, showing that either the density of the graph or the randomness of the links strongly influences the quality of the embedding.
翻訳日:2022-07-03 12:38:32 公開日:2022-06-24
# (参考訳) gps追跡データを用いたmlによるnfl守備パス干渉予測

ML-Based Approach for NFL Defensive Pass Interference Prediction Using GPS Tracking Data ( http://arxiv.org/abs/2206.13222v1 )

ライセンス: CC BY 4.0
Arian Skoki, Jonatan Lerga, Ivan \v{S}tajduhar(参考訳) ディフェンシブ・パス・インターフェレーション(DPI)はNFLで最も影響力のあるペナルティの一つである。 DPIはスポットファールであり、所有するチームには自動ファーストダウンを与える。 このような影響で、審判は間違いを犯す余地がない。 また、100回のパスで1-2回発生する非常に稀なイベントでもある。 テクノロジーの改善と多くのIoTウェアラブルがアスリートに価値あるデータを集めるために置かれているため、ゲームのあらゆる面を改善するために機械学習(ML)技術を適用するための確固たる基盤がある。 この研究は、プレイヤー追跡GPSデータを用いてDPIを予測する最初の試みである。 私たちが使用したデータは、2018年のレギュラーシーズンを通じてNFLのNext Gen Statsによって収集されました。 LSTM, GRU, ANN, Multivariate LSTM-FCN という, 高度に不均衡な時系列バイナリ分類のためのMLモデルを提案する。 結果,DPI予測にGPS追跡データを用いた場合,成功は少なかった。 ベストパフォーマンスモデルは高いリコールと低い精度を有しており、多くの偽陽性例の分類に繋がった。 データをよく見ると、不正行為が実行されたかどうかを判断する十分な情報がないことが確認された。 本研究は,ビデオシーケンス分類のためのマルチステップパイプラインのフィルタとして機能し,この問題を解決できるかもしれない。

Defensive Pass Interference (DPI) is one of the most impactful penalties in the NFL. DPI is a spot foul, yielding an automatic first down to the team in possession. With such an influence on the game, referees have no room for a mistake. It is also a very rare event, which happens 1-2 times per 100 pass attempts. With technology improving and many IoT wearables being put on the athletes to collect valuable data, there is a solid ground for applying machine learning (ML) techniques to improve every aspect of the game. The work presented here is the first attempt in predicting DPI using player tracking GPS data. The data we used was collected by NFL's Next Gen Stats throughout the 2018 regular season. We present ML models for highly imbalanced time-series binary classification: LSTM, GRU, ANN, and Multivariate LSTM-FCN. Results showed that using GPS tracking data to predict DPI has limited success. The best performing models had high recall with low precision which resulted in the classification of many false positive examples. Looking closely at the data confirmed that there is just not enough information to determine whether a foul was committed. This study might serve as a filter for multi-step pipeline for video sequence classification which could be able to solve this problem.
翻訳日:2022-07-03 12:16:00 公開日:2022-06-24
# (参考訳) 不変葉、多様体およびオートエンコーダを用いたデータ駆動還元次数モデル

Data-driven reduced order models using invariant foliations, manifolds and autoencoders ( http://arxiv.org/abs/2206.12269v1 )

ライセンス: CC BY-SA 4.0
Robert Szalai(参考訳) 本稿では、データから減じられた注文モデルを特定する方法について検討する。 データとモデルを関連付けるには3つの方法がある:不変葉分、不変多様体、オートエンコーダ。 不変多様体は、ループシステムのハードウェアが使用されない限り、データに適合できない。 オートエンコーダはデータが存在する位相空間の部分のみを識別するが、これは必ずしも不変多様体ではない。 したがって、オフラインデータの場合、唯一の選択肢は不変葉である。 クープマン固有函数もまた不変葉分を定義するが、それらは線型性と結果として生じる特異点の仮定によって制限される。 不変葉分を見つけるには高次元関数を近似する必要がある。 我々は2つの解決策を提案する。 正確な還元次数モデルを求める場合は、疎階層テンソルである多項式係数を用いてスパース多項式近似を用いる。 不変多様体を求める場合、葉の葉として必要となる高次元関数は低次元多項式によって近似することができる。 2つの方法を組み合わせることで、正確な還元次数モデルと不変多様体を見つけることができる。 また,機械系において典型的なフォーカス型平衡の場合の還元次数モデルを解析した。 不変葉分と不変多様体によって定義される非線形座標系は瞬時周波数と減衰率を歪め、補正する。 例を通して、不変な葉と多様体の計算を説明し、同時にクープマン固有関数とオートエンコーダが同じ条件下で正確な縮小順序モデルを捉えることができないことを示す。

This paper explores the question: how to identify a reduced order model from data. There are three ways to relate data to a model: invariant foliations, invariant manifolds and autoencoders. Invariant manifolds cannot be fitted to data unless a hardware in a loop system is used. Autoencoders only identify the portion of the phase space where the data is, which is not necessarily an invariant manifold. Therefore for off-line data the only option is an invariant foliation. We note that Koopman eigenfunctions also define invariant foliations, but they are limited by the assumption of linearity and resulting singularites. Finding an invariant foliation requires approximating high-dimensional functions. We propose two solutions. If an accurate reduced order model is sought, a sparse polynomial approximation is used, with polynomial coefficients that are sparse hierarchical tensors. If an invariant manifold is sought, as a leaf of a foliation, the required high-dimensional function can be approximated by a low-dimensional polynomial. The two methods can be combined to find an accurate reduced order model and an invariant manifold. We also analyse the reduced order model in case of a focus type equilibrium, typical in mechanical systems. We note that the nonlinear coordinate system defined by the invariant foliation and the invariant manifold distorts instantaneous frequencies and damping ratios, which we correct. Through examples we illustrate the calculation of invariant foliations and manifolds, and at the same time show that Koopman eigenfunctions and autoencoders fail to capture accurate reduced order models under the same conditions.
翻訳日:2022-07-03 12:08:21 公開日:2022-06-24
# (参考訳) $\epsilon$-weighted Hybrid Query Strategyを用いた回帰のためのDeepAL

DeepAL for Regression Using $\epsilon$-weighted Hybrid Query Strategy ( http://arxiv.org/abs/2206.13298v1 )

ライセンス: CC BY 4.0
Harsh Vardhan, Janos Sztipanovits(参考訳) 高価な高忠実度挙動の健全な特徴をとらえる安価な近似サロゲートモデルを設計することは、設計最適化における一般的なアプローチである。 近年,Deep Learning (DL) モデルは工学的問題に対する有望な代理計算モデルとして利用されている。 しかし、dlベースのサーロゲートを作成する上での最大の課題は、多くの設計ポイントをシミュレート/ラベルすることである。 本研究では,アクティブラーニング(AL)手法とDLを組み合わせた新しいサンプリング手法を提案する。 我々はこの手法を$\epsilon$-weighted hybrid query strategy (\epsilon$-HQS)と呼び、各学習繰り返しにおけるサロゲートの評価に焦点を当て、設計空間におけるサロゲートの失敗確率を推定する。 既に収集したトレーニングとテストデータを再利用することにより、学習失敗確率は、次のイテレーションのサンプリングプロセスを、高い失敗確率の領域に導く。 実験による評価では, 他の試料選択法と比較してサロゲートの精度が向上した。 本手法は, 有限要素法に基づく圧力容器の静的応力解析(計算コスト過程)と第2潜水艦プロペラ設計(高次元問題)の2つの異なる工学的設計領域において実験的に評価した。 https://github.com/vardhah/epsilon_weighted_Hybrid_Query_Strategy

Designing an inexpensive approximate surrogate model that captures the salient features of an expensive high-fidelity behavior is a prevalent approach in design optimization. In recent times, Deep Learning (DL) models are being used as a promising surrogate computational model for engineering problems. However, the main challenge in creating a DL-based surrogate is to simulate/label a large number of design points, which is time-consuming for computationally costly and/or high-dimensional engineering problems. In the present work, we propose a novel sampling technique by combining the active learning (AL) method with DL. We call this method $\epsilon$-weighted hybrid query strategy ($\epsilon$-HQS) , which focuses on the evaluation of the surrogate at each learning iteration and provides an estimate of the failure probability of the surrogate in the Design Space. By reusing already collected training and test data, the learned failure probability guides the next iteration's sampling process to the region of the high probability of failure. During the empirical evaluation, better accuracy of the surrogate was observed in comparison to other methods of sample selection. We empirically evaluated this method in two different engineering design domains, finite element based static stress analysis of submarine pressure vessel(computationally costly process) and second submarine propeller design( high dimensional problem). https://github.com/vardhah/epsilon_weighted_Hybrid_Query_Strategy
翻訳日:2022-07-03 12:05:58 公開日:2022-06-24
# (参考訳) 強化学習エージェントの反復設計のための値関数分解

Value Function Decomposition for Iterative Design of Reinforcement Learning Agents ( http://arxiv.org/abs/2206.13901v1 )

ライセンス: CC BY 4.0
James MacGlashan (1), Evan Archer (1), Alisa Devlic (1), Takuma Seno (1), Craig Sherstan (1), Peter R. Wurman (1), Peter Stone (1 and 2) ((1) Sony AI, (2) The University of Texas at Austin)(参考訳) 強化学習(RL)エージェントの設計は、通常、多くの設計イテレーションを必要とする難しいプロセスである。 学習はさまざまな理由で失敗する可能性があり、標準的なRLメソッドでは、正確な原因を知るためのツールが少なすぎる。 本稿では,価値分解をアクタ-批判的アルゴリズムの幅広いクラスに統合し,反復エージェント設計プロセスを支援する方法を提案する。 値分解は報酬関数を異なるコンポーネントに分離し、それぞれの値見積を学習する。 これらの値推定は、エージェントの学習と意思決定プロセスに関する洞察を与え、共通の問題を緩和するための新しいトレーニング方法を可能にする。 実演として,価値分解に適応したソフトアクター・クリティック(SAC)の変種であるSAC-Dを紹介する。 SAC-DはSACと同じような性能を維持しながら、より大きな値予測セットを学習する。 また,エージェントの意思決定に対する各報酬成分の影響を測定する新しい報酬影響指標を含む,この情報を利用する分解ベースのツールも導入する。 これらのツールを用いて、環境とエージェントの両方の設計における問題を特定し、対処する際の分解の使い方を示す。 バリュー分解は広く適用可能で、既存のアルゴリズムやワークフローに簡単に組み込めるため、RL実践者のツールボックスにおいて強力なツールになります。

Designing reinforcement learning (RL) agents is typically a difficult process that requires numerous design iterations. Learning can fail for a multitude of reasons, and standard RL methods provide too few tools to provide insight into the exact cause. In this paper, we show how to integrate value decomposition into a broad class of actor-critic algorithms and use it to assist in the iterative agent-design process. Value decomposition separates a reward function into distinct components and learns value estimates for each. These value estimates provide insight into an agent's learning and decision-making process and enable new training methods to mitigate common problems. As a demonstration, we introduce SAC-D, a variant of soft actor-critic (SAC) adapted for value decomposition. SAC-D maintains similar performance to SAC, while learning a larger set of value predictions. We also introduce decomposition-based tools that exploit this information, including a new reward influence metric, which measures each reward component's effect on agent decision-making. Using these tools, we provide several demonstrations of decomposition's use in identifying and addressing problems in the design of both environments and agents. Value decomposition is broadly applicable and easy to incorporate into existing algorithms and workflows, making it a powerful tool in an RL practitioner's toolbox.
翻訳日:2022-07-03 11:57:34 公開日:2022-06-24
# (参考訳) Ev-NeRF:イベントベースニューラル放射場

Ev-NeRF: Event Based Neural Radiance Field ( http://arxiv.org/abs/2206.12455v1 )

ライセンス: CC BY 4.0
Inwoo Hwang, Junho Kim, Young Min Kim(参考訳) 本稿では,イベントデータから派生した神経放射場であるev-nerfを提案する。 イベントカメラは高フレームレートの微妙な明るさ変化を測定することができるが、低照度や極端な動きの測定は複雑なノイズを伴う大きな領域差に悩まされる。 結果として、イベントベースの視覚タスクのパフォーマンスは、通常のカメラよりも繁栄するイベントカメラが期待される挑戦的な環境に移行しない。 我々は,NeRFの多視点整合性は,高ノイズな入力を伴わずに,突発的な測定を排除し,一貫した基盤構造を抽出する強力な自己超越信号を提供することを示した。 オリジナルのNeRFの画像の代わりに、Ev-NeRFへの入力はセンサーの動きを伴う事象の測定である。 センサーの計測モデルを反映した損失関数を使用して、ev-nerfは、約2-4秒でキャプチャされた非構造化およびスパースなデータポイントを要約する統合ニューラルボリュームを作成する。 生成されたニューラルボリュームは、合理的な深さ推定で新しいビューから強度画像を生成することができ、様々な視覚ベースのタスクに対する高品質な入力として機能する。 その結果,ev-nerfは極端ノイズ条件および高ダイナミックレンジ撮像条件下での強度画像再構成の競合性能を発揮できることがわかった。

We present Ev-NeRF, a Neural Radiance Field derived from event data. While event cameras can measure subtle brightness changes in high frame rates, the measurements in low lighting or extreme motion suffer from significant domain discrepancy with complex noise. As a result, the performance of event-based vision tasks does not transfer to challenging environments, where the event cameras are expected to thrive over normal cameras. We find that the multi-view consistency of NeRF provides a powerful self-supervision signal for eliminating the spurious measurements and extracting the consistent underlying structure despite highly noisy input. Instead of posed images of the original NeRF, the input to Ev-NeRF is the event measurements accompanied by the movements of the sensors. Using the loss function that reflects the measurement model of the sensor, Ev-NeRF creates an integrated neural volume that summarizes the unstructured and sparse data points captured for about 2-4 seconds. The generated neural volume can also produce intensity images from novel views with reasonable depth estimates, which can serve as a high-quality input to various vision-based tasks. Our results show that Ev-NeRF achieves competitive performance for intensity image reconstruction under extreme noise conditions and high-dynamic-range imaging.
翻訳日:2022-07-03 11:17:04 公開日:2022-06-24
# (参考訳) 分類器のリプシッツ性が説明者に及ぼす影響の分析

Analyzing the Effects of Classifier Lipschitzness on Explainers ( http://arxiv.org/abs/2206.12481v1 )

ライセンス: CC BY 4.0
Zulqarnain Khan, Aria Masoomi, Davin Hill and Jennifer Dy(参考訳) 機械学習の手法は、予測の精度がますます高まっているが、同時に、より複雑で透明でないものも増えている。 その結果、説明者はブラックボックス予測モデルへの解釈可能性を提供するためにしばしば頼られる。 重要な診断ツールとして、これらの説明書自体が信頼できることが重要である。 本稿では,データ入力に対して説明者が同様の説明を行うべきという,信頼性の特定の側面に注目する。 分類器の可換性に類似した説明器の可換性を導入し定義することで,この概念を定式化する。 我々の形式主義は確率的リプシッツネスの概念に触発され、函数の局所的滑らかさの確率を捉える。 様々な説明者(例えば、SHAP, RISE, CXPlain)に対して、予測関数のリプシッツ性を考えると、これらの説明者の正確性に対する低い境界保証を提供する。 これらの理論的結果は局所滑らかな予測関数が局所的堅牢な説明に結びつくことを示唆している。 これらの結果を実データと同様にシミュレーションによって実証的に評価する。

Machine learning methods are getting increasingly better at making predictions, but at the same time they are also becoming more complicated and less transparent. As a result, explainers are often relied on to provide interpretability to these black-box prediction models. As crucial diagnostics tools, it is important that these explainers themselves are reliable. In this paper we focus on one particular aspect of reliability, namely that an explainer should give similar explanations for similar data inputs. We formalize this notion by introducing and defining explainer astuteness, analogous to astuteness of classifiers. Our formalism is inspired by the concept of probabilistic Lipschitzness, which captures the probability of local smoothness of a function. For a variety of explainers (e.g., SHAP, RISE, CXPlain), we provide lower bound guarantees on the astuteness of these explainers given the Lipschitzness of the prediction function. These theoretical results imply that locally smooth prediction functions lend themselves to locally robust explanations. We evaluate these results empirically on simulated as well as real datasets.
翻訳日:2022-07-03 11:02:06 公開日:2022-06-24
# (参考訳) 最適かつロバストなカテゴリーレベル知覚:2次元および3次元意味的キーポイントによる物体のポーズと形状推定

Optimal and Robust Category-level Perception: Object Pose and Shape Estimation from 2D and 3D Semantic Keypoints ( http://arxiv.org/abs/2206.12498v1 )

ライセンス: CC BY 4.0
Jingnan Shi, Heng Yang, Luca Carlone(参考訳) カテゴリーレベルの知覚問題を考えると、与えられたカテゴリーのオブジェクト(例えば車)を2dまたは3dのセンサーデータで認識し、クラス内の変化にかかわらずオブジェクトの3dポーズと形状を再構築する必要がある(例えば、異なるカーモデルが異なる形状を持つ)。 我々は、オブジェクトカテゴリに対して、そのカテゴリ内のオブジェクトを記述する潜在的CADモデルのライブラリが与えられ、非凸最適化により2Dまたは3Dキーポイントからポーズと形状を推定する標準定式化を採用する。 PACE3D* と PACE2D* は,それぞれ 3D と 2D のキーポイントを用いたポーズと形状推定に最適である。 どちらの解法も厳密な(正確には)半定緩和の設計に依存している。 2つめのコントリビューションは、PACE3D#とPACE2D#という名前の、両方のソルバのアウトリアロバストバージョンを開発することです。 この目標に向けて、我々は、測定値の互換性をモデル化するために互換性ハイパーグラフを使用するprune outliersのための一般的なグラフ理論フレームワークであるrobinを提案する。 カテゴリーレベルの知覚問題では、これらのハイパーグラフはキーポイント(2d)またはその凸包(3d)の次数を巻いて構築でき、多くの外れ値は最大ハイパークリクティック計算によって刈り取ることができる。 最後の貢献は広範な実験的評価である。 シミュレーションデータセットとPASCALデータセットのアブレーションスタディを提供することに加えて、当社のソルバとディープキーポイント検出器を組み合わせることで、PACE3D#がApolloScapeデータセットにおける車両のポーズ推定における技術状況を改善し、そのランタイムが実用的なアプリケーションと互換性があることを示します。

We consider a category-level perception problem, where one is given 2D or 3D sensor data picturing an object of a given category (e.g., a car), and has to reconstruct the 3D pose and shape of the object despite intra-class variability (i.e., different car models have different shapes). We consider an active shape model, where -- for an object category -- we are given a library of potential CAD models describing objects in that category, and we adopt a standard formulation where pose and shape are estimated from 2D or 3D keypoints via non-convex optimization. Our first contribution is to develop PACE3D* and PACE2D*, the first certifiably optimal solvers for pose and shape estimation using 3D and 2D keypoints, respectively. Both solvers rely on the design of tight (i.e., exact) semidefinite relaxations. Our second contribution is to develop outlier-robust versions of both solvers, named PACE3D# and PACE2D#. Towards this goal, we propose ROBIN, a general graph-theoretic framework to prune outliers, which uses compatibility hypergraphs to model measurements' compatibility. We show that in category-level perception problems these hypergraphs can be built from winding orders of the keypoints (in 2D) or their convex hulls (in 3D), and many outliers can be pruned via maximum hyperclique computation. The last contribution is an extensive experimental evaluation. Besides providing an ablation study on simulated datasets and on the PASCAL dataset, we combine our solver with a deep keypoint detector, and show that PACE3D# improves over the state of the art in vehicle pose estimation in the ApolloScape datasets, and its runtime is compatible with practical applications.
翻訳日:2022-07-03 10:41:42 公開日:2022-06-24
# (参考訳) マルチモーダルおよびマルチファクタ分岐時間アクティブ推論

Multi-Modal and Multi-Factor Branching Time Active Inference ( http://arxiv.org/abs/2206.12503v1 )

ライセンス: CC BY 4.0
Th\'eophile Champion and Marek Grze\'s and Howard Bowman(参考訳) アクティブ推論は、習慣形成、ドーパミン作動性放電、好奇心などの幅広いメカニズムを説明する脳をモデル化するための最先端のフレームワークである。 近年,モンテカルロ木探索に基づく分枝時間アクティブ推論 (BTAI) の2つのバージョンが開発され,時間的地平線まで可能なすべてのポリシーを計算する際に生じる指数的(空間と時間)複雑性クラスを扱うようになった。 しかし、BTAIのこれらの2つのバージョンはいまだ指数複雑性クラスに悩まされており、観測変数と潜伏変数の数がモデル化されている。 本稿では,まず,複数の観測をモデル化し,それぞれが独自の確率写像を持つことにより,この限界を解消する。 同様に、各潜在状態が独自の遷移写像を持つようにします。 推論アルゴリズムは、確率と遷移写像の因子化を利用して、後方の計算を加速する。 これらの2つの最適化は、dSpritesイメージの代わりにdSpritesデータセットのメタデータをモデルへの入力として使用するdSprites環境でテストされた。 このタスクでは、$btai_{vmp}$ (champion et al., 2022b,a) が96.9\%のタスクを5.1秒で解くことができ、$btai_{bf}$ (champion et al., 2021a) が98.6\%のタスクを17.5秒で解くことができた。 我々の新しいアプローチ(BTAI_{3MF}$)は、タスクをたった2.559秒で完全に(100\%)解決することで、前者よりも優れていた。 最後に、$BTAI_{3MF}$は柔軟で使いやすい(ピソン)パッケージで実装され、モデルの信念、計画プロセス、行動の検査を可能にするグラフィカルなユーザインタフェースを開発した。

Active inference is a state-of-the-art framework for modelling the brain that explains a wide range of mechanisms such as habit formation, dopaminergic discharge and curiosity. Recently, two versions of branching time active inference (BTAI) based on Monte-Carlo tree search have been developed to handle the exponential (space and time) complexity class that occurs when computing the prior over all possible policies up to the time horizon. However, those two versions of BTAI still suffer from an exponential complexity class w.r.t the number of observed and latent variables being modelled. In the present paper, we resolve this limitation by first allowing the modelling of several observations, each of them having its own likelihood mapping. Similarly, we allow each latent state to have its own transition mapping. The inference algorithm then exploits the factorisation of the likelihood and transition mappings to accelerate the computation of the posterior. Those two optimisations were tested on the dSprites environment in which the metadata of the dSprites dataset was used as input to the model instead of the dSprites images. On this task, $BTAI_{VMP}$ (Champion et al., 2022b,a) was able to solve 96.9\% of the task in 5.1 seconds, and $BTAI_{BF}$ (Champion et al., 2021a) was able to solve 98.6\% of the task in 17.5 seconds. Our new approach ($BTAI_{3MF}$) outperformed both of its predecessors by solving the task completly (100\%) in only 2.559 seconds. Finally, $BTAI_{3MF}$ has been implemented in a flexible and easy to use (python) package, and we developed a graphical user interface to enable the inspection of the model's beliefs, planning process and behaviour.
翻訳日:2022-07-03 10:40:09 公開日:2022-06-24
# (参考訳) quboとクロスエントロピー法を用いたブラックボックス最適化

Black Box Optimization Using QUBO and the Cross Entropy Method ( http://arxiv.org/abs/2206.12510v1 )

ライセンス: CC BY 4.0
Jonas N\"u{\ss}lein, Christoph Roch, Thomas Gabor, Claudia Linnhoff-Popien, Sebastian Feld(参考訳) black box optimization (bbo) は解析形式が不明な関数を最適化するために用いられる。 BBOを実現するための一般的なアプローチは、ターゲットのブラックボックス関数を近似したサロゲートモデルを学習し、ホワイトボックス最適化法によって解けることである。 本稿では,サロゲートモデルがqubo行列であるbox-quboのアプローチについて述べる。 しかし、以前の最先端のアプローチとは異なり、この行列は完全に回帰によって訓練されるのではなく、主に「良い」解と「悪い」解の分類によって訓練される。 これによりQUBO行列の低容量化が図られ、結果として全体の解が大幅に改善される。 BOX-QUBOでは,4つの領域で最先端技術に対するアプローチを検証した。 2つめの貢献は、ホワイトボックス問題(すなわち、ブラックボックス最適化によって直接quboとして定式化できる問題)も解決し、qubosのサイズを情報理論上の最小値に縮小するという考えである。 実験の結果,MAX-$k$-SATの結果は大幅に改善された。

Black box optimization (BBO) can be used to optimize functions whose analytic form is unknown. A common approach to realize BBO is to learn a surrogate model which approximates the target black box function which can then be solved via white box optimization methods. In this paper we present our approach BOX-QUBO, where the surrogate model is a QUBO matrix. However, unlike in previous state-of-the-art approaches, this matrix is not trained entirely by regression, but mostly by classification between 'good' and 'bad' solutions. This better accounts for the low capacity of the QUBO matrix, resulting in significantly better solutions overall. We tested our approach against the state-of-the-art on four domains and in all of them BOX-QUBO showed significantly better results. A second contribution of this paper is the idea to also solve white box problems, i.e. problems which could be directly formulated as QUBO, by means of black box optimization in order to reduce the size of the QUBOs to their information-theoretic minimum. The experiments show that this significantly improves the results for MAX-$k$-SAT.
翻訳日:2022-07-03 10:11:48 公開日:2022-06-24
# (参考訳) 多重デバイス音響シーン分類における周波数ワイド正規化を用いた領域一般化

Domain Generalization with Relaxed Instance Frequency-wise Normalization for Multi-device Acoustic Scene Classification ( http://arxiv.org/abs/2206.12513v1 )

ライセンス: CC BY 4.0
Byeonggeun Kim, Seunghan Yang, Jangho Kim, Hyunsin Park, Juntae Lee, Simyung Chang(参考訳) 画像処理に2次元畳み込みニューラルネットワーク(2D-CNN)を用いる場合、チャネル統計を用いてドメイン情報を操作することが可能であり、インスタンスの正規化はドメイン不変の機能を得るための有望な方法である。 しかし、画像処理とは異なり、音声特徴の領域関連情報はチャネル統計よりも周波数統計において支配的であることを解析する。 本稿では,音声特徴量におけるインスタンス固有のドメインの不一致を解消し,有用な識別情報の不要な損失を緩和する,プラグアンドプレイで明示的な正規化モジュールであるRelaxed Instance Frequency-wise Normalization (RFN)を紹介した。 経験的に、ネットワークにrfnを追加するだけで、音響シーン分類の以前のドメイン一般化アプローチに比べて明確なマージンを示し、複数のオーディオデバイスのロバスト性が向上する。 特に,提案したRFNは,複数のデバイスを用いた低複雑さ音響シーン分類であるDCASE2021チャレンジTASK1Aに勝利し,RFNは我々の技術報告の延長である。

While using two-dimensional convolutional neural networks (2D-CNNs) in image processing, it is possible to manipulate domain information using channel statistics, and instance normalization has been a promising way to get domain-invariant features. However, unlike image processing, we analyze that domain-relevant information in an audio feature is dominant in frequency statistics rather than channel statistics. Motivated by our analysis, we introduce Relaxed Instance Frequency-wise Normalization (RFN): a plug-and-play, explicit normalization module along the frequency axis which can eliminate instance-specific domain discrepancy in an audio feature while relaxing undesirable loss of useful discriminative information. Empirically, simply adding RFN to networks shows clear margins compared to previous domain generalization approaches on acoustic scene classification and yields improved robustness for multiple audio devices. Especially, the proposed RFN won the DCASE2021 challenge TASK1A, low-complexity acoustic scene classification with multiple devices, with a clear margin, and RFN is an extended work of our technical report.
翻訳日:2022-07-03 09:59:06 公開日:2022-06-24
# resnetsとプリトレーニングパラ言語適合器を用いたマルチタスク音声バーストモデリング

Multitask vocal burst modeling with ResNets and pre-trained paralinguistic Conformers ( http://arxiv.org/abs/2206.12494v1 )

ライセンス: Link先を確認
Josh Belanich, Krishna Somandepalli, Brian Eoff, Brendan Jou(参考訳) 本稿では,ICML Expressive Vocalizations Workshop & Competition multitask track (ExVo-MultiTask) に提案するモデリング手法について述べる。 まず,音声事象検出文献において標準的な音声バーストのメル-スペクトログラム表現に,様々な大きさの画像分類モデルを適用した。 これらのモデルから、タスクメトリクスの調和平均に対して、ベースラインシステムに対して21.24%の増加を示し、MultiTaskトラックへのチームのメインサブミッションを構成します。 次に,音声感情認識やマスク検出などのパラ言語課題に対して,事前学習した大規模コンフォーメータモデルを適用して,マルチタスクトラックのヘッドルームを特徴付けることを試みた。 さらに,感情表現のサブタスクと起原国,年齢予測の関係を調査し,最善のモデルがシングルタスクモデルとして訓練されていることを発見し,マルチタスク設定のメリットを疑問視した。

This technical report presents the modeling approaches used in our submission to the ICML Expressive Vocalizations Workshop & Competition multitask track (ExVo-MultiTask). We first applied image classification models of various sizes on mel-spectrogram representations of the vocal bursts, as is standard in sound event detection literature. Results from these models show an increase of 21.24% over the baseline system with respect to the harmonic mean of the task metrics, and comprise our team's main submission to the MultiTask track. We then sought to characterize the headroom in the MultiTask track by applying a large pre-trained Conformer model that previously achieved state-of-the-art results on paralinguistic tasks like speech emotion recognition and mask detection. We additionally investigated the relationship between the sub-tasks of emotional expression, country of origin, and age prediction, and discovered that the best performing models are trained as single-task models, questioning whether the problem truly benefits from a multitask setting.
翻訳日:2022-06-28 17:21:27 公開日:2022-06-24
# 説明可能なML手法評価のためのアプリケーショングラウンド実験設計の重要性について

On the Importance of Application-Grounded Experimental Design for Evaluating Explainable ML Methods ( http://arxiv.org/abs/2206.13503v1 )

ライセンス: Link先を確認
Kasun Amarasinghe, Kit T. Rodolfa, S\'ergio Jesus, Valerie Chen, Vladimir Balyan, Pedro Saleiro, Pedro Bizarro, Ameet Talwalkar, Rayid Ghani(参考訳) 機械学習(ML)モデルは現在、幅広い人間の決定を通知しているが、'black box'モデルを使用すると、素早い相関や不確実なデータに依存するリスクが生じる。 これに対処するために、研究者はモデルに予測を説明する方法を提案している。 しかし、これらの手法の現実の文脈における有用性に対する堅牢な評価は、単純化された設定やプロキシタスクに依存する傾向にある。 本稿では,事前の説明可能なML評価実験を拡張し,単純化された仮定を緩和することにより,設定を配置設定に近づける実験を行った。 私たちの経験的研究は、以前の研究と劇的に異なる結論を導き、一見自明な実験的な設計選択が、いかに誤解を招く結果をもたらすかを強調します。 今回の実験以外にも,本研究は,任意のmlメソッドの評価と,対象とするデプロイコンテキストに適合する適切なタスク,データ,ユーザ,メトリクスの選択の必要性に関する教訓を持っている。

Machine Learning (ML) models now inform a wide range of human decisions, but using ``black box'' models carries risks such as relying on spurious correlations or errant data. To address this, researchers have proposed methods for supplementing models with explanations of their predictions. However, robust evaluations of these methods' usefulness in real-world contexts have remained elusive, with experiments tending to rely on simplified settings or proxy tasks. We present an experimental study extending a prior explainable ML evaluation experiment and bringing the setup closer to the deployment setting by relaxing its simplifying assumptions. Our empirical study draws dramatically different conclusions than the prior work, highlighting how seemingly trivial experimental design choices can yield misleading results. Beyond the present experiment, we believe this work holds lessons about the necessity of situating the evaluation of any ML method and choosing appropriate tasks, data, users, and metrics to match the intended deployment contexts.
翻訳日:2022-06-28 16:42:09 公開日:2022-06-24
# 算術回路、構造化行列および(そうでない)ディープラーニング

Arithmetic Circuits, Structured Matrices and (not so) Deep Learning ( http://arxiv.org/abs/2206.12490v1 )

ライセンス: Link先を確認
Atri Rudra(参考訳) 本調査は,演算回路の複雑性,構造化行列,深層学習の交点における結果の,必然的に不完全かつ偏りのある概観を示す。 近年、ニューラルネットワークの非構造化重み行列を構造化行列に置き換える研究が活発になっている(対応するディープラーニングモデルのサイズを減らすことを目的として)。 この研究の大部分は実験的であり、本調査では、計算回路の複雑さ、構造化行列、深層学習を組み合わせた最近の研究がこの疑問にどのように答えているかを示す。 この調査は、計算回路複雑性で開発されたツールが(我々の知識の最良の部分に対して)新しい構造化行列群をどのように設計したかを読むことを楽しむ複雑性理論家を対象としている。 しかし、ディープラーニングに関心がある人は、複雑性理論との関係も理解してもらいたい。

This survey presents a necessarily incomplete (and biased) overview of results at the intersection of arithmetic circuit complexity, structured matrices and deep learning. Recently there has been some research activity in replacing unstructured weight matrices in neural networks by structured ones (with the aim of reducing the size of the corresponding deep learning models). Most of this work has been experimental and in this survey, we formalize the research question and show how a recent work that combines arithmetic circuit complexity, structured matrices and deep learning essentially answers this question. This survey is targeted at complexity theorists who might enjoy reading about how tools developed in arithmetic circuit complexity helped design (to the best of our knowledge) a new family of structured matrices, which in turn seem well-suited for applications in deep learning. However, we hope that folks primarily interested in deep learning would also appreciate the connections to complexity theory.
翻訳日:2022-06-28 16:38:07 公開日:2022-06-24
# SCAI: IoTプラットフォーム用のAdaptive Inferenceを備えたスペクトルデータ分類フレームワーク

SCAI: A Spectral data Classification framework with Adaptive Inference for the IoT platform ( http://arxiv.org/abs/2206.12420v1 )

ライセンス: Link先を確認
Yundong Sun, Dongjie Zhu, Haiwen Du, Yansong Wang and Zhaoshuo Tian(参考訳) 現在は、ディープラーニングとIoT技術の助けを借りて、大規模なスペクトルデータの正確で効率的なリアルタイム識別を実現する、ホットな研究トピックである。 深層ニューラルネットワークはスペクトル解析において重要な役割を果たした。 しかし、より深いモデルの推論は静的な方法で行われ、デバイスに応じて調整することはできない。 すべてのサンプルが、信頼性のある予測に到達するために全ての計算を割り当てる必要はない。 上記の問題に対処するため,Adaptive Inferenceを用いたスペクトルデータ分類フレームワークを提案する。 具体的には、異なるサンプルに対して異なる計算を割り当て、異なるデバイス間のコラボレーションをうまく活用するために、アーリーエクイットアーキテクチャを利用し、アーキテクチャの異なる深さに中間分類器を配置し、予測信頼度が予め設定された閾値に達したときに結果を出力する。 最深部分類器は浅部をソフトに監督し,その性能と訓練速度を最大化する自己蒸留学習の訓練パラダイムを提案する。 同時に,中間分類器の位置と数設定に対する性能の脆弱性を軽減するため,位置適応型残差ネットワークを提案する。 各ブロック内のレイヤー数を異なる曲線位置で調整できるので、曲線の重要な位置(例えばラマンピーク)に集中することができ、タスクのパフォーマンスと計算リソースに基づいて適切な計算予算を正確に割り当てることができる。 我々の知る限り、この論文はIoTプラットフォーム下でのスペクトル検出のための適応推論による最適化を行うための最初の試みである。 実験の結果,提案手法は従来の手法よりも少ない計算予算で高い性能が得られることが示された。

Currently, it is a hot research topic to realize accurate, efficient, and real-time identification of massive spectral data with the help of deep learning and IoT technology. Deep neural networks played a key role in spectral analysis. However, the inference of deeper models is performed in a static manner, and cannot be adjusted according to the device. Not all samples need to allocate all computation to reach confident prediction, which hinders maximizing the overall performance. To address the above issues, we propose a Spectral data Classification framework with Adaptive Inference. Specifically, to allocate different computations for different samples while better exploiting the collaboration among different devices, we leverage Early-exit architecture, place intermediate classifiers at different depths of the architecture, and the model outputs the results when the prediction confidence reaches a preset threshold. We propose a training paradigm of self-distillation learning, the deepest classifier performs soft supervision on the shallow ones to maximize their performance and training speed. At the same time, to mitigate the vulnerability of performance to the location and number settings of intermediate classifiers in the Early-exit paradigm, we propose a Position-Adaptive residual network. It can adjust the number of layers in each block at different curve positions, so it can focus on important positions of the curve (e.g.: Raman peak), and accurately allocate the appropriate computational budget based on task performance and computing resources. To the best of our knowledge, this paper is the first attempt to conduct optimization by adaptive inference for spectral detection under the IoT platform. We conducted many experiments, the experimental results show that our proposed method can achieve higher performance with less computational budget than existing methods.
翻訳日:2022-06-28 16:22:14 公開日:2022-06-24
# 側情報を用いたcpテンソル補完のための変分ベイズ推定

Variational Bayesian inference for CP tensor completion with side information ( http://arxiv.org/abs/2206.12486v1 )

ライセンス: Link先を確認
Stanislav Budzinskiy, Nikolai Zamarashkin(参考訳) 本稿では, 変分ベイズ推定に基づくメッセージパッシングアルゴリズムを提案し, 付加側情報 (si) が与えられた場合, 正準多進形式で自動的にランクを決定する低ランクテンソル補完を行う。 SI はテンソルのファイバースパン(カラム、行、チューブなど)を含む低次元部分空間の形で現れる。 合成および実世界のデータを用いた広範囲な数値実験を行い,siによる正則化特性を検証し,テンソル回復とランク決定に関する結果を示す。 その結果, SIの有無で, 完成に要する試料数は有意に減少することがわかった。 また、siの次元がテンソルの次元に匹敵するときに存在する相転移曲線におけるバンプの起源についても論じる。

We propose a message passing algorithm, based on variational Bayesian inference, for low-rank tensor completion with automatic rank determination in the canonical polyadic format when additional side information (SI) is given. The SI comes in the form of low-dimensional subspaces the contain the fiber spans of the tensor (columns, rows, tubes, etc.). We validate the regularization properties induced by SI with extensive numerical experiments on synthetic and real-world data and present the results about tensor recovery and rank determination. The results show that the number of samples required for successful completion is significantly reduced in the presence of SI. We also discuss the origin of a bump in the phase transition curves that exists when the dimensionality of SI is comparable with that of the tensor.
翻訳日:2022-06-28 16:21:46 公開日:2022-06-24
# 構造MRIによる主観的認知低下の自動進行予測のための注意誘導オートエンコーダ

Attention-Guided Autoencoder for Automated Progression Prediction of Subjective Cognitive Decline with Structural MRI ( http://arxiv.org/abs/2206.12480v1 )

ライセンス: Link先を確認
Hao Guan, Ling Yue, Pew-Thian Yap, Andrea Bozoki, Mingxia Liu(参考訳) 主観的認知低下 (SCD) は、軽度認知障害 (MCI) 以前のアルツハイマー病 (AD) の前臨床段階である。 進歩型SCDは、さらにADに進化する可能性があるため、MCIに転換する。 したがって、神経画像技術(例えば構造mri)による進行性scdの早期診断は、adの早期介入にとって大きな臨床的有用である。 しかし、既存のMRIベースのマシン/ディープ学習法は、通常、小さなサンプルサイズの問題に悩まされる。 本稿では,SCDの進行予測を支援するために,関連ドメイン(AD/NCなど)をどのように活用するか,という課題に対処する。 一方我々は、どの脳領域が進行性SCDの同定とより密接に関連しているかを懸念している。 そこで本研究では,adからscdへの知識伝達を容易にするクロスドメイン適応のための注意誘導オートエンコーダモデルを提案する。 提案するモデルは,4つのキーコンポーネントから構成される。 1)異なる領域の共有部分空間表現を学ぶための特徴符号化モジュール 2)脳のアトラスで定義された関心の識別脳領域を自動的に特定するための注意モジュール。 3) 原入力を再構成するための復号モジュール 4) 脳疾患の識別のための分類モジュール。 これら4つのモジュールの共同トレーニングを通じて、ドメイン不変性を学ぶことができる。 一方、脳疾患関連領域は注意機構によって強調することができる。 公開されているADNIデータセットとプライベートCLASデータセットに関する大規模な実験により,提案手法の有効性が示された。 提案したモデルは、CPU上でわずか5~10秒でトレーニングとテストが簡単で、小さなデータセットを持つ医療タスクに適している。

Subjective cognitive decline (SCD) is a preclinical stage of Alzheimer's disease (AD) which occurs even before mild cognitive impairment (MCI). Progressive SCD will convert to MCI with the potential of further evolving to AD. Therefore, early identification of progressive SCD with neuroimaging techniques (e.g., structural MRI) is of great clinical value for early intervention of AD. However, existing MRI-based machine/deep learning methods usually suffer the small-sample-size problem which poses a great challenge to related neuroimaging analysis. The central question we aim to tackle in this paper is how to leverage related domains (e.g., AD/NC) to assist the progression prediction of SCD. Meanwhile, we are concerned about which brain areas are more closely linked to the identification of progressive SCD. To this end, we propose an attention-guided autoencoder model for efficient cross-domain adaptation which facilitates the knowledge transfer from AD to SCD. The proposed model is composed of four key components: 1) a feature encoding module for learning shared subspace representations of different domains, 2) an attention module for automatically locating discriminative brain regions of interest defined in brain atlases, 3) a decoding module for reconstructing the original input, 4) a classification module for identification of brain diseases. Through joint training of these four modules, domain invariant features can be learned. Meanwhile, the brain disease related regions can be highlighted by the attention mechanism. Extensive experiments on the publicly available ADNI dataset and a private CLAS dataset have demonstrated the effectiveness of the proposed method. The proposed model is straightforward to train and test with only 5-10 seconds on CPUs and is suitable for medical tasks with small datasets.
翻訳日:2022-06-28 16:03:52 公開日:2022-06-24
# Burst2Vec:声帯バーストからの感情・年齢・起源を予測するための逆マルチタスクアプローチ

Burst2Vec: An Adversarial Multi-Task Approach for Predicting Emotion, Age, and Origin from Vocal Bursts ( http://arxiv.org/abs/2206.12469v1 )

ライセンス: Link先を確認
Atijit Anuchitanukul and Lucia Specia(参考訳) ボーカルバーストから感情、年齢、起源(すなわち母国/言語)を予測するマルチタスク学習アプローチであるBurst2Vecを紹介します。 Burst2Vecは、事前訓練された音声表現を利用して生の波形から音響情報をキャプチャし、対向訓練によるモデルデバイアスの概念を取り入れている。 ICML ExVo 2022 Multi-Task Challengeの参加者の中では, 事前抽出した特徴を用いて, ベースラインに対する相対的な30%の性能向上を達成した。

We present Burst2Vec, our multi-task learning approach to predict emotion, age, and origin (i.e., native country/language) from vocal bursts. Burst2Vec utilises pre-trained speech representations to capture acoustic information from raw waveforms and incorporates the concept of model debiasing via adversarial training. Our models achieve a relative 30 % performance gain over baselines using pre-extracted features and score the highest amongst all participants in the ICML ExVo 2022 Multi-Task Challenge.
翻訳日:2022-06-28 15:51:46 公開日:2022-06-24
# C+Lバンドラマン増幅のためのグレイボックス起動認識モデル

A Grey-box Launch-profile Aware Model for C+L Band Raman Amplification ( http://arxiv.org/abs/2206.12416v1 )

ライセンス: Link先を確認
Yihao Zhang, Xiaomin Liu, Yichen Liu, Lilin Yi, Weisheng Hu, Qunbi Zhuge(参考訳) ラマン増幅の物理的特徴に基づいて,ニューラルネットワーク(nn)と線形回帰に基づく3段階モデリング手法を提案する。 純粋NN法と比較して高い精度、少ないデータ要求、低い計算複雑性がシミュレーションによって示される。

Based on the physical features of Raman amplification, we propose a three-step modelling scheme based on neural networks (NN) and linear regression. Higher accuracy, less data requirements and lower computational complexity are demonstrated through simulations compared with the pure NN-based method.
翻訳日:2022-06-28 15:33:44 公開日:2022-06-24
# 共有構造を有する逐次タスクにおける協調表現訓練

Joint Representation Training in Sequential Tasks with Shared Structure ( http://arxiv.org/abs/2206.12441v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Ofir Nachum, Nilseh Tripuraneni, Peter Bartlett(参考訳) 古典的強化学習理論(rl)は、エージェントが試行錯誤の経験を通じてタスクを解くことを学習し、そのタスクからのみデータにアクセスするという、1つのタスク設定に焦点を当てている。 しかし、近年の実証研究の多くは、複数の関連するタスクにまたがって訓練された共同表現を活用するという、重要な実践的な利点を実証している。 本研究では,タスク関連性の概念を,すべてのタスクにおいて線形力学を許容する共有状態-作用表現として定式化する。 マルチタスク行列RLの設定のための共有行列RLアルゴリズムを提案する。 ジョイント $r \ll d$ 低次元表現を共有する$p$エピソディックタスクが存在する場合、$p$タスクが$o(phd\sqrt{nh})$から$o(((hd\sqrt{rp} + hp\sqrt{rd})\sqrt{nh})$で$n$のホライズン$h$に改善できることを示す。 これらの利得は、文脈的包帯とRLの他の線形モデルで観測されたものと一致する。 他の関数近似モデルでマルチタスクRLを研究する以前の研究とは対照的に、双線型最適化オラクルや有限状態作用空間の存在下では、二次プログラミングへの還元によるマルチタスクMatrixRLの計算効率のよいアルゴリズムが存在する。 また、いくつかのエピソディック線形問題の後悔の上限から$\sqrt{h}$ factorを削る簡単な手法も開発した。

Classical theory in reinforcement learning (RL) predominantly focuses on the single task setting, where an agent learns to solve a task through trial-and-error experience, given access to data only from that task. However, many recent empirical works have demonstrated the significant practical benefits of leveraging a joint representation trained across multiple, related tasks. In this work we theoretically analyze such a setting, formalizing the concept of task relatedness as a shared state-action representation that admits linear dynamics in all the tasks. We introduce the Shared-MatrixRL algorithm for the setting of Multitask MatrixRL. In the presence of $P$ episodic tasks of dimension $d$ sharing a joint $r \ll d$ low-dimensional representation, we show the regret on the the $P$ tasks can be improved from $O(PHd\sqrt{NH})$ to $O((Hd\sqrt{rP} + HP\sqrt{rd})\sqrt{NH})$ over $N$ episodes of horizon $H$. These gains coincide with those observed in other linear models in contextual bandits and RL. In contrast with previous work that have studied multi task RL in other function approximation models, we show that in the presence of bilinear optimization oracle and finite state action spaces there exists a computationally efficient algorithm for multitask MatrixRL via a reduction to quadratic programming. We also develop a simple technique to shave off a $\sqrt{H}$ factor from the regret upper bounds of some episodic linear problems.
翻訳日:2022-06-28 15:33:40 公開日:2022-06-24
# マルチソースドメイン一般化のためのゲーテッドドメインユニット

Gated Domain Units for Multi-source Domain Generalization ( http://arxiv.org/abs/2206.12444v1 )

ライセンス: Link先を確認
Simon F\"oll, Alina Dubatovka, Eugen Ernst, Martin Maritsch, Patrik Okanovic, Gudrun Th\"ater, Joachim M. Buhmann, Felix Wortmann, Krikamol Muandet(参考訳) 分散シフト(DS)は、学習機械の性能を低下させる一般的な問題である。 この問題を解決するために、実世界の分布は、異なる領域で不変な基本分布からなると仮定する。 これを不変基本分布(I.E.D.)という。 この不変性は、未知の領域への知識伝達を可能にする。 ドメイン一般化(DG)におけるこの仮定を活用するために,GDU(Gated Domain Units)で構成されるモジュール型ニューラルネットワーク層を開発した。 各GDUは個別の初等ドメインの埋め込みを学び、トレーニング中にドメインの類似性をエンコードします。 推論中、GDUは観測と対応する基本分布のそれぞれとの類似性を計算し、学習機械の重み付けアンサンブルを形成する。 私たちのレイヤはバックプロパゲーションでトレーニングされているので、既存のディープラーニングフレームワークに簡単に統合することができます。 Digits5,ECG,Camelyon17,iWildCam,FMoWに対する評価では,対象ドメインからのデータにアクセスすることなく,トレーニング対象ドメイン上での性能が大幅に向上した。 この発見は、実世界のデータ分布におけるI.E.D.仮定の妥当性を支持する。

Distribution shift (DS) is a common problem that deteriorates the performance of learning machines. To overcome this problem, we postulate that real-world distributions are composed of elementary distributions that remain invariant across different domains. We call this an invariant elementary distribution (I.E.D.) assumption. This invariance thus enables knowledge transfer to unseen domains. To exploit this assumption in domain generalization (DG), we developed a modular neural network layer that consists of Gated Domain Units (GDUs). Each GDU learns an embedding of an individual elementary domain that allows us to encode the domain similarities during the training. During inference, the GDUs compute similarities between an observation and each of the corresponding elementary distributions which are then used to form a weighted ensemble of learning machines. Because our layer is trained with backpropagation, it can be easily integrated into existing deep learning frameworks. Our evaluation on Digits5, ECG, Camelyon17, iWildCam, and FMoW shows a significant improvement in the performance on out-of-training target domains without any access to data from the target domains. This finding supports the validity of the I.E.D. assumption in real-world data distributions.
翻訳日:2022-06-28 15:33:06 公開日:2022-06-24
# 機能工学を伴わない正常挙動モデルに基づく風力タービンの振動欠陥検出

Vibration fault detection in wind turbines based on normal behaviour models without feature engineering ( http://arxiv.org/abs/2206.12452v1 )

ライセンス: Link先を確認
Stefan Jonas, Dimitrios Anagnostos, Bernhard Brodbeck, Angela Meyer(参考訳) ほとんどの風力タービンは、運用上の問題の早期検出と損傷の発生を可能にするため、24/7で遠隔監視されている。 本稿では, 特徴工学を必要としない振動監視駆動列車の故障検出手法を提案する。 本手法は, 簡単なモデルアーキテクチャを用いて, 簡単な実装を実現する。 本稿では,半スペクトルから最も関連性の高い特徴を自動抽出し,時間と労力を節約するための畳み込みオートエンコーダの適用を提案する。 これにより、過去の測定結果から監視成分に対する正常振動応答のスペクトルモデルが学習される。 本モデルでは, 損傷成分から損傷成分を識別し, 損傷発生体と損傷歯車部品を振動応答から検出できることが実証された。 商用風力タービンと試験装置を用いて, 風力タービン駆動列車の振動に基づく故障検出を, スペクトル特性の通常の事前定義なしに行うことができることを示す。 提案手法のもう1つの利点は、ハーフスペクトル全体が、個々の周波数やハーモニクスの監視ではなく、監視されることである。

Most wind turbines are remotely monitored 24/7 to allow for an early detection of operation problems and developing damage. We present a new fault detection method for vibration-monitored drivetrains that does not require any feature engineering. Our method relies on a simple model architecture to enable a straightforward implementation in practice. We propose to apply convolutional autoencoders for identifying and extracting the most relevant features from the half spectrum in an automated manner, saving time and effort. Thereby, a spectral model of the normal vibration response is learnt for the monitored component from past measurements. We demonstrate that the model can successfully distinguish damaged from healthy components and detect a damaged generator bearing and damaged gearbox parts from their vibration responses. Using measurements from commercial wind turbines and a test rig, we show that vibration-based fault detection in wind turbine drivetrains can be performed without the usual upfront definition of spectral features. Another advantage of the presented method is that the entire half spectrum is monitored instead of the usual focus on monitoring individual frequencies and harmonics.
翻訳日:2022-06-28 15:32:48 公開日:2022-06-24
# 文章における構文語彙のトレードオフ

The syntax-lexicon tradeoff in writing ( http://arxiv.org/abs/2206.12485v1 )

ライセンス: Link先を確認
Neguine Rezaii(参考訳) 話し手が思考を文章化するにつれて、単語の複雑さと構文のバランスが保たれる。 しかし、この構文辞書のトレードオフが、高速オンライン処理の圧力下にある音声言語の生産に特有のものであるかどうかは不明である。 あるいは、生産のモダリティに関係なく、トレードオフが言語の基本的な特性である可能性もある。 本研究は,3つの異なる話題において,単語の複雑さと神経型個人の記述言語における統語規則の関係を評価する。 その結果,文章中の文を構成することは,語彙項目と構文項目の複雑さのトレードオフを伴うことがわかった。 また、書込み時のオンライン処理要求の低減により、より単純な構文を組み込むコストで、より複雑な単語を検索できることを示す。 この研究は、構文-語彙トレードオフの出現における駆動力としての文の要素のアクセシビリティの役割をさらに強調する。

As speakers turn their thoughts into sentences, they maintain a balance between the complexity of words and syntax. However, it is unclear whether this syntax-lexicon tradeoff is unique to the spoken language production that is under the pressure of rapid online processing. Alternatively, it is possible that the tradeoff is a basic property of language irrespective of the modality of production. This work evaluates the relationship between the complexity of words and syntactic rules in the written language of neurotypical individuals on three different topics. We found that similar to speaking, constructing sentences in writing involves a tradeoff between the complexity of the lexical and syntactic items. We also show that the reduced online processing demands during writing allows for retrieving more complex words at the cost of incorporating simpler syntax. This work further highlights the role of accessibility of the elements of a sentence as the driving force in the emergence of the syntax-lexicon tradeoff.
翻訳日:2022-06-28 15:25:47 公開日:2022-06-24
# DetIE:オブジェクト検出にヒントを得た多言語オープン情報抽出

DetIE: Multilingual Open Information Extraction Inspired by Object Detection ( http://arxiv.org/abs/2206.12514v1 )

ライセンス: Link先を確認
Michael Vasilkovsky, Anton Alekseev, Valentin Malykh, Ilya Shenbin, Elena Tutubalina, Dmitriy Salikhov, Mikhail Stepnov, Andrey Chertok, Sergey Nikolenko(参考訳) オープン情報抽出のためのアートニューラルメソッド(openie)は、通常、重複を発生させないために、自己回帰的または述語に基づく方法で反復的にトリプレット(またはタプル)を抽出する。 本研究では,問題に対して等しく,あるいはそれ以上の成功が可能な,異なるアプローチを提案する。 コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。 本稿では,2部マッチングに基づく順序非依存の損失を用いて,一意な予測を強制し,シーケンスラベリングのためのトランスフォーマーベースのエンコーダのみアーキテクチャを用いる。 提案手法は, 品質指標と推論時間の両方の観点から, 標準ベンチマークにおける技術モデルと比較し, 優れた性能あるいは類似性を示す。 OIE2016として評価されたCARBの67.7% F1の新たな性能を,従来よりも3.35倍高速に設定した。 また,このモデルの多言語版を2言語でゼロショット設定で評価し,各言語用のモデルを微調整する合成多言語データを生成する戦略を提案する。 この設定では、多言語Re-OIE2016のパフォーマンスが15%向上し、ポルトガル語とスペイン語の両方で75%F1に達した。 コードとモデルはhttps://github.com/sberbank-ai/detieで入手できる。

State of the art neural methods for open information extraction (OpenIE) usually extract triplets (or tuples) iteratively in an autoregressive or predicate-based manner in order not to produce duplicates. In this work, we propose a different approach to the problem that can be equally or more successful. Namely, we present a novel single-pass method for OpenIE inspired by object detection algorithms from computer vision. We use an order-agnostic loss based on bipartite matching that forces unique predictions and a Transformer-based encoder-only architecture for sequence labeling. The proposed approach is faster and shows superior or similar performance in comparison with state of the art models on standard benchmarks in terms of both quality metrics and inference time. Our model sets the new state of the art performance of 67.7% F1 on CaRB evaluated as OIE2016 while being 3.35x faster at inference than previous state of the art. We also evaluate the multilingual version of our model in the zero-shot setting for two languages and introduce a strategy for generating synthetic multilingual data to fine-tune the model for each specific language. In this setting, we show performance improvement 15% on multilingual Re-OIE2016, reaching 75% F1 for both Portuguese and Spanish languages. Code and models are available at https://github.com/sberbank-ai/DetIE.
翻訳日:2022-06-28 15:25:25 公開日:2022-06-24
# カメラトラップ画像における動物種の長期視覚認識のためのトリックの袋

Bag of Tricks for Long-Tail Visual Recognition of Animal Species in Camera Trap Images ( http://arxiv.org/abs/2206.12458v1 )

ライセンス: Link先を確認
Fagner Cunha, Eulanda M. dos Santos, Juan G. Colonna(参考訳) カメラトラップは、多数の写真を集める野生生物を監視するための戦略である。 それぞれの種から収集された画像の数は、通常、ロングテール分布に従う。例えば、いくつかのクラスは、多数のインスタンスを持ち、多くの種は、ほんのわずかなパーセンテージしか持たない。 ほとんどの場合、これらの希少種は生態学者にとって関心のクラスであるが、これらのモデルは訓練のために大量の画像を必要とするため、深層学習モデルを使用する際に無視されることが多い。 そこで本研究では,近年提案されている二乗根再サンプリング法,クラスバランス焦点損失法,バランスグループソフトマックス法を体系的に評価し,カメラトラップ画像における動物種の長期視覚認識について検討した。 より一般的な結論を得るために,コンピュータビジョンモデル(ResNet, MobileNetV3, EfficientNetV2, Swin Transformer)の4つのファミリーと,異なる特徴を持つ4つのカメラトラップデータセットについて,選択した手法の評価を行った。 まず,最新のトレーニング手法を用いてロバストなベースラインを作成し,その後,ロングテール認識の改善手法を適用した。 実験の結果,Swin変換器は不均衡処理のための追加手法を適用せずに,WCSデータセットが88.76%,Snapshot Serengetiが94.97%,位置ベーストレイン/テスト分割が考慮されている。 一般に、正方根サンプリングはマイノリティクラスのパフォーマンスを10%程度向上させる手法であるが、多数派クラスの精度を少なくとも4%低下させるコストがかかる。 これらの結果から,正方根サンプリングとベースラインを組み合わせたアンサンブルを用いた簡便で効果的なアプローチを提案する。 提案手法はテールクラスの性能とヘッドクラスの精度のコストのトレードオフを最善に達成した。

Camera traps are a strategy for monitoring wildlife that collects a large number of pictures. The number of images collected from each species usually follows a long-tail distribution, i.e., a few classes have a large number of instances while a lot of species have just a small percentage. Although in most cases these rare species are the classes of interest to ecologists, they are often neglected when using deep learning models because these models require a large number of images for the training. In this work, we systematically evaluate recently proposed techniques - namely, square-root re-sampling, class-balanced focal loss, and balanced group softmax - to address the long-tail visual recognition of animal species in camera trap images. To achieve a more general conclusion, we evaluated the selected methods on four families of computer vision models (ResNet, MobileNetV3, EfficientNetV2, and Swin Transformer) and four camera trap datasets with different characteristics. Initially, we prepared a robust baseline with the most recent training tricks and then we applied the methods for improving long-tail recognition. Our experiments show that the Swin transformer can reach high performance for rare classes without applying any additional method for handling imbalance, with an overall accuracy of 88.76% for WCS dataset and 94.97% for Snapshot Serengeti, considering a location-based train/test split. In general, the square-root sampling was the method that most improved the performance for minority classes by around 10%, but at the cost of reducing the majority classes accuracy at least 4%. These results motivated us to propose a simple and effective approach using an ensemble combining square-root sampling and the baseline. The proposed approach achieved the best trade-off between the performance of the tail class and the cost of the head classes' accuracy.
翻訳日:2022-06-28 15:20:52 公開日:2022-06-24
# 大規模変位・変形の運動推定

Motion Estimation for Large Displacements and Deformations ( http://arxiv.org/abs/2206.12464v1 )

ライセンス: Link先を確認
Qiao Chen, Charalambos Poullis(参考訳) 大きな変位光流は、多くのコンピュータビジョンタスクの不可欠な部分である。 粗い微細なスキームに基づく変分光学フロー技術はスパースマッチを補間し、色、勾配、滑らかさを条件としたエネルギーモデルを局所的に最適化し、スパースマッチ、変形および任意に大きな変位のノイズに敏感にする。 本稿では, この問題に対処し, 大きな変位と変形に対する変動運動推定フレームワークであるHybridFlowを提案する。 画像ペア上でマルチスケールなハイブリッドマッチングアプローチを行う。 特徴記述子に従って画素を分類した粗大クラスタを、クラスタのコンテキスト記述子を用いてマッチングする。 マッチングされた各粗大クラスタに含まれるより微細なスーパーピクセルにマルチスケールグラフマッチングを適用する。 さらに分割できない小さなクラスタは、ローカライズされた特徴マッチングによってマッチングされる。 これらの初期マッチングは、エッジ保存補間と変分精細化によって伝播するフローを形成する。 本手法はトレーニングを必要とせず,シーンの動作による相当な変位や剛性・非剛性変形に頑健であり,広域動画像(wami)のような大規模画像に最適である。 より顕著に、HybridFlowは知覚群を表す任意の位相の有向グラフに作用し、大きな変形が存在する場合の運動推定を改善する。 2つのベンチマークデータセットにおいて,hybridflowは最先端の変分技術よりも優れた性能を示し,最先端のディープラーニング技術と同等の結果を報告している。

Large displacement optical flow is an integral part of many computer vision tasks. Variational optical flow techniques based on a coarse-to-fine scheme interpolate sparse matches and locally optimize an energy model conditioned on colour, gradient and smoothness, making them sensitive to noise in the sparse matches, deformations, and arbitrarily large displacements. This paper addresses this problem and presents HybridFlow, a variational motion estimation framework for large displacements and deformations. A multi-scale hybrid matching approach is performed on the image pairs. Coarse-scale clusters formed by classifying pixels according to their feature descriptors are matched using the clusters' context descriptors. We apply a multi-scale graph matching on the finer-scale superpixels contained within each matched pair of coarse-scale clusters. Small clusters that cannot be further subdivided are matched using localized feature matching. Together, these initial matches form the flow, which is propagated by an edge-preserving interpolation and variational refinement. Our approach does not require training and is robust to substantial displacements and rigid and non-rigid transformations due to motion in the scene, making it ideal for large-scale imagery such as Wide-Area Motion Imagery (WAMI). More notably, HybridFlow works on directed graphs of arbitrary topology representing perceptual groups, which improves motion estimation in the presence of significant deformations. We demonstrate HybridFlow's superior performance to state-of-the-art variational techniques on two benchmark datasets and report comparable results with state-of-the-art deep-learning-based techniques.
翻訳日:2022-06-28 15:20:15 公開日:2022-06-24
# 病理組織像解析のためのステインベースコントラストコトレーニング

Stain based contrastive co-training for histopathological image analysis ( http://arxiv.org/abs/2206.12505v1 )

ライセンス: Link先を確認
Bodong Zhang, Beatrice Knudsen, Deepika Sirohi, Alessandro Ferrero, Tolga Tasdizen(参考訳) 病理組織像の分類のための新しい半教師付き学習手法を提案する。 我々は,パッチレベルのアノテーションと新しいコトレーニングロスを組み合わせることで,セミ教師付き学習フレームワークを作成する。 コトレーニングは、複数の条件独立かつ十分なデータビューに依存する。 カラーデコンボリューションを用いて病理画像中のヘマトキシリンとエオシンチャネルを分離し,これらの要件を部分的に満たせるスライドの2つのビューを作成する。 2つの別々のCNNを使用して、2つのビューを共同機能空間に埋め込む。 我々は、この機能空間におけるビュー間の対照的な損失を利用して、コトレーニングを実装します。 透明細胞腎細胞および前立腺癌に対するアプローチを評価し,最先端の半教師あり学習法の改善を実証した。

We propose a novel semi-supervised learning approach for classification of histopathology images. We employ strong supervision with patch-level annotations combined with a novel co-training loss to create a semi-supervised learning framework. Co-training relies on multiple conditionally independent and sufficient views of the data. We separate the hematoxylin and eosin channels in pathology images using color deconvolution to create two views of each slide that can partially fulfill these requirements. Two separate CNNs are used to embed the two views into a joint feature space. We use a contrastive loss between the views in this feature space to implement co-training. We evaluate our approach in clear cell renal cell and prostate carcinomas, and demonstrate improvement over state-of-the-art semi-supervised learning methods.
翻訳日:2022-06-28 15:19:50 公開日:2022-06-24
# ベイズアンサンブルアプローチによるサッカー選手の値の予測

Prediction of Football Player Value using Bayesian Ensemble Approach ( http://arxiv.org/abs/2206.13246v1 )

ライセンス: Link先を確認
Hansoo Lee, Bayu Adhi Tama, Meeyoung Cha(参考訳) スポーツ選手の移動料金は天文学的になった。 これは、クラブに将来的な価値をもたらすプレイヤーが生き残るために不可欠であるからである。 そこで本研究では,FIFAデータ分析に基づいて,世界トップ選手の転送手数料に影響を及ぼす要因について事例研究を行った。 各プレイヤーの市場価値を予測するため,木構造型Parzen Estimator (TPE)アルゴリズムを用いてハイパーパラメータを最適化し,改良されたLightGBMモデルを提案する。 SHAP(SHapley Additive exPlanations)アルゴリズムにより特徴を同定する。 提案手法は,線形回帰,ラッソ,弾性ネット,カーネルリッジ回帰などのベースライン回帰モデルと,ハイパーパラメータ最適化を伴わない勾配促進モデルとの比較を行った。 最適化されたLightGBMモデルはRMSEの回帰ベースラインモデル、GBDT、LightGBMモデルと比較して平均3.8、1.4、1.8倍の精度を示した。 我々のモデルは,将来,サッカークラブが選手を募集する際に考慮すべき属性を決定する上で,解釈可能性を提供する。

The transfer fees of sports players have become astronomical. This is because bringing players of great future value to the club is essential for their survival. We present a case study on the key factors affecting the world's top soccer players' transfer fees based on the FIFA data analysis. To predict each player's market value, we propose an improved LightGBM model by optimizing its hyperparameter using a Tree-structured Parzen Estimator (TPE) algorithm. We identify prominent features by the SHapley Additive exPlanations (SHAP) algorithm. The proposed method has been compared against the baseline regression models (e.g., linear regression, lasso, elastic net, kernel ridge regression) and gradient boosting model without hyperparameter optimization. The optimized LightGBM model showed an excellent accuracy of approximately 3.8, 1.4, and 1.8 times on average compared to the regression baseline models, GBDT, and LightGBM model in terms of RMSE. Our model offers interpretability in deciding what attributes football clubs should consider in recruiting players in the future.
翻訳日:2022-06-28 14:24:50 公開日:2022-06-24
# 線形ペイオフを考慮したリスク-逆コンテキスト多重武器帯域問題

Risk-averse Contextual Multi-armed Bandit Problem with Linear Payoffs ( http://arxiv.org/abs/2206.12463v1 )

ライセンス: Link先を確認
Yifan Lin, Yuhao Wang, Enlu Zhou(参考訳) 本稿では,リスク回避基準の下でのリニアペイオフの文脈的多腕バンディット問題を考える。 各ラウンドで各アームのコンテキストが明らかにされ、意思決定者は1つのアームを選択して対応する報酬を受け取る。 特に,平均分散をリスク基準とし,平均分散報酬が最も大きいのが最善のアームである。 本手法は,非結合モデルにトンプソンサンプリングアルゴリズムを適用し,提案手法の変種に対する包括的後悔解析を提供する。 0<\epsilon<\frac{1}{2}$,$0<\epsilon<\frac{1}{2}$,$0<\delta<1}{2}$,$0<\epsilon<\delta<1$}} に対して、$t$ round, $k$ action, $d$-dimensional feature vectorに対して、$o((1+\rho+\frac{1}{\rho}) d\ln t \ln \frac{k}{\delta}\sqrt{d k t^{1+2\epsilon} \ln \frac{k}{\delta} \frac{1}{\epsilon}})$という、平均分散基準の下で1-\delta$で保たれ、リスク耐性のある$0<\epsilon<\frac{1}{2}$,$0<\delta<1$である。 提案アルゴリズムの実証性能は,ポートフォリオ選択問題によって実証される。

In this paper we consider the contextual multi-armed bandit problem for linear payoffs under a risk-averse criterion. At each round, contexts are revealed for each arm, and the decision maker chooses one arm to pull and receives the corresponding reward. In particular, we consider mean-variance as the risk criterion, and the best arm is the one with the largest mean-variance reward. We apply the Thompson Sampling algorithm for the disjoint model, and provide a comprehensive regret analysis for a variant of the proposed algorithm. For $T$ rounds, $K$ actions, and $d$-dimensional feature vectors, we prove a regret bound of $O((1+\rho+\frac{1}{\rho}) d\ln T \ln \frac{K}{\delta}\sqrt{d K T^{1+2\epsilon} \ln \frac{K}{\delta} \frac{1}{\epsilon}})$ that holds with probability $1-\delta$ under the mean-variance criterion with risk tolerance $\rho$, for any $0<\epsilon<\frac{1}{2}$, $0<\delta<1$. The empirical performance of our proposed algorithms is demonstrated via a portfolio selection problem.
翻訳日:2022-06-28 14:24:32 公開日:2022-06-24
# 深層伝達学習に基づく分散音響センシングシステムの新しい解析法

A Novel Approach For Analysis of Distributed Acoustic Sensing System Based on Deep Transfer Learning ( http://arxiv.org/abs/2206.12484v1 )

ライセンス: Link先を確認
Ceyhun Efe Kayan, Kivilcim Yuksel Aldogan, Abdurrahman Gumus(参考訳) 分散音響センサ(DAS)は、光ファイバーに沿って非常に高い空間分解能を持つ様々な事象の信号を記録するための多くの応用領域で広く用いられている有効装置である。 記録された事象を適切に検出・認識するには、高い計算量を必要とする高度な信号処理アルゴリズムが不可欠である。 畳み込みニューラルネットワークは空間情報を抽出する能力の高いツールであり、DASにおけるイベント認識アプリケーションに非常に適している。 LSTM(Long-Short term memory)は、シーケンシャルデータを処理するための有効な機器である。 本研究では,これらニューラルネットワークアーキテクチャの機能と伝達学習を組み合わせた多入力多出力2段階特徴抽出手法を提案し,光ファイバに適用した振動をピエゾトランスデューサで分類する。 まず、位相-OTDR記録から位相振幅と位相情報を抽出し、時間空間データ行列に保存する。 そして,第1段階では,濃密な層を伴わない最先端の事前学習cnnを特徴抽出器として用いた。 第2段階では,LSTMを用いてCNNが抽出した特徴を解析した。 最後に,抽出された特徴の分類に高密度層を用いた。 使用済みCNNアーキテクチャの効果を観察するため,5つの最先端事前学習モデル(VGG-16,ResNet-50,DenseNet-121,MobileNet,Inception-v3)を用いて実験を行った。 その結果,我々のフレームワークにおけるvgg-16アーキテクチャは,50のトレーニングで100%の分類精度を獲得し,phase-otdrデータセットで最高の結果を得た。 本研究の結果から,lstmと組み合わされた事前学習されたcnnは,das応用における事象認識操作に期待できる時間空間データ行列で表される微分振幅と位相情報の解析に非常に適していることが示唆された。

Distributed acoustic sensors (DAS) are effective apparatus which are widely used in many application areas for recording signals of various events with very high spatial resolution along the optical fiber. To detect and recognize the recorded events properly, advanced signal processing algorithms with high computational demands are crucial. Convolutional neural networks are highly capable tools for extracting spatial information and very suitable for event recognition applications in DAS. Long-short term memory (LSTM) is an effective instrument for processing sequential data. In this study, we proposed a multi-input multi-output, two stage feature extraction methodology that combines the capabilities of these neural network architectures with transfer learning to classify vibrations applied to an optical fiber by a piezo transducer. First, we extracted the differential amplitude and phase information from the Phase-OTDR recordings and stored them in a temporal-spatial data matrix. Then, we used a state-of-the-art pre-trained CNN without dense layers as a feature extractor in the first stage. In the second stage, we used LSTMs to further analyze the features extracted by the CNN. Finally, we used a dense layer to classify the extracted features. To observe the effect of the utilized CNN architecture, we tested our model with five state-of-the art pre-trained models (VGG-16, ResNet-50, DenseNet-121, MobileNet and Inception-v3). The results show that using the VGG-16 architecture in our framework manages to obtain 100% classification accuracy in 50 trainings and got the best results on our Phase-OTDR dataset. Outcomes of this study indicate that the pre-trained CNNs combined with LSTM are very suitable for the analysis of differential amplitude and phase information, represented in a temporal spatial data matrix which is promising for event recognition operations in DAS applications.
翻訳日:2022-06-28 14:20:34 公開日:2022-06-24
# 適応小隊と予約型自律交差点制御のモデル化:深層強化学習アプローチ

Modeling Adaptive Platoon and Reservation Based Autonomous Intersection Control: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2206.12419v1 )

ライセンス: Link先を確認
Duowei Li (1 and 2), Jianping Wu (1), Feng Zhu (2), Tianyi Chen (2), and Yiik Diew Wong (2) ((1) Department of Civil Engineering, Tsinghua University, China, (2) School of Civil and Environmental Engineering, Nanyang Technological University, Singapore)(参考訳) 移動遅延を低減しエネルギー効率を高める戦略として、非信号交差点でのコネクテッド・自動運転車(CAV)の小隊化が学術的に人気が高まっている。 しかし、最適小隊の大きさと交差点周辺の交通条件の関係をモデル化しようとする研究はほとんどない。 そこで本研究では, 深部強化学習(DRL)技術を利用した適応型小隊型自律交叉制御モデルを提案する。 モデルフレームワークには以下の2つのレベルがある: 1つ目のレベルは、第1のカムファーストサーブ(fcfs)予約ベースのポリシーを、車両の通過優先性を決定する非競合レーン選択機構と統合し、第2のレベルは、交差点のリアルタイム交通状況に基づいて最適な小隊の大きさを特定するために深いqネットワークアルゴリズムを適用する。 トラヒックマイクロシミュレータ上での試験において,提案手法は最先端の手法に比べて走行効率と燃費の維持に優れた性能を示す。

As a strategy to reduce travel delay and enhance energy efficiency, platooning of connected and autonomous vehicles (CAVs) at non-signalized intersections has become increasingly popular in academia. However, few studies have attempted to model the relation between the optimal platoon size and the traffic conditions around the intersection. To this end, this study proposes an adaptive platoon based autonomous intersection control model powered by deep reinforcement learning (DRL) technique. The model framework has following two levels: the first level adopts a First Come First Serve (FCFS) reservation based policy integrated with a nonconflicting lane selection mechanism to determine vehicles' passing priority; and the second level applies a deep Q-network algorithm to identify the optimal platoon size based on the real-time traffic condition of an intersection. When being tested on a traffic micro-simulator, our proposed model exhibits superior performances on travel efficiency and fuel conservation as compared to the state-of-the-art methods.
翻訳日:2022-06-28 13:56:58 公開日:2022-06-24
# OPERA:タスク指向ダイアログと情報検索エクスペリエンスの調和

OPERA: Harmonizing Task-Oriented Dialogs and Information Seeking Experience ( http://arxiv.org/abs/2206.12449v1 )

ライセンス: Link先を確認
Miaoran Li, Baolin Peng, Jianfeng Gao, Zhu Zhang(参考訳) 会話型AIにおける既存の研究は、主にタスク指向対話(TOD)と質問応答(QA)を別々のタスクとして扱う。 ユーザのタスクを完了し、情報検索を支援する会話エージェントの構築という目標に向けて、様々な外部知識にアクセスしてtodとqaの両方を処理するシステムを構築することが重要である。 そこで本研究では,TODとQAタスクを組み合わせた新たなタスクであるOpen-Book TOD(OB-TOD)を提案し,外部知識ソースを拡張して,明示的な知識ソース(Webなど)と暗黙的な知識ソース(事前学習言語モデルなど)を含める。 私たちは新しいデータセット ob-multiwozを作成し、外部の知識に基づくqaライクな情報探索体験でtodセッションを強化します。 本稿では,明示的かつ暗黙的な外部知識にアクセスしてタスクに取り組むための統一型モデルopera (open-book end-to-end task-oriented dialog)を提案する。 実験結果から,OPERAはクローズドブックのベースラインに比べて優れた性能を示し,両者の知識タイプの価値を示した。

Existing studies in conversational AI mostly treat task-oriented dialog (TOD) and question answering (QA) as separate tasks. Towards the goal of constructing a conversational agent that can complete user tasks and support information seeking, it is important to build a system that handles both TOD and QA with access to various external knowledge. In this work, we propose a new task, Open-Book TOD (OB-TOD), which combines TOD with QA task and expand external knowledge sources to include both explicit knowledge sources (e.g., the Web) and implicit knowledge sources (e.g., pre-trained language models). We create a new dataset OB-MultiWOZ, where we enrich TOD sessions with QA-like information seeking experience grounded on external knowledge. We propose a unified model OPERA (Open-book End-to-end Task-oriented Dialog) which can appropriately access explicit and implicit external knowledge to tackle the defined task. Experimental results demonstrate OPERA's superior performance compared to closed-book baselines and illustrate the value of both knowledge types.
翻訳日:2022-06-28 13:24:08 公開日:2022-06-24
# RAPid-Learn: オープンワールド環境における新規処理の学習フレームワーク

RAPid-Learn: A Framework for Learning to Recover for Handling Novelties in Open-World Environments ( http://arxiv.org/abs/2206.12493v1 )

ライセンス: Link先を確認
Shivam Goel, Yash Shukla, Vasanth Sarathy, Matthias Scheutz, Jivko Sinapov(参考訳) エージェントの環境(すなわちノベルティ)における突然の予期せぬ変化に適応する問題に取り組むため,ハイブリッドな計画学習手法である「リカバリ・プランニング」を提案する。 RAPid-Learnは、タスクのMarkov Decision Process(MDP)をオンザフライで修正し、解決するために設計されており、ドメイン知識を利用して環境変化に起因する新しいダイナミクスを学習することができる。 ドメイン知識を利用してアクションエグゼキュータを学習し、さらに実行の障害を解決するために使用できるため、計画の実行が成功する。 この新しい情報は、更新されたドメインモデルに反映される。 Minecraftにインスパイアされたグリッドワールド環境において,多種多様なノベルティを導入することで,その効果を実証し,本手法を文献からの移動学習ベースラインと比較した。 提案手法は,(1)複数の新奇性の存在下においても有効であり,(2)移動学習RLベースラインよりも効率的なサンプル,(3)純粋な記号的計画手法とは対照的に不完全なモデル情報に対して頑健である。

We propose RAPid-Learn: Learning to Recover and Plan Again, a hybrid planning and learning method, to tackle the problem of adapting to sudden and unexpected changes in an agent's environment (i.e., novelties). RAPid-Learn is designed to formulate and solve modifications to a task's Markov Decision Process (MDPs) on-the-fly and is capable of exploiting domain knowledge to learn any new dynamics caused by the environmental changes. It is capable of exploiting the domain knowledge to learn action executors which can be further used to resolve execution impasses, leading to a successful plan execution. This novelty information is reflected in its updated domain model. We demonstrate its efficacy by introducing a wide variety of novelties in a gridworld environment inspired by Minecraft, and compare our algorithm with transfer learning baselines from the literature. Our method is (1) effective even in the presence of multiple novelties, (2) more sample efficient than transfer learning RL baselines, and (3) robust to incomplete model information, as opposed to pure symbolic planning approaches.
翻訳日:2022-06-28 13:22:02 公開日:2022-06-24
# fetreg2021 : 胎盤血管の分節化とfetoscopyにおける登録に関する挑戦

FetReg2021: A Challenge on Placental Vessel Segmentation and Registration in Fetoscopy ( http://arxiv.org/abs/2206.12512v1 )

ライセンス: Link先を確認
Sophia Bano, Alessandro Casella, Francisco Vasconcelos, Abdul Qayyum, Abdesslam Benzinou, Moona Mazher, Fabrice Meriaudeau, Chiara Lena, Ilaria Anita Cintorrino, Gaia Romana De Paolis, Jessica Biagioli, Daria Grechishnikova, Jing Jiao, Bizhe Bai, Yanyan Qiao, Binod Bhattarai, Rebati Raman Gaire, Ronast Subedi, Eduard Vazquez, Szymon P{\l}otka, Aneta Lisowska, Arkadiusz Sitek, George Attilakos, Ruwan Wimalasundera, Anna L David, Dario Paladini, Jan Deprest, Elena De Momi, Leonardo S Mattos, Sara Moccia, Danail Stoyanov(参考訳) Fetoscopy laser photocoagulation はツイン・ツー・ツイン・トランスフュージョン症候群(TTTS)の治療法として広く用いられている。 この方法には、双子の血液交換を制御するための光凝固病理解剖が含まれる。 この手順は、視野が狭く、フェトスコープの可視性が悪く、可視性が悪く、照度が変化しやすいため、特に困難である。 これらの課題は手術時間の増加と不完全なアブレーションにつながる可能性がある。 コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。 この領域の研究は、CAIアルゴリズムの設計、開発、テストのための高品質なデータ不足によって妨げられている。 miccai2021内視鏡ビジョンチャレンジの一環として組織されたfetoscopic placental vessel segmentation and registration (fetreg2021) challengeを通じて,汎用的でロバストな意味セグメンテーションとビデオモザイクキングアルゴリズムを開発するための,最初の大規模マルチセンタttsデータセットをリリースした。 この課題のために我々は2060画像のデータセット、血管用ピクセルアノテーション、ツール、胎児および背景クラス、18 in-vivo tts fetoscopy procedureおよび18 short video clipsをリリースした。 この課題には7つのチームが参加し、6つのフェトスコープ手順と6つのショートクリップから658のピクセルアノテート画像の未認識テストデータセットでモデルのパフォーマンスを評価した。 この挑戦は、フェトスコピックなシーン理解とモザイクのための一般化されたソリューションを作成する機会を提供した。 本稿では,fetreg2021チャレンジの成果と,tts fetoscopyにおけるcaiに関する詳細な文献レビューを報告する。 この課題、その分析と多中心フェトスコープデータのリリースを通じて、この分野における今後の研究のベンチマークを提供する。

Fetoscopy laser photocoagulation is a widely adopted procedure for treating Twin-to-Twin Transfusion Syndrome (TTTS). The procedure involves photocoagulation pathological anastomoses to regulate blood exchange among twins. The procedure is particularly challenging due to the limited field of view, poor manoeuvrability of the fetoscope, poor visibility, and variability in illumination. These challenges may lead to increased surgery time and incomplete ablation. Computer-assisted intervention (CAI) can provide surgeons with decision support and context awareness by identifying key structures in the scene and expanding the fetoscopic field of view through video mosaicking. Research in this domain has been hampered by the lack of high-quality data to design, develop and test CAI algorithms. Through the Fetoscopic Placental Vessel Segmentation and Registration (FetReg2021) challenge, which was organized as part of the MICCAI2021 Endoscopic Vision challenge, we released the first largescale multicentre TTTS dataset for the development of generalized and robust semantic segmentation and video mosaicking algorithms. For this challenge, we released a dataset of 2060 images, pixel-annotated for vessels, tool, fetus and background classes, from 18 in-vivo TTTS fetoscopy procedures and 18 short video clips. Seven teams participated in this challenge and their model performance was assessed on an unseen test dataset of 658 pixel-annotated images from 6 fetoscopic procedures and 6 short clips. The challenge provided an opportunity for creating generalized solutions for fetoscopic scene understanding and mosaicking. In this paper, we present the findings of the FetReg2021 challenge alongside reporting a detailed literature review for CAI in TTTS fetoscopy. Through this challenge, its analysis and the release of multi-centre fetoscopic data, we provide a benchmark for future research in this field.
翻訳日:2022-06-28 12:21:20 公開日:2022-06-24
# (参考訳) 公平性のための文脈問題 -空間分布シフトの影響を事例として-

Context matters for fairness -- a case study on the effect of spatial distribution shifts ( http://arxiv.org/abs/2206.11436v2 )

ライセンス: CC BY 4.0
Siamak Ghodsi, Harith Alani, and Eirini Ntoutsi(参考訳) データ駆動型AIに基づく意思決定技術が日々の社会生活にますます関与している中、これらのシステムの公正性は重要な現象になりつつある。 しかしながら、これらのシステムを利用する上で重要かつしばしば挑戦的な側面は、特に分布シフトの際のアプリケーションの範囲の妥当性、すなわち、トレーニングセットとは異なる分散データにモデルがデプロイされる場合の妥当性を区別することである。 本稿では,米国国勢調査データセット(american census datasets, a reconstruction of the popular adult dataset, a reconstruction of the popular adult dataset)について事例研究を行い,フェアネスに対する文脈の重要性を明らかにし,空間分布シフトがモデルの予測およびフェアネス関連性能にどのように影響するかを示す。 この問題は、各州と異なる集団間で異なる文脈固有の公平な介入の効果を持つフェアネス認識学習モデルに対して持続する。 本研究は,モデルを他のコンテキストにデプロイする前に,分散シフトへのロバスト性が必要であることを示唆する。

With the ever growing involvement of data-driven AI-based decision making technologies in our daily social lives, the fairness of these systems is becoming a crucial phenomenon. However, an important and often challenging aspect in utilizing such systems is to distinguish validity for the range of their application especially under distribution shifts, i.e., when a model is deployed on data with different distribution than the training set. In this paper, we present a case study on the newly released American Census datasets, a reconstruction of the popular Adult dataset, to illustrate the importance of context for fairness and show how remarkably can spatial distribution shifts affect predictive- and fairness-related performance of a model. The problem persists for fairness-aware learning models with the effects of context-specific fairness interventions differing across the states and different population groups. Our study suggests that robustness to distribution shifts is necessary before deploying a model to another context.
翻訳日:2022-06-28 10:46:18 公開日:2022-06-24
# (参考訳) 部分可観測力学系における高能率強化学習

Provably Efficient Reinforcement Learning in Partially Observable Dynamical Systems ( http://arxiv.org/abs/2206.12020v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun(参考訳) 関数近似を用いた部分観測可能力学系の強化学習について検討する。 本稿では,可観測タブ状部分可観測マルコフ決定プロセス(POMDP),可観測線形量子ガウス行列(LQG),予測状態表現(PSR),新たに導入されたPOMDPのヒルベルト空間埋め込み(Hilbert Space Embeddings of POMDPs and observable POMDPs with latent Low-rank transition)などのモデルを含めるに足る,新しい‘textit{Partially Observar Bilinear Actor-Critic framework} を提案する。 本手法では,無依存なポリシー学習を実現することができるアクタ-クリティック型アルゴリズムを提案する。 メモリベースのポリシー(最近の観測の固定長ウィンドウを見る)と、メモリと将来の観測の両方を入力として取る関数からなる値関数クラスからなるポリシークラスを与えられたポリシークラスにおいて、最適なメモリベースのポリシーと競うようにアルゴリズムが学習する。 不完全な可観測表状POMDP, 観測可能なLQG, 観測可能なPOMDPなどの特殊な特性を暗黙的に活用することで, サンプルの複雑さの地平線への指数的な依存を伴わずに, グローバルな最適政策と競合することが可能になる。

We study Reinforcement Learning for partially observable dynamical systems using function approximation. We propose a new \textit{Partially Observable Bilinear Actor-Critic framework}, that is general enough to include models such as observable tabular Partially Observable Markov Decision Processes (POMDPs), observable Linear-Quadratic-Gaussian (LQG), Predictive State Representations (PSRs), as well as a newly introduced model Hilbert Space Embeddings of POMDPs and observable POMDPs with latent low-rank transition. Under this framework, we propose an actor-critic style algorithm that is capable of performing agnostic policy learning. Given a policy class that consists of memory based policies (that look at a fixed-length window of recent observations), and a value function class that consists of functions taking both memory and future observations as inputs, our algorithm learns to compete against the best memory-based policy in the given policy class. For certain examples such as undercomplete observable tabular POMDPs, observable LQGs and observable POMDPs with latent low-rank transition, by implicitly leveraging their special properties, our algorithm is even capable of competing against the globally optimal policy without paying an exponential dependence on the horizon in its sample complexity.
翻訳日:2022-06-28 03:54:14 公開日:2022-06-24
# (参考訳) スパース・リワードゴール・コンディション強化学習のためのファシック自己帰納的還元

Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2206.12030v1 )

ライセンス: CC BY 4.0
Yunfei Li, Tian Gao, Jiaqi Yang, Huazhe Xu, Yi Wu(参考訳) 近年, 教師あり学習(SL)の力を利用して, より効果的な強化学習(RL)手法が開発されている。 スパース逆ゴール条件問題に対処するために,オンラインRLとオフラインSLを交互に組み合わせた新しいファシックアプローチを提案する。 オンラインフェーズでは、RLトレーニングを行い、オフラインフェーズでロールアウトデータを収集し、データセットから成功した軌道上でSLを実行する。 サンプル効率をさらに向上するため,より実現可能な軌道生成のためのタスク削減や,スパース・リワード問題を緩和するためのバリュー・ディファレンスに基づく本質的報酬など,オンラインフェーズでの追加技術を採用する。 我々はこのアルゴリズムをPhAsic Self-Imitative Reduction (PAIR)と呼ぶ。 PAIRは、難解な積み重ねタスクを含むスパースリワード目標条件のロボット制御問題において、非ファシックなRLとファシックなSLベースラインの両方を大幅に上回っている。 PAIRは、ゼロから0/1の成功報酬しか持たない6つのキューブを積み重ねることを学ぶ最初のRLメソッドである。

It has been a recent trend to leverage the power of supervised learning (SL) towards more effective reinforcement learning (RL) methods. We propose a novel phasic approach by alternating online RL and offline SL for tackling sparse-reward goal-conditioned problems. In the online phase, we perform RL training and collect rollout data while in the offline phase, we perform SL on those successful trajectories from the dataset. To further improve sample efficiency, we adopt additional techniques in the online phase including task reduction to generate more feasible trajectories and a value-difference-based intrinsic reward to alleviate the sparse-reward issue. We call this overall algorithm, PhAsic self-Imitative Reduction (PAIR). PAIR substantially outperforms both non-phasic RL and phasic SL baselines on sparse-reward goal-conditioned robotic control problems, including a challenging stacking task. PAIR is the first RL method that learns to stack 6 cubes with only 0/1 success rewards from scratch.
翻訳日:2022-06-28 03:52:51 公開日:2022-06-24
# (参考訳) DialogID:オンライン環境における教育効果向上のための対話型指導データセット

DialogID: A Dialogic Instruction Dataset for Improving Teaching Effectiveness in Online Environments ( http://arxiv.org/abs/2206.12034v1 )

ライセンス: CC BY 4.0
Jiahao Chen, Shuyan Huang, Zitao Liu, Weiqi Luo(参考訳) オンラインダイアログインストラクション(オンラインダイアログインストラクション)は、実世界のオンライン教育コンテキストにおいて、学生のモチベーションを高め、教材の理解を助け、効果的な学習習慣を構築するための教育的インストラクションのセットである。 オンライン学習の人気と優位性にもかかわらず、教育技術と教育データマイニングのコミュニティは、オンラインの対話的指導を自動的に検出し、オンラインの教育効果を向上させるための計算手法を研究するための大規模で高品質で注意深い指導データセットが不足している。 そこで本研究では,30,431個の効果的な対話命令を含むオンラインダイアログ命令検出用データセットである \textsc{dialogid} を提案する。 これらの教示は8つのカテゴリーに分けられる。 さらに,先行学習型言語モデル(PLMs)を用いて,対話型命令検出の品質と一般化を改善するための,シンプルで効果的な対向学習パラダイムを提案する。 大規模な実験により,本手法は幅広いベースライン法より優れていることが示された。 データと私たちのコードは、以下の研究目的で利用可能です。

Online dialogic instructions are a set of pedagogical instructions used in real-world online educational contexts to motivate students, help understand learning materials, and build effective study habits. In spite of the popularity and advantages of online learning, the education technology and educational data mining communities still suffer from the lack of large-scale, high-quality, and well-annotated teaching instruction datasets to study computational approaches to automatically detect online dialogic instructions and further improve the online teaching effectiveness. Therefore, in this paper, we present a dataset of online dialogic instruction detection, \textsc{DialogID}, which contains 30,431 effective dialogic instructions. These teaching instructions are well annotated into 8 categories. Furthermore, we utilize the prevalent pre-trained language models (PLMs) and propose a simple yet effective adversarial training learning paradigm to improve the quality and generalization of dialogic instruction detection. Extensive experiments demonstrate that our approach outperforms a wide range of baseline methods. The data and our code are available for research purposes from: \url{https://github.com/ai4ed/DialogID}.
翻訳日:2022-06-28 03:21:18 公開日:2022-06-24
# (参考訳) SC-Ques:第二言語学習者のための文補完質問データセット

SC-Ques: A Sentence Completion Question Dataset for English as a Second Language Learners ( http://arxiv.org/abs/2206.12036v1 )

ライセンス: CC BY 4.0
Qiongqiong Liu, Shuyan Huang, Zitao Liu, Weiqi Luo(参考訳) 文完成 (SC) 質問は、1つ以上の空白を埋める必要のある文を示し、3つから5つの単語やフレーズをオプションとして提示する。 SC質問は英語を第二言語として学習する学生に広く使われている。 本稿では,実世界の標準英語試験から292,517のESL SC質問からなる大規模SCデータセット \textsc{SC-Ques} を提案する。 さらに,提案した \textsc{SC-Ques} データセット上で,大規模事前学習言語モデルをトレーニングすることにより,SC 質問を自動的に解くための総合ベンチマークを構築した。 我々は、ベースラインモデルの性能、限界、トレードオフに関する詳細な分析を行う。 データと私たちのコードは、以下の研究目的で利用可能です。

Sentence completion (SC) questions present a sentence with one or more blanks that need to be filled in, three to five possible words or phrases as options. SC questions are widely used for students learning English as a Second Language (ESL). In this paper, we present a large-scale SC dataset, \textsc{SC-Ques}, which is made up of 292,517 ESL SC questions from real-world standardized English examinations. Furthermore, we build a comprehensive benchmark of automatically solving the SC questions by training the large-scale pre-trained language models on the proposed \textsc{SC-Ques} dataset. We conduct detailed analysis of the baseline models performance, limitations and trade-offs. The data and our code are available for research purposes from: \url{https://github.com/ai4ed/SC-Ques}.
翻訳日:2022-06-28 03:11:59 公開日:2022-06-24
# (参考訳) BYOL-S:ブートストラップによる自己教師型音声表現の学習

BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping ( http://arxiv.org/abs/2206.12038v1 )

ライセンス: CC BY 4.0
Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal, Milos Cernak(参考訳) スペクトル分析の先駆的な研究から,音声や音声の特徴を抽出する方法が研究されている。 近年の取り組みは、汎用的な音声表現を開発するという野望に導かれる。 例えば、ディープニューラルネットワークは、大規模なオーディオデータセットでトレーニングされた場合、最適な埋め込みを抽出することができる。 この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。 最後に,手作り音声とデータ駆動学習音声を組み合わせたハイブリッド音声表現を実現するための新しい学習フレームワークを提案する。 提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。 その結果,畳み込み変換器をエンコーダとするハイブリッドモデルは,ほとんどの難聴課題において優れた性能をもたらすことがわかった。

Methods for extracting audio and speech features have been studied since pioneering work on spectrum analysis decades ago. Recent efforts are guided by the ambition to develop general-purpose audio representations. For example, deep neural networks can extract optimal embeddings if they are trained on large audio datasets. This work extends existing methods based on self-supervised learning by bootstrapping, proposes various encoder architectures, and explores the effects of using different pre-training datasets. Lastly, we present a novel training framework to come up with a hybrid audio representation, which combines handcrafted and data-driven learned audio features. All the proposed representations were evaluated within the HEAR NeurIPS 2021 challenge for auditory scene classification and timestamp detection tasks. Our results indicate that the hybrid model with a convolutional transformer as the encoder yields superior performance in most HEAR challenge tasks.
翻訳日:2022-06-28 02:59:48 公開日:2022-06-24
# (参考訳) ゼレンスキー大統領を ディープフェイクから守る

Protecting President Zelenskyy against Deep Fakes ( http://arxiv.org/abs/2206.12043v1 )

ライセンス: CC BY 4.0
Maty\'a\v{s} Boh\'a\v{c}ek and Hany Farid(参考訳) 2022年のロシアによるウクライナ侵攻は、残酷な地上戦争と、ロシアの行動を隠蔽し正当化するための偽情報キャンペーンの2つの戦線で戦っている。 このキャンペーンには、ウクライナのゼレンスキー大統領が敗北を認め降伏したことを示すディープフェイクビデオの少なくとも1つの例が含まれている。 この形態の今後の攻撃を想定して,ゼレンスキーの発話スタイルの特徴を捉えた,顔と感覚の行動モデルについて述べる。 4つの異なる設定から8時間以上の本物のビデオで訓練されたこの行動モデルは、zelenskyyとディープフェイクのインポスタとを区別することができる。

The 2022 Russian invasion of Ukraine is being fought on two fronts: a brutal ground war and a duplicitous disinformation campaign designed to conceal and justify Russia's actions. This campaign includes at least one example of a deep-fake video purportedly showing Ukrainian President Zelenskyy admitting defeat and surrendering. In anticipation of future attacks of this form, we describe a facial and gestural behavioral model that captures distinctive characteristics of Zelenskyy's speaking style. Trained on over eight hours of authentic video from four different settings, we show that this behavioral model can distinguish Zelenskyy from deep-fake imposters.This model can play an important role -- particularly during the fog of war -- in distinguishing the real from the fake.
翻訳日:2022-06-28 02:39:15 公開日:2022-06-24
# (参考訳) 新しいクラス発見のための相互情報案内知識伝達

Mutual Information-guided Knowledge Transfer for Novel Class Discovery ( http://arxiv.org/abs/2206.12063v1 )

ライセンス: CC BY 4.0
Chuyu Zhang, Chuanyang Hu, Ruijie Xu, Zhitong Gao, Qian He, Xuming He(参考訳) 本研究では,ラベル付きデータに基づくラベルなしデータから新しいクラスを発見することを目的とした,新しいクラス発見問題に取り組む。 主な課題は、見たクラスに含まれる知識を目に見えないものに移すことである。 従来の手法は主に表現空間や共同ラベル空間の共有を通じて知識を伝達する。 しかし、クラス間のクラス関係を無視する傾向があるため、学習された表現は目に見えないクラスをクラスタリングするのにあまり効果的ではない。 本稿では,目に見えるクラスと見当たらないクラスの間で意味知識を伝達する原則と一般的な方法を提案する。 本知見は, ラベル空間における参照クラスと未知クラスの関係を計測するために相互情報を活用することであり, 相互情報の最大化は意味知識の伝達を促進する。 提案手法の有効性と一般化を検証するため,新しいクラス発見と一般的なクラス発見設定について広範な実験を行った。 提案手法は,いくつかのベンチマークにおいて,従来のSOTAよりも優れた性能を示した。

We tackle the novel class discovery problem, aiming to discover novel classes in unlabeled data based on labeled data from seen classes. The main challenge is to transfer knowledge contained in the seen classes to unseen ones. Previous methods mostly transfer knowledge through sharing representation space or joint label space. However, they tend to neglect the class relation between seen and unseen categories, and thus the learned representations are less effective for clustering unseen classes. In this paper, we propose a principle and general method to transfer semantic knowledge between seen and unseen classes. Our insight is to utilize mutual information to measure the relation between seen classes and unseen classes in a restricted label space and maximizing mutual information promotes transferring semantic knowledge. To validate the effectiveness and generalization of our method, we conduct extensive experiments both on novel class discovery and general novel class discovery settings. Our results show that the proposed method outperforms previous SOTA by a significant margin on several benchmarks.
翻訳日:2022-06-28 02:27:26 公開日:2022-06-24
# (参考訳) 信号区間における電気接続車両のエコドライブ:パラメータ化強化学習アプローチ

Eco-driving for Electric Connected Vehicles at Signalized Intersections: A Parameterized Reinforcement Learning approach ( http://arxiv.org/abs/2206.12065v1 )

ライセンス: CC BY 4.0
Xia Jiang, Jian Zhang, Dan Li(参考訳) 本稿では、信号交差点における車両のエネルギー効率を向上させるために、強化学習(RL)に基づく電気連系車両(CV)のエコ駆動フレームワークを提案する。 モデルベースの車追従ポリシー、車線変更ポリシー、rlポリシーを統合してcvの安全な運転を確保することにより、車両エージェントを特定する。 続いてマルコフ決定プロセス(mdp)を定式化し、交差点付近のcvsの車追従行動と車線変更動作を共同で最適化し、車両が縦方向の制御と横方向の判断を行う。 そして、ハイブリッド動作空間を階層構造としてパラメータ化し、動的交通環境下で2次元の動作パターンでエージェントを訓練する。 最後に,本提案手法は単一車両の視点とフローの視点の両方からSUMOソフトウェアで評価される。 提案手法は,他の車種(HDV)を中断することなく,適切な行動スキームを学習することで,エネルギー消費を大幅に削減できることを示す。

This paper proposes an eco-driving framework for electric connected vehicles (CVs) based on reinforcement learning (RL) to improve vehicle energy efficiency at signalized intersections. The vehicle agent is specified by integrating the model-based car-following policy, lane-changing policy, and the RL policy, to ensure safe operation of a CV. Subsequently, a Markov Decision Process (MDP) is formulated, which enables the vehicle to perform longitudinal control and lateral decisions, jointly optimizing the car-following and lane-changing behaviors of the CVs in the vicinity of intersections. Then, the hybrid action space is parameterized as a hierarchical structure and thereby trains the agents with two-dimensional motion patterns in a dynamic traffic environment. Finally, our proposed methods are evaluated in SUMO software from both a single-vehicle-based perspective and a flow-based perspective. The results show that our strategy can significantly reduce energy consumption by learning proper action schemes without any interruption of other human-driven vehicles (HDVs).
翻訳日:2022-06-28 02:15:31 公開日:2022-06-24
# (参考訳) 画像とLiDARの特徴の対比学習

Contrastive Learning of Features between Images and LiDAR ( http://arxiv.org/abs/2206.12071v1 )

ライセンス: CC BY 4.0
Peng Jiang, Srikanth Saripalli(参考訳) ImageとPoint Cloudsはロボットに異なる情報を提供する。 さまざまなセンサからデータ間の対応を見つけることは、ローカライズ、マッピング、ナビゲーションなど、さまざまなタスクに不可欠である。 学習ベースのディスクリプタは単一センサ用に開発されており、クロスモーダル機能に関する作業はほとんどない。 本研究は、クロスモーダル特徴の学習を、密接な対比学習問題として扱う。 クロスモダリティ特徴学習のためのタプル循環損失関数を提案する。 さらに,良質な特徴を学習し,一般性を損なわないために,画像のポイントクラウドとU-Net CNNアーキテクチャに広く使用されているPointNet++アーキテクチャの亜種を開発した。 さらに,実世界のデータセットで実験を行い,損失関数とネットワーク構造の有効性を示す。 我々のモデルでは,特徴を可視化することで,画像とLiDARの両方から情報を学ぶことができる。

Image and Point Clouds provide different information for robots. Finding the correspondences between data from different sensors is crucial for various tasks such as localization, mapping, and navigation. Learning-based descriptors have been developed for single sensors; there is little work on cross-modal features. This work treats learning cross-modal features as a dense contrastive learning problem. We propose a Tuple-Circle loss function for cross-modality feature learning. Furthermore, to learn good features and not lose generality, we developed a variant of widely used PointNet++ architecture for point cloud and U-Net CNN architecture for images. Moreover, we conduct experiments on a real-world dataset to show the effectiveness of our loss function and network structure. We show that our models indeed learn information from both images as well as LiDAR by visualizing the features.
翻訳日:2022-06-28 02:14:30 公開日:2022-06-24
# (参考訳) 新しい条件下での転がり軸受故障サンプルの合成:修正cganに基づく枠組み

Synthesizing Rolling Bearing Fault Samples in New Conditions: A framework based on a modified CGAN ( http://arxiv.org/abs/2206.12076v1 )

ライセンス: CC BY 4.0
Maryam Ahang, Masoud Jalayer, Ardeshir Shojaeinasab, Oluwaseyi Ogunfowora, Todd Charter, Homayoun Najjaran(参考訳) ベアリングは、予期せぬ故障を起こしやすい回転機械の重要な構成要素の1つである。 そのため,多くの産業において,故障診断と状態モニタリングが運用コストとダウンタイムの削減に不可欠である。 様々な生産条件において、軸受は様々な荷重と速度で操作することができ、故障の種類によって異なる振動パターンを引き起こす。 通常、システムは望ましい条件下で動作するため、通常のデータは不可欠である。 一方、フォールトデータはまれであり、多くの状況において、フォールトクラスのために記録されたデータは存在しません。 障害データへのアクセスは、運用のパフォーマンスと安全性の両方を改善するデータ駆動型障害診断ツールの開発に不可欠である。 そこで,条件付き生成型adversarial network (cgans) に基づく新しいアルゴリズムを提案する。 このアルゴリズムは, 実際の故障条件の正常データと故障データに基づいて, 対象条件の正常データから故障データを生成する。 提案手法は実世界の軸受データセット上で検証され、異なる条件で故障データを生成する。 合成データの品質を評価するために,いくつかの最先端の分類器と可視化モデルを実装した。 その結果,提案アルゴリズムの有効性が示された。

Bearings are one of the vital components of rotating machines that are prone to unexpected faults. Therefore, bearing fault diagnosis and condition monitoring is essential for reducing operational costs and downtime in numerous industries. In various production conditions, bearings can be operated under a range of loads and speeds, which causes different vibration patterns associated with each fault type. Normal data is ample as systems usually work in desired conditions. On the other hand, fault data is rare, and in many conditions, there is no data recorded for the fault classes. Accessing fault data is crucial for developing data-driven fault diagnosis tools that can improve both the performance and safety of operations. To this end, a novel algorithm based on Conditional Generative Adversarial Networks (CGANs) is introduced. Trained on the normal and fault data on any actual fault conditions, this algorithm generates fault data from normal data of target conditions. The proposed method is validated on a real-world bearing dataset, and fault data are generated for different conditions. Several state-of-the-art classifiers and visualization models are implemented to evaluate the quality of the synthesized data. The results demonstrate the efficacy of the proposed algorithm.
翻訳日:2022-06-28 01:58:53 公開日:2022-06-24
# (参考訳) 加速度計とGNSSデータを用いた動物行動のその場分類のためのマルチモーダルセンサデータフュージョン

Multi-modal Sensor Data Fusion for In-situ Classification of Animal Behavior Using Accelerometry and GNSS Data ( http://arxiv.org/abs/2206.12078v1 )

ライセンス: CC BY 4.0
Reza Arablouei, Ziwei Wang, Greg J. Bishop-Hurley, Jiajun Liu(参考訳) 動物行動の分類には,複数のセンシングモード,すなわち加速度計とグローバルナビゲーション衛星システム(GNSS)のデータを用いて検討する。 我々は, GNSSデータから, 水点からの距離, 中央速度, 平均水平位置誤差の3つの特徴を抽出した。 加速度計とGNSSデータから得られる情報を組み合わせるための2つの方法を検討する。 最初のアプローチは、両方のセンサデータから抽出された特徴を連結し、連結された特徴ベクトルを多層パーセプトロン(MLP)分類器に供給することに基づいている。 第2のアプローチは、2つのMLP分類器によって予測される後部確率を融合させ、1つのセンサーのデータから抽出された特徴を入力とする。 スマート牛の首輪と耳のタグを用いて収集した実世界の2つのデータセットを用いて,マルチモーダル動物行動分類アルゴリズムの性能を評価する。 その結果, 歩行・飲酒の頻繁かつ重要な行動に対して, センサモードのみのデータを用いた場合と比較して, 分類性能が良好に向上することが示唆された。 両方のアプローチに基づいて開発されたアルゴリズムは、比較的小さな計算資源とメモリリソースを必要とするため、私たちの首輪と耳のタグの組込みシステムの実装に適している。 しかし、後続確率融合に基づくマルチモーダル動物行動分類アルゴリズムは、より優れた分類精度を提供し、計算とメモリの複雑さを低減し、センサデータ障害に対してより堅牢であり、よりモジュラリティを享受できるため、特徴連結に基づくものよりも好ましい。

We examine using data from multiple sensing modes, i.e., accelerometry and global navigation satellite system (GNSS), for classifying animal behavior. We extract three new features from the GNSS data, namely, the distance from the water point, median speed, and median estimated horizontal position error. We consider two approaches for combining the information available from the accelerometry and GNSS data. The first approach is based on concatenating the features extracted from both sensor data and feeding the concatenated feature vector into a multi-layer perceptron (MLP) classifier. The second approach is based on fusing the posterior probabilities predicted by two MLP classifiers each taking the features extracted from the data of one sensor as input. We evaluate the performance of the developed multi-modal animal behavior classification algorithms using two real-world datasets collected via smart cattle collar and ear tags. The leave-one-animal-out cross-validation results show that both approaches improve the classification performance appreciably compared with using the data from only one sensing mode, in particular, for the infrequent but important behaviors of walking and drinking. The algorithms developed based on both approaches require rather small computational and memory resources hence are suitable for implementation on embedded systems of our collar and ear tags. However, the multi-modal animal behavior classification algorithm based on posterior probability fusion is preferable to the one based on feature concatenation as it delivers better classification accuracy, has less computational and memory complexity, is more robust to sensor data failure, and enjoys better modularity.
翻訳日:2022-06-28 01:42:33 公開日:2022-06-24
# (参考訳) 潜在決定論と条件埋め込みを持つpomdpにおける計算効率のよいpac rl

Computationally Efficient PAC RL in POMDPs with Latent Determinism and Conditional Embeddings ( http://arxiv.org/abs/2206.12081v1 )

ライセンス: CC BY 4.0
Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun(参考訳) 本研究では,大規模部分観測可能なマルコフ決定過程(POMDP)の関数近似による強化学習について検討した。 特に、可観測状態の特徴と観測の特徴が観測放出過程の条件付きヒルベルト空間埋め込みを許容し、可観測状態遷移が決定論的であるようなpomdpのヒルベルト空間埋め込みを考える。 最適な潜在状態作用である$Q$-関数が状態特徴において線形であり、最適な$Q$-関数が作用のギャップを持つ関数近似設定では、 \emph{exact optimal} ポリシーを見つけるための \emph{computationally and statistically efficient} アルゴリズムを提供する。 このアルゴリズムの計算的・統計的複雑度は,観測空間上の特徴の地平線と固有次元に関して多項式的にスケールする。 さらに,統計的複雑性を地平線や次元に指数関数的に避けるためには,決定論的潜在遷移とギャップ仮定の両方が必要であることを示した。 我々の保証は状態と観測空間のサイズに明示的に依存しないので、我々のアルゴリズムは大規模POMDPに確実にスケールする。

We study reinforcement learning with function approximation for large-scale Partially Observable Markov Decision Processes (POMDPs) where the state space and observation space are large or even continuous. Particularly, we consider Hilbert space embeddings of POMDP where the feature of latent states and the feature of observations admit a conditional Hilbert space embedding of the observation emission process, and the latent state transition is deterministic. Under the function approximation setup where the optimal latent state-action $Q$-function is linear in the state feature, and the optimal $Q$-function has a gap in actions, we provide a \emph{computationally and statistically efficient} algorithm for finding the \emph{exact optimal} policy. We show our algorithm's computational and statistical complexities scale polynomially with respect to the horizon and the intrinsic dimension of the feature on the observation space. Furthermore, we show both the deterministic latent transitions and gap assumptions are necessary to avoid statistical complexity exponential in horizon or dimension. Since our guarantee does not have an explicit dependence on the size of the state and observation spaces, our algorithm provably scales to large-scale POMDPs.
翻訳日:2022-06-28 01:11:20 公開日:2022-06-24
# (参考訳) 自動弱視による非構造的臨床ノートの分類

Classifying Unstructured Clinical Notes via Automatic Weak Supervision ( http://arxiv.org/abs/2206.12088v1 )

ライセンス: CC BY-SA 4.0
Chufan Gao, Mononito Goswami, Jieshi Chen, and Artur Dubrawski(参考訳) 医療提供者は通常、臨床、研究、請求のために各患者に提供された臨床ケアの詳細な記録を記録する。 これらの物語の構造化されていない性質から、プロバイダは、icd(international classification of disease)コーディングシステムを使用して、患者の診断に診断コードを割り当てる専門スタッフを雇っている。 この手動プロセスは時間を消費するだけでなく、コストとエラーが発生しやすい。 以前の研究では、このプロセスの自動化における機械学習(ml)方法論の潜在的有用性が示されたが、モデルのトレーニングには大量の手作業によるラベル付きデータに頼っていた。 さらに、診断コーディングシステムは時間とともに進化し、従来の教師付き学習戦略はローカルアプリケーションを超えて一般化できない。 本稿では,人間ラベル文書を使わずに,クラスラベル記述からのみ学習できる汎用的弱教師付きテキスト分類フレームワークを提案する。 事前学習された言語モデルに格納された言語ドメイン知識とデータプログラミングフレームワークを活用して、個々のテキストにコードラベルを割り当てる。 本稿では,本手法の有効性と柔軟性を,実世界の4つのテキスト分類データセットにまたがる最先端の弱いテキスト分類器と比較し,icdコードをミームiiiデータベースの医用ノートに割り当てることによって実証する。

Healthcare providers usually record detailed notes of the clinical care delivered to each patient for clinical, research, and billing purposes. Due to the unstructured nature of these narratives, providers employ dedicated staff to assign diagnostic codes to patients' diagnoses using the International Classification of Diseases (ICD) coding system. This manual process is not only time-consuming but also costly and error-prone. Prior work demonstrated potential utility of Machine Learning (ML) methodology in automating this process, but it has relied on large quantities of manually labeled data to train the models. Additionally, diagnostic coding systems evolve with time, which makes traditional supervised learning strategies unable to generalize beyond local applications. In this work, we introduce a general weakly-supervised text classification framework that learns from class-label descriptions only, without the need to use any human-labeled documents. It leverages the linguistic domain knowledge stored within pre-trained language models and the data programming framework to assign code labels to individual texts. We demonstrate the efficacy and flexibility of our method by comparing it to state-of-the-art weak text classifiers across four real-world text classification datasets, in addition to assigning ICD codes to medical notes in the publicly available MIMIC-III database.
翻訳日:2022-06-28 00:28:16 公開日:2022-06-24
# (参考訳) 自然言語理解のための統一BERT

Unified BERT for Few-shot Natural Language Understanding ( http://arxiv.org/abs/2206.12094v1 )

ライセンス: CC BY-SA 4.0
JunYu Lu, Ping Yang, JiaXing Zhang, RuYi Gan, Jing Yang(参考訳) 事前訓練された言語モデルがセマンティックエンコーダを共有するとしても、自然言語理解は出力スキーマの多様性に悩まされる。 本稿では,多様なNLUタスクのトレーニング対象をバイファインネットワークを介して普遍的にモデル化可能な,BERTフレームワークに基づく統合双方向言語理解モデルであるUBERTを提案する。 具体的には、UBERTは様々な側面から事前知識を符号化し、複数のNLUタスクにまたがる学習表現を均一に構築する。 バイファインを用いて元のテキストの開始位置と終了位置のペアをモデル化し、様々な分類と抽出構造を普遍的でスパンデコードなアプローチに変換することができる。 実験の結果,UBERTは7つのNLUタスク,14のデータセット,少数ショットおよびゼロショット設定で最先端のパフォーマンスを実現し,広範な情報抽出と言語推論タスクの統合を実現している。

Even as pre-trained language models share a semantic encoder, natural language understanding suffers from a diversity of output schemas. In this paper, we propose UBERT, a unified bidirectional language understanding model based on BERT framework, which can universally model the training objects of different NLU tasks through a biaffine network. Specifically, UBERT encodes prior knowledge from various aspects, uniformly constructing learning representations across multiple NLU tasks, which is conducive to enhancing the ability to capture common semantic understanding. Using the biaffine to model scores pair of the start and end position of the original text, various classification and extraction structures can be converted into a universal, span-decoding approach. Experiments show that UBERT achieves the state-of-the-art performance on 7 NLU tasks, 14 datasets on few-shot and zero-shot setting, and realizes the unification of extensive information extraction and linguistic reasoning tasks.
翻訳日:2022-06-28 00:08:41 公開日:2022-06-24
# (参考訳) 定性的改善画像のグラフに基づく静的特徴を用いたウェーブレットニューラルネットワークによる緑内障の分類

A novel approach for glaucoma classification by wavelet neural networks using graph-based, statisitcal features of qualitatively improved images ( http://arxiv.org/abs/2206.12099v1 )

ライセンス: CC BY 4.0
N. Krishna Santosh, Dr. Soubhagya Sankar Barpanda(参考訳) 本稿では,ウェーブレットニューラルネットワーク(wnn)を用いて,網膜画像の最適拡張を行う新しい緑内障分類手法を提案する。 眼科医による網膜画像の退屈でエラーな手作業による解析を避けるため、コンピュータ支援診断(CAD)は堅牢な診断を実質的に支援する。 我々の目標は、新しいアプローチでCADシステムを導入することである。 網膜の画質改善は2つのフェーズで試みられている。 網膜画像前処理フェーズは、クオンタイルベースのヒストグラム修正により画像の輝度とコントラストを向上させる。 続いて、網膜構造強化のための画像特異的動的構造要素を用いた多スケール形態素演算を含む画像強調位相が続く。 局所グラフ構造(LGS)とグラフショートパス(GSP)の統計量からグラフベースの網膜画像の特徴を抽出し,拡張された網膜データセットから統計的特徴を抽出する。 WNNは、適切なウェーブレット活性化機能を有する緑内障網膜画像の分類に使用される。 WNN分類器の性能は、様々なデータセットを持つ多層パーセプトロンニューラルネットワークと比較される。 その結果,既存のアプローチよりも優れたアプローチが得られた。

In this paper, we have proposed a new glaucoma classification approach that employs a wavelet neural network (WNN) on optimally enhanced retinal images features. To avoid tedious and error prone manual analysis of retinal images by ophthalmologists, computer aided diagnosis (CAD) substantially aids in robust diagnosis. Our objective is to introduce a CAD system with a fresh approach. Retinal image quality improvement is attempted in two phases. The retinal image preprocessing phase improves the brightness and contrast of the image through quantile based histogram modification. It is followed by the image enhancement phase, which involves multi scale morphological operations using image specific dynamic structuring elements for the retinal structure enrichment. Graph based retinal image features in terms of Local Graph Structures (LGS) and Graph Shortest Path (GSP) statistics are extracted from various directions along with the statistical features from the enhanced retinal dataset. WNN is employed to classify glaucoma retinal images with a suitable wavelet activation function. The performance of the WNN classifier is compared with multilayer perceptron neural networks with various datasets. The results show our approach is superior to the existing approaches.
翻訳日:2022-06-28 00:00:39 公開日:2022-06-24
# (参考訳) 地震探査用U-netの分離:深層学習多重除去に関する深部研究

Dissecting U-net for Seismic Application: An In-Depth Study on Deep Learning Multiple Removal ( http://arxiv.org/abs/2206.12112v1 )

ライセンス: CC BY 4.0
Ricard Durall, Ammar Ghanim, Norman Ettrich, Janis Keuper(参考訳) 地震処理は、しばしばデータ収集時に現れる多重を抑圧する必要がある。 これらのアーティファクトに取り組むために、実践者は通常、移行後のコレクションコンディショニングとしてラドン変換ベースのアルゴリズムに依存している。 しかし、そのような伝統的なアプローチは時間とパラメータに依存しており、かなり複雑である。 本研究では,その利用の複雑さを減らし,適用性を民主化しながら,競争力のある結果を提供する,ディープラーニングベースの代替手段を提案する。 複雑なフィールドデータを推定する際のネットワークの性能は,合成学でのみ訓練されているにもかかわらず良好である。 さらに,提案手法はデータ固有の特性を保存でき,不要な過剰な結果を避けつつ多重化を除去できることを示す。 最後に,本モデルの詳細な解析を行い,物理事象による主パラメータの影響を推定する。 私たちの知る限りでは、この研究は多重化プロセスのためのニューラルネットワークのアンボックス化を開拓し、ユーザがネットワークの内部動作に関する洞察を得るのに役立ちます。

Seismic processing often requires suppressing multiples that appear when collecting data. To tackle these artifacts, practitioners usually rely on Radon transform-based algorithms as post-migration gather conditioning. However, such traditional approaches are both time-consuming and parameter-dependent, making them fairly complex. In this work, we present a deep learning-based alternative that provides competitive results, while reducing its usage's complexity, and hence democratizing its applicability. We observe an excellent performance of our network when inferring complex field data, despite the fact of being solely trained on synthetics. Furthermore, extensive experiments show that our proposal can preserve the inherent characteristics of the data, avoiding undesired over-smoothed results, while removing the multiples. Finally, we conduct an in-depth analysis of the model, where we pinpoint the effects of the main hyperparameters with physical events. To the best of our knowledge, this study pioneers the unboxing of neural networks for the demultiple process, helping the user to gain insights into the inside running of the network.
翻訳日:2022-06-27 23:45:27 公開日:2022-06-24
# (参考訳) ER:知識グラフ補完のための等分散正規化器

ER: Equivariance Regularizer for Knowledge Graph Completion ( http://arxiv.org/abs/2206.12142v1 )

ライセンス: CC BY 4.0
Zongsheng Cao, Qianqian Xu, Zhiyong Yang, Qingming Huang(参考訳) テンソル因子化と距離ベースモデルは知識グラフ補完(KGC)において重要な役割を果たす。 しかしながら、KGC法における関係行列は、しばしばモデルが複雑になり、過度に適合するリスクが高い。 治療として、研究者はテンソル核ノルム正則化器のような様々な異なる正則化器を提案する。 我々のモチベーションは、以前の研究はパラメトリック空間の「サイズ」のみに焦点を当て、暗黙のセマンティック情報は広く触れられていないという観察に基づいている。 この問題に対処するために、暗黙のセマンティック情報を活用することで過度な適合を抑制する新しい正規化器、Equivariance Regularizer (ER)を提案する。 具体的には、ERは頭と尾の実体間の意味的等式を利用することでモデルの一般化能力を高めることができる。 さらに、距離に基づくモデルとテンソル分解に基づくモデルの両方に対する一般的な解である。 実験の結果,最先端の関係予測法よりも明確かつ実質的な改善が示された。

Tensor factorization and distanced based models play important roles in knowledge graph completion (KGC). However, the relational matrices in KGC methods often induce a high model complexity, bearing a high risk of overfitting. As a remedy, researchers propose a variety of different regularizers such as the tensor nuclear norm regularizer. Our motivation is based on the observation that the previous work only focuses on the "size" of the parametric space, while leaving the implicit semantic information widely untouched. To address this issue, we propose a new regularizer, namely, Equivariance Regularizer (ER), which can suppress overfitting by leveraging the implicit semantic information. Specifically, ER can enhance the generalization ability of the model by employing the semantic equivariance between the head and tail entities. Moreover, it is a generic solution for both distance based models and tensor factorization based models. The experimental results indicate a clear and substantial improvement over the state-of-the-art relation prediction methods.
翻訳日:2022-06-27 23:29:35 公開日:2022-06-24
# (参考訳) コスト・遅延感性仮想ネットワーク機能配置とルーティングのためのマルチエージェント深層強化学習

Multi-Agent Deep Reinforcement Learning for Cost- and Delay-Sensitive Virtual Network Function Placement and Routing ( http://arxiv.org/abs/2206.12146v1 )

ライセンス: CC0 1.0
Shaoyang Wang and Chau Yuen and Wei Ni and Guan Yong Liang and Tiejun Lv(参考訳) 本稿では,複数のサービス要求が同時に配信される仮想ネットワーク機能(vnf)配置とルーティング(p&r)を解決するための,有効かつ新しいマルチエージェント深層強化学習(madrl)ベースの手法を提案する。 サービス要求の異なる要求は、遅延とコストに敏感な要因によって反映されます。 我々はまず,NP完全であるサービス遅延と資源消費コストの重み付けを最小化するために,VNF P&R問題を構築する。 次に、共同VNF P&R問題は、配置サブタスクとルーティングサブタスクの2つの反復サブタスクに分解される。 各サブタスクは、複数の並列逐次決定プロセスで構成される。 深い決定論的ポリシー勾配法とマルチエージェント法を呼び出すことにより、madrl-p&rフレームワークは2つのサブタスクを実行するように設計されている。 新しい共同報酬機構と内部報酬機構は、配置とルーティングサブタスクの目標と制約に合致するように提案されている。 また,ネットワークトポロジの変化に対処するパラメータマイグレーションに基づくモデル調整手法を提案する。 実験によって裏付けられ、提案されたMADRL-P&Rフレームワークは、サービスコストと遅延の点で代替よりも優れており、パーソナライズされたサービス要求に対してより高い柔軟性を提供する。 パラメータマイグレーションに基づくモデルリトレーニング手法は,中程度のネットワークトポロジ変化下での収束を効率的に促進することができる。

This paper proposes an effective and novel multiagent deep reinforcement learning (MADRL)-based method for solving the joint virtual network function (VNF) placement and routing (P&R), where multiple service requests with differentiated demands are delivered at the same time. The differentiated demands of the service requests are reflected by their delay- and cost-sensitive factors. We first construct a VNF P&R problem to jointly minimize a weighted sum of service delay and resource consumption cost, which is NP-complete. Then, the joint VNF P&R problem is decoupled into two iterative subtasks: placement subtask and routing subtask. Each subtask consists of multiple concurrent parallel sequential decision processes. By invoking the deep deterministic policy gradient method and multi-agent technique, an MADRL-P&R framework is designed to perform the two subtasks. The new joint reward and internal rewards mechanism is proposed to match the goals and constraints of the placement and routing subtasks. We also propose the parameter migration-based model-retraining method to deal with changing network topologies. Corroborated by experiments, the proposed MADRL-P&R framework is superior to its alternatives in terms of service cost and delay, and offers higher flexibility for personalized service demands. The parameter migration-based model-retraining method can efficiently accelerate convergence under moderate network topology changes.
翻訳日:2022-06-27 23:03:42 公開日:2022-06-24
# (参考訳) 深部生成モデルによる新規2次元材料の発見

Data-driven discovery of novel 2D materials by deep generative models ( http://arxiv.org/abs/2206.12159v1 )

ライセンス: CC BY 4.0
Peder Lyngby and Kristian Sommer Thygesen(参考訳) 安定性の優れた結晶構造を効率的に生成するアルゴリズムは、データ駆動材料の発見において重要な役割を果たす。 ここでは, 結晶拡散変分オートエンコーダ(CDVAE)が, 高化学・構造多様性の2次元材料を生成し, トレーニング構造を反映した形成エネルギーを生成可能であることを示す。 具体的には、CDVAEを2615個の2D材料に、凸殻より上のエネルギーで訓練し、密度汎関数理論(DFT)を用いて緩和する5003個の材料を生成する。 また, トレーニング構造の組織的置換により14192個の新しい結晶を生成する。 生成モデルと格子の装飾手法は相補的であり, 安定性は似ているが, 結晶構造や化学組成は異なっていた。 合計で11630個の新しい2D材料が発見され、そのうち8599個は種構造として$\Delta H_{\mathrm{hull}}< 0.3$ eV/atomを持ち、2004年は凸殻の50 meV以内で合成される可能性がある。 全ての材料の緩和された原子構造は、オープンなComputational 2D Materials Database (C2DB)で入手できる。 本研究はCDVAEを高効率で信頼性の結晶生成機として確立し, 2次元材料の空間を著しく拡大する。

Efficient algorithms to generate candidate crystal structures with good stability properties can play a key role in data-driven materials discovery. Here we show that a crystal diffusion variational autoencoder (CDVAE) is capable of generating two-dimensional (2D) materials of high chemical and structural diversity and formation energies mirroring the training structures. Specifically, we train the CDVAE on 2615 2D materials with energy above the convex hull $\Delta H_{\mathrm{hull}}< 0.3$ eV/atom, and generate 5003 materials that we relax using density functional theory (DFT). We also generate 14192 new crystals by systematic element substitution of the training structures. We find that the generative model and lattice decoration approach are complementary and yield materials with similar stability properties but very different crystal structures and chemical compositions. In total we find 11630 predicted new 2D materials, where 8599 of these have $\Delta H_{\mathrm{hull}}< 0.3$ eV/atom as the seed structures, while 2004 are within 50 meV of the convex hull and could potentially be synthesized. The relaxed atomic structures of all the materials are available in the open Computational 2D Materials Database (C2DB). Our work establishes the CDVAE as an efficient and reliable crystal generation machine, and significantly expands the space of 2D materials.
翻訳日:2022-06-27 22:24:20 公開日:2022-06-24
# (参考訳) AdAUC:長期問題に対するエンドツーエンドのAUC最適化

AdAUC: End-to-end Adversarial AUC Optimization Against Long-tail Problems ( http://arxiv.org/abs/2206.12169v1 )

ライセンス: CC BY 4.0
Wenzheng Hou, Qianqian Xu, Zhiyong Yang, Shilong Bao, Yuan He, Qingming Huang(参考訳) ディープラーニングモデルは敵の例に弱いことはよく知られている。 既存の対人訓練の研究はこの課題に対して大きな進歩を遂げた。 典型的な特性として、クラス分布が全体的なバランスをとると仮定することが多い。 しかし、ロングテールデータセットは広範囲のアプリケーションにおいてユビキタスであり、ヘッドクラスのインスタンスの量はテールクラスよりも大きい。 このようなシナリオでは、AUCはクラス分布に敏感であるため、精度よりもはるかに合理的な計量である。 そこで本研究では,AUCを最適化するための対人訓練手法を早期に検討する。 主な課題は、正と負の例が目的関数に密結合していることである。 直接的な結果として、データセットの完全なスキャンなしでは、逆例を生成できない。 この問題に対処するために,コンキャビティ正則化スキームに基づき,目的がインスタンスワイズ関数となるサドルポイント問題としてauc最適化問題を再構成する。 これはエンドツーエンドのトレーニングプロトコルにつながります。 さらに,提案アルゴリズムの収束保証を提供する。 我々の分析は, min-max問題の勾配を計算して, 逆例を生成するアルゴリズムが求められているため, 既存の研究と異なる。 最後に,3つのロングテールデータセットにおけるアルゴリズムの性能とロバスト性を示す。

It is well-known that deep learning models are vulnerable to adversarial examples. Existing studies of adversarial training have made great progress against this challenge. As a typical trait, they often assume that the class distribution is overall balanced. However, long-tail datasets are ubiquitous in a wide spectrum of applications, where the amount of head class instances is larger than the tail classes. Under such a scenario, AUC is a much more reasonable metric than accuracy since it is insensitive toward class distribution. Motivated by this, we present an early trial to explore adversarial training methods to optimize AUC. The main challenge lies in that the positive and negative examples are tightly coupled in the objective function. As a direct result, one cannot generate adversarial examples without a full scan of the dataset. To address this issue, based on a concavity regularization scheme, we reformulate the AUC optimization problem as a saddle point problem, where the objective becomes an instance-wise function. This leads to an end-to-end training protocol. Furthermore, we provide a convergence guarantee of the proposed algorithm. Our analysis differs from the existing studies since the algorithm is asked to generate adversarial examples by calculating the gradient of a min-max problem. Finally, the extensive experimental results show the performance and robustness of our algorithm in three long-tail datasets.
翻訳日:2022-06-27 22:09:30 公開日:2022-06-24
# (参考訳) マルチFLGAN:非IID分布のための多分散逆ネットワーク

MULTI-FLGANs: Multi-Distributed Adversarial Networks for Non-IID distribution ( http://arxiv.org/abs/2206.12178v1 )

ライセンス: CC BY 4.0
Akash Amalan, Rui Wang, Yanqi Qiao, Emmanouil Panaousis and Kaitai Liang(参考訳) フェデレーション学習(federated learning)は、分散機械学習の領域における新たな概念である。 このコンセプトによってgansは、プライバシを維持しながら、豊富な分散トレーニングデータの恩恵を受けることができた。 しかし、非iid環境では、現在のフェデレーションganアーキテクチャは不安定であり、異なる特徴を学ぶのに苦労し、モードの崩壊に弱い。 本稿では,低品質画像,モード崩壊,非イドデータセットの不安定性の問題を解決するための新しいアーキテクチャであるMulti-FLGANを提案する。 その結果,Multi-FLGANはベースラインFLGANの4倍の安定性と性能(高い開始率)を示した。

Federated learning is an emerging concept in the domain of distributed machine learning. This concept has enabled GANs to benefit from the rich distributed training data while preserving privacy. However, in a non-iid setting, current federated GAN architectures are unstable, struggling to learn the distinct features and vulnerable to mode collapse. In this paper, we propose a novel architecture MULTI-FLGAN to solve the problem of low-quality images, mode collapse and instability for non-iid datasets. Our results show that MULTI-FLGAN is four times as stable and performant (i.e. high inception score) on average over 20 clients compared to baseline FLGAN.
翻訳日:2022-06-27 21:33:03 公開日:2022-06-24
# (参考訳) 深部強化学習に基づく動的ネットワーク混雑価格設定

Dynamic network congestion pricing based on deep reinforcement learning ( http://arxiv.org/abs/2206.12188v1 )

ライセンス: CC BY 4.0
Kimihiro Sato, Toru Seo, Takashi Fuse(参考訳) 交通渋滞は都市部で深刻な問題である。 動的渋滞の価格設定は、戦略的スケールでの交通渋滞を解消するための有用なスキームの1つである。 しかし現実には,道路網は大規模かつ複雑であり,道路利用者の行動が不確実であるため,最適な動的混雑価格の決定は非常に困難あるいは不可能である。 この課題を考慮し,深層強化学習(drl)を用いた動的混雑料金法を提案する。 大規模道路網における観測可能なデータに基づく交通渋滞を,深層強化学習のデータ駆動性を活用して解消する。 提案手法の新たな要素の1つは,分散協調学習方式である。 具体的には、DRLを空間的時間的分散方式で実装し、空間的共有報酬と呼ばれる新しい手法によりDRLエージェント間の協調を確立する。 大規模ネットワークにおける高速かつ計算効率の高い学習を可能にする。 Sioux Falls Network を用いた数値実験により,新しい学習手法により提案手法が有効であることが示された。

Traffic congestion is a serious problem in urban areas. Dynamic congestion pricing is one of the useful schemes to eliminate traffic congestion in strategic scale. However, in the reality, an optimal dynamic congestion pricing is very difficult or impossible to determine theoretically, because road networks are usually large and complicated, and behavior of road users is uncertain. To account for this challenge, this work proposes a dynamic congestion pricing method using deep reinforcement learning (DRL). It is designed to eliminate traffic congestion based on observable data in general large-scale road networks, by leveraging the data-driven nature of deep reinforcement learning. One of the novel elements of the proposed method is the distributed and cooperative learning scheme. Specifically, the DRL is implemented by a spatial-temporally distributed manner, and cooperation among DRL agents is established by novel techniques we call spatially shared reward and temporally switching learning. It enables fast and computationally efficient learning in large-scale networks. The numerical experiments using Sioux Falls Network showed that the proposed method works well thanks to the novel learning scheme.
翻訳日:2022-06-27 21:16:46 公開日:2022-06-24
# (参考訳) SECLEDS: 複数のメドイドとメドイドによるデータストリームの時系列クラスタリング

SECLEDS: Sequence Clustering in Evolving Data Streams via Multiple Medoids and Medoid Voting ( http://arxiv.org/abs/2206.12190v1 )

ライセンス: CC BY 4.0
Azqa Nadeem, Sicco Verwer(参考訳) ストリーミング環境でのシーケンスクラスタリングは、計算コストが高く、時間とともに進化する可能性があるため、難しい。 K-medoidsまたはPAM(Partitioning Around Medoids)は、アライメントベースの距離をサポートするため、クラスタシーケンスに一般的に使用される。 しかし、オフラインのk-medoidsはコンセプトドリフトをサポートしておらず、データストリームのクラスタリングには極めて高価である。 そこで我々はk-medoidsアルゴリズムのストリーミング版であるSECLEDSを提案する。 SECLEDSには2つの特徴がある。 一 クラスタごとに複数のメドイドを使用し、安定した高品質クラスタを生成し、 二 クラスター距離を近似する直感的なメドロイド投票方式を用いて概念ドリフトを処理すること。 新しい概念のための新しいクラスタを生成する既存の適応アルゴリズムとは異なり、SECLEDSはクラスタ自体が進化するストリームで進化する、根本的に異なるアプローチに従っている。 実データと合成データを用いて, SECLEDSがドリフト, ストリームサイズ, データ次元, クラスタ数に関わらず, 高品質なクラスタを生成することを示す。 一般的なストリームとバッチクラスタリングアルゴリズムを3つ比較する。 最先端のBanditPAMはオフラインベンチマークとして使用される。 SECLEDSはBanditPAMに匹敵するF1スコアを達成し、必要な距離計算数を83.7%削減した。 重要なことに、SECLEDSは流路を含む場合、すべてのベースラインを138.7%上回る。 また、実際のネットワークトラフィックを収集し、(拡張的な)動的時間ゆがみ距離を使いながら、secledsが最大1.08gbpsのネットワーク帯域をサポートできることの証拠を提供する。

Sequence clustering in a streaming environment is challenging because it is computationally expensive, and the sequences may evolve over time. K-medoids or Partitioning Around Medoids (PAM) is commonly used to cluster sequences since it supports alignment-based distances, and the k-centers being actual data items helps with cluster interpretability. However, offline k-medoids has no support for concept drift, while also being prohibitively expensive for clustering data streams. We therefore propose SECLEDS, a streaming variant of the k-medoids algorithm with constant memory footprint. SECLEDS has two unique properties: i) it uses multiple medoids per cluster, producing stable high-quality clusters, and ii) it handles concept drift using an intuitive Medoid Voting scheme for approximating cluster distances. Unlike existing adaptive algorithms that create new clusters for new concepts, SECLEDS follows a fundamentally different approach, where the clusters themselves evolve with an evolving stream. Using real and synthetic datasets, we empirically demonstrate that SECLEDS produces high-quality clusters regardless of drift, stream size, data dimensionality, and number of clusters. We compare against three popular stream and batch clustering algorithms. The state-of-the-art BanditPAM is used as an offline benchmark. SECLEDS achieves comparable F1 score to BanditPAM while reducing the number of required distance computations by 83.7%. Importantly, SECLEDS outperforms all baselines by 138.7% when the stream contains drift. We also cluster real network traffic, and provide evidence that SECLEDS can support network bandwidths of up to 1.08 Gbps while using the (expensive) dynamic time warping distance.
翻訳日:2022-06-27 21:07:53 公開日:2022-06-24
# (参考訳) 最適視光度測定:精密解析と青島における大規模ケーススタディ

Optimized Views Photogrammetry: Precision Analysis and A Large-scale Case Study in Qingdao ( http://arxiv.org/abs/2206.12216v1 )

ライセンス: CC BY 4.0
Qingquan Li, Wenshuai Yu, San Jiang(参考訳) UAVは、広く使われているリモートセンシングプラットフォームの一つとなり、スマートシティの構築において重要な役割を担っている。 しかし、都市部の複雑な環境のため、安全で正確なデータ取得は、3dモデリングとシーン更新に大きな課題をもたらす。 uavの最適軌道計画と搭載カメラの正確なデータ収集は、都市モデルにおける非自明な問題である。 本研究では,最適化されたビューフォトグラメトリーの原理を示し,その精度とポテンシャルを大規模3次元モデリングで検証する。 斜め光度計と異なり、最適化されたビュー光度計は粗いモデルを用いてUAV軌道を生成・最適化し、モデル点再構成性と視点冗長性を考慮して達成する。 最適化ビューフォトグラメトリーの原理に基づき,まず,最適化ビューフォトグラメトリーのuav画像を用いて3次元モデルの精度解析を行い,その後,中国青田市における大規模ケーススタディを実施し,その工学的可能性を検証した。 GCPを画像配向精度解析に利用し、TLS点雲をモデル品質解析に利用することにより、最適化されたビュー・フォトグラムメトリーが安定した画像接続ネットワークを構築し、画像配向精度を同等にすることができることを示した。 正確な画像取得戦略の恩恵を受け、メッシュモデルの品質は大幅に向上し、特に深刻な咬合のある都市部では、3倍から5倍の精度が達成されている。 さらに、青島市のケーススタディでは、複雑な都市のシーンにおける大規模3Dモデリングの信頼性と強力なソリューションとして、最適化されたビュー・フォトグラムが有効であることを示した。

UAVs have become one of the widely used remote sensing platforms and played a critical role in the construction of smart cities. However, due to the complex environment in urban scenes, secure and accurate data acquisition brings great challenges to 3D modeling and scene updating. Optimal trajectory planning of UAVs and accurate data collection of onboard cameras are non-trivial issues in urban modeling. This study presents the principle of optimized views photogrammetry and verifies its precision and potential in large-scale 3D modeling. Different from oblique photogrammetry, optimized views photogrammetry uses rough models to generate and optimize UAV trajectories, which is achieved through the consideration of model point reconstructability and view point redundancy. Based on the principle of optimized views photogrammetry, this study first conducts a precision analysis of 3D models by using UAV images of optimized views photogrammetry and then executes a large-scale case study in the urban region of Qingdao city, China, to verify its engineering potential. By using GCPs for image orientation precision analysis and TLS (terrestrial laser scanning) point clouds for model quality analysis, experimental results show that optimized views photogrammetry could construct stable image connection networks and could achieve comparable image orientation accuracy. Benefiting from the accurate image acquisition strategy, the quality of mesh models significantly improves, especially for urban areas with serious occlusions, in which 3 to 5 times of higher accuracy has been achieved. Besides, the case study in Qingdao city verifies that optimized views photogrammetry can be a reliable and powerful solution for the large-scale 3D modeling in complex urban scenes.
翻訳日:2022-06-27 20:50:22 公開日:2022-06-24
# (参考訳) MPClan: プライバシに配慮した計算のためのプロトコルスイート

MPClan: Protocol Suite for Privacy-Conscious Computations ( http://arxiv.org/abs/2206.12224v1 )

ライセンス: CC BY 4.0
Nishat Koti, Shravani Patil, Arpita Patra, Ajith Suresh(参考訳) 収集されるデータの量の増加と、より良いサービスを提供するための分析は、デジタルプライバシに関する不安を生み出している。 プライバシー問題に対処し、実用的な解決策を提供するため、文献はセキュアなマルチパーティ計算に依存してきた。 しかし、近年の研究は、効率の懸念を指摘しながら、最大4人までの小規模政党の正直多数に焦点をあてている。 本研究では,多人数の参加者を支援するための戦略を,中心段階の効率性を考慮した正直な多数派制で拡張する。 プリプロセッシングのパラダイムの中で、我々の半正直なプロトコルは、Damg\aa rd と Nielson (CRYPTO'07)の10年前の最先端プロトコルのオンライン複雑さを改善します。 オンライン通信コストの改善に加えて、オンラインフェーズにおけるパーティーのほぼ半分をシャットダウンすることができ、システムの運用コストの最大50%を削減できる。 私たちの悪意のあるセキュアなプロトコルも、同様のメリットを享受しています。 設計プロトコルの実用性を示すために,我々は,ディープニューラルネットワーク,グラフニューラルネットワーク,ゲノムシーケンスマッチング,バイオメトリックマッチングなどの一般的なアプリケーションをプロトタイプ実装を用いてベンチマークする。 改善されたプロトコルは、前回の作業よりも60~80%のコスト削減に役立ちます。

The growing volumes of data being collected and its analysis to provide better services are creating worries about digital privacy. To address privacy concerns and give practical solutions, the literature has relied on secure multiparty computation. However, recent research has mostly focused on the small-party honest-majority setting of up to four parties, noting efficiency concerns. In this work, we extend the strategies to support a larger number of participants in an honest-majority setting with efficiency at the center stage. Cast in the preprocessing paradigm, our semi-honest protocol improves the online complexity of the decade-old state-of-the-art protocol of Damg\aa rd and Nielson (CRYPTO'07). In addition to having an improved online communication cost, we can shut down almost half of the parties in the online phase, thereby saving up to 50% in the system's operational costs. Our maliciously secure protocol also enjoys similar benefits and requires only half of the parties, except for one-time verification, towards the end. To showcase the practicality of the designed protocols, we benchmark popular applications such as deep neural networks, graph neural networks, genome sequence matching, and biometric matching using prototype implementations. Our improved protocols aid in bringing up to 60-80% savings in monetary cost over prior work.
翻訳日:2022-06-27 20:29:39 公開日:2022-06-24
# (参考訳) 個人差分学習GANにおけるオートエンコーダの利用

Using Autoencoders on Differentially Private Federated Learning GANs ( http://arxiv.org/abs/2206.12270v1 )

ライセンス: CC BY 4.0
Gregor Schram, Rui Wang and Kaitai Liang(参考訳) 機械学習は過去数十年、コンピュータ科学のほぼすべての分野に適用されてきた。 GANの導入は、医学研究とテキスト予測の分野における新たな可能性を可能にした。 しかし、これらの新しい分野は、よりプライバシーに敏感なデータを扱う。 ユーザのプライバシを維持するために、連合学習と差分プライバシ、ganを組み合わせることで、ユーザのプライバシを手放さずにプライベートデータを扱うことができる。 近年,DP-Fed-Avg GANとGS-WGANの2つの実装が公表されている。 本稿では,その性能を比較検討し,gansに差分プライバシーと連合学習を適用する際に一般的に発生する精度の低下に対処するために,デノイジン化技術を利用するdp-fed-avg ganの代替版を提案する。 また,この分野におけるDP-Fed-Avg GANの新規適応と最先端実装の比較を行った。

Machine learning has been applied to almost all fields of computer science over the past decades. The introduction of GANs allowed for new possibilities in fields of medical research and text prediction. However, these new fields work with ever more privacy-sensitive data. In order to maintain user privacy, a combination of federated learning, differential privacy and GANs can be used to work with private data without giving away a users' privacy. Recently, two implementations of such combinations have been published: DP-Fed-Avg GAN and GS-WGAN. This paper compares their performance and introduces an alternative version of DP-Fed-Avg GAN that makes use of denoising techniques to combat the loss in accuracy that generally occurs when applying differential privacy and federated learning to GANs. We also compare the novel adaptation of denoised DP-Fed-Avg GAN to the state-of-the-art implementations in this field.
翻訳日:2022-06-27 18:44:40 公開日:2022-06-24
# (参考訳) 異種知識表現を用いたテキストと著者レベルの政治的推論

Text and author-level political inference using heterogeneous knowledge representations ( http://arxiv.org/abs/2206.12293v1 )

ライセンス: CC BY 4.0
Samuel Caetano da Silva and Ivandre Paraboni(参考訳) テキストデータから政治的にチャージされた情報の推測は、自然言語処理(NLP)においてテキストレベルと著者レベルの両方で人気のある研究トピックである。 近年,BERT などの変換器の表現の助けを借りて,このような研究が実施されている。 しかし、かなりの成功にもかかわらず、変換ベースのモデルと追加の知識表現を組み合わせることで、結果がさらに改善されるかどうかを問うことができる。 この問題に目を向けるべく,本研究では,英語とポルトガル語のテキストから政治的推論のための代替モデル構成を比較する実験について述べる。 結果は、特定のテキスト表現(特に、構文依存モデルによるBERT事前訓練言語モデルの使用)が、複数の実験的な設定で代替案よりも優れていることを示唆し、これらや他のNLPタスクにおける異種テキスト表現の使用に関するさらなる研究において、潜在的に強いケースとなる可能性があることを示唆している。

The inference of politically-charged information from text data is a popular research topic in Natural Language Processing (NLP) at both text- and author-level. In recent years, studies of this kind have been implemented with the aid of representations from transformers such as BERT. Despite considerable success, however, we may ask whether results may be improved even further by combining transformed-based models with additional knowledge representations. To shed light on this issue, the present work describes a series of experiments to compare alternative model configurations for political inference from text in both English and Portuguese languages. Results suggest that certain text representations - in particular, the combined use of BERT pre-trained language models with a syntactic dependency model - may outperform the alternatives across multiple experimental settings, making a potentially strong case for further research in the use of heterogeneous text representations in these and possibly other NLP tasks.
翻訳日:2022-06-27 18:36:30 公開日:2022-06-24
# (参考訳) 修辞構造理論に基づく観察行動の記述の学習

Learning Rhetorical Structure Theory-based descriptions of observed behaviour ( http://arxiv.org/abs/2206.12294v1 )

ライセンス: CC BY-SA 4.0
Luis Botelho, Luis Nunes, Ricardo Ribeiro, and Rui J. Lopes(参考訳) 先程の論文では,エージェントが行動,目標,能力,環境を記述するために使用できる,一連の概念,公理スキーマ,アルゴリズムを提案している。 現在の論文では、エージェントが観察された行動(例えば、複雑な行動)、アクター(例えば、望ましくない命題や行動)、環境(例えば、相容れない命題)の新たな記述を学べる新しい概念、公理スキーマ、アルゴリズムを提案する。 学習された各記述(例えば、あるアクションは将来別のアクションが実行されるのを防ぐ)は、実体(命題や行動)の関係で表され、観察によってのみ、ドメインに依存しない公理スキーマや学習アルゴリズムを用いて、エージェントによって学習される。 エージェントが学習した記述を表現するために使用する関係は、修辞構造理論(RST)に触発された。 論文の主な貢献は関係族であるが、rst関係の譲歩に触発されたものである。 家族の関係の正確な定義は、定義と対応するアルゴリズムが提示されるデオン的概念の集合を含む。 家族の関係は、エージェントの観察から一度抽出されたものの、観察された行動に驚きを表し、ある状況では、その正当性を示す。 本稿では,実装ソフトウェアを用いた実演シナリオにおける提案提案の結果を示す。

In a previous paper, we have proposed a set of concepts, axiom schemata and algorithms that can be used by agents to learn to describe their behaviour, goals, capabilities, and environment. The current paper proposes a new set of concepts, axiom schemata and algorithms that allow the agent to learn new descriptions of an observed behaviour (e.g., perplexing actions), of its actor (e.g., undesired propositions or actions), and of its environment (e.g., incompatible propositions). Each learned description (e.g., a certain action prevents another action from being performed in the future) is represented by a relationship between entities (either propositions or actions) and is learned by the agent, just by observation, using domain-independent axiom schemata and or learning algorithms. The relations used by agents to represent the descriptions they learn were inspired on the Theory of Rhetorical Structure (RST). The main contribution of the paper is the relation family Although, inspired on the RST relation Concession. The accurate definition of the relations of the family Although involves a set of deontic concepts whose definition and corresponding algorithms are presented. The relations of the family Although, once extracted from the agent's observations, express surprise at the observed behaviour and, in certain circumstances, present a justification for it. The paper shows results of the presented proposals in a demonstration scenario, using implemented software.
翻訳日:2022-06-27 18:17:19 公開日:2022-06-24
# (参考訳) 侵襲的冠動脈造影法における深層学習による冠動脈の自動抽出

Automatic extraction of coronary arteries using deep learning in invasive coronary angiograms ( http://arxiv.org/abs/2206.12300v1 )

ライセンス: CC BY 4.0
Yinghui Meng, Zhenglong Du, Chen Zhao, Minghao Dong, Drew Pienta, Zhihui Xu, Weihua Zhou(参考訳) 冠動脈造影検査(ICA)による冠動脈の正確な抽出は,冠動脈疾患(CAD)の診断とリスク成層化の臨床的決定に重要である。 本研究では,冠動脈腔を自動的に抽出する深層学習法を開発した。 メソッド。 フルスケールのスキップ接続と深い監督を組み込んだ深層学習モデル u-net 3+ が, icas からの冠動脈の自動抽出のために提案されている。 この新しい冠動脈抽出の枠組みでは, 転写学習とハイブリッド損失関数が用いられた。 結果だ 210人の患者から得られた616 icasを含むデータセットを用いた。 技術的評価では、u-net 3+ は 0.8942 のサイススコアと 0.8735 の感度を達成し、これは u-net ++ よりも高く (diceスコア 0.8814, 感度 0.8331)、u-net (diceスコア 0.8799, 感度 0.8305) である。 結論だ 本研究は,U-Net 3+が,ICAから冠状動脈を自動抽出する他のセグメンテーションフレームワークよりも優れていることを示す。 この結果から臨床応用に大きな期待が持てる。

Accurate extraction of coronary arteries from invasive coronary angiography (ICA) is important in clinical decision-making for the diagnosis and risk stratification of coronary artery disease (CAD). In this study, we develop a method using deep learning to automatically extract the coronary artery lumen. Methods. A deep learning model U-Net 3+, which incorporates the full-scale skip connections and deep supervisions, was proposed for automatic extraction of coronary arteries from ICAs. Transfer learning and a hybrid loss function were employed in this novel coronary artery extraction framework. Results. A data set containing 616 ICAs obtained from 210 patients was used. In the technical evaluation, the U-Net 3+ achieved a Dice score of 0.8942 and a sensitivity of 0.8735, which is higher than U-Net ++ (Dice score: 0.8814, the sensitivity of 0.8331) and U-net (Dice score: 0.8799, the sensitivity of 0.8305). Conclusion. Our study demonstrates that the U-Net 3+ is superior to other segmentation frameworks for the automatic extraction of the coronary arteries from ICAs. This result suggests great promise for clinical use.
翻訳日:2022-06-27 18:16:10 公開日:2022-06-24
# (参考訳) psp:タンパク質構造予測のための百万単位タンパク質配列データセット

PSP: Million-level Protein Sequence Dataset for Protein Structure Prediction ( http://arxiv.org/abs/2206.12240v1 )

ライセンス: CC BY 4.0
Sirui Liu, Jun Zhang, Haotian Chu, Min Wang, Boxin Xue, Ningxi Ni, Jialiang Yu, Yuhao Xie, Zhenyu Chen, Mengyun Chen, Yuan Liu, Piya Patra, Fan Xu, Jie Chen, Zidong Wang, Lijiang Yang, Fan Yu, Lei Chen, Yi Qin Gao(参考訳) タンパク質は人間の生命の重要な構成要素であり、その構造は機能や機構解析に重要である。 近年の研究は、タンパク質構造予測のためのAI駆動手法の可能性を示している。 しかし、新しいモデルの開発はデータセットやベンチマークのトレーニング手順の欠如によって制限されている。 我々の知る限り、既存のオープンソースデータセットは、現代のタンパク質配列構造関連研究のニーズを満たすにははるかに少ない。 この問題を解決するために,PSPと命名された,高いカバレッジと多様性を有する最初の100万レベルのタンパク質構造予測データセットを提案する。 このデータセットは570k真の構造配列(10TB)と745k補完蒸留配列(15TB)からなる。 また、このデータセット上でのSOTAタンパク質構造予測モデルのベンチマークトレーニング手順も提供する。 CAMEOコンテストに参加することで,本データセットの有効性を検証し,本モデルが優勝した。 当社のPSPデータセットとトレーニングベンチマークが、AI駆動タンパク質研究のためのAI/生物学研究者の広範なコミュニティを可能にすることを願っています。

Proteins are essential component of human life and their structures are important for function and mechanism analysis. Recent work has shown the potential of AI-driven methods for protein structure prediction. However, the development of new models is restricted by the lack of dataset and benchmark training procedure. To the best of our knowledge, the existing open source datasets are far less to satisfy the needs of modern protein sequence-structure related research. To solve this problem, we present the first million-level protein structure prediction dataset with high coverage and diversity, named as PSP. This dataset consists of 570k true structure sequences (10TB) and 745k complementary distillation sequences (15TB). We provide in addition the benchmark training procedure for SOTA protein structure prediction model on this dataset. We validate the utility of this dataset for training by participating CAMEO contest in which our model won the first place. We hope our PSP dataset together with the training benchmark can enable a broader community of AI/biology researchers for AI-driven protein related research.
翻訳日:2022-06-27 18:06:51 公開日:2022-06-24
# (参考訳) SARS-CoV-2変異体が呼吸音に与える影響の解析

Analyzing the impact of SARS-CoV-2 variants on respiratory sound signals ( http://arxiv.org/abs/2206.12309v1 )

ライセンス: CC BY 4.0
Debarpan Bhattacharya, Debottam Dutta, Neeraj Kumar Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K K, Sadhana Gonuguntla, Murali Alagesan(参考訳) 新型コロナウイルスの感染拡大により、SARS-CoV-2の様々なバリエーションと関連付けられた複数の感染波が発生した。 研究は、この変異が患者の呼吸健康に与える影響を報告している。 新型コロナウイルス(covid-19)患者から収集された音響信号が、基礎となるウイルス変異を予測できる可能性を示唆する計算学的に識別可能な音響パターンを示すかどうかを検討する。 本研究では,3つの対象プールから収集したコスワラデータセットの解析を行う。 i)健康である。 二 デルタ変量支配期に記録された新型コロナウイルス患者、及び iii) omicronサージ中に記録されたcovid-19患者データ。 以上の結果から,covid-19患者とomicronおよびdelta変異体を比較すると,複数の音響的特徴が有意な差を示すことが示唆された。 この分類区は、オミクロン感染の患者とデルタ感染の患者を区別する確率がかなり高い。 複数の音響カテゴリのスコア融合を用いて、95%の特異度で89%と52.4%の感度領域を得た。 さらに、階層的な3つの分類手法を用いて、音響データを健康と新型コロナウイルスの陽性に分類し、さらに3つの分類精度の高いデルタおよびオミクロン変異体に分類した。 これらの結果は、サウンドベースの新型コロナウイルスの診断アプローチを設計する新しい方法の提案である。

The COVID-19 outbreak resulted in multiple waves of infections that have been associated with different SARS-CoV-2 variants. Studies have reported differential impact of the variants on respiratory health of patients. We explore whether acoustic signals, collected from COVID-19 subjects, show computationally distinguishable acoustic patterns suggesting a possibility to predict the underlying virus variant. We analyze the Coswara dataset which is collected from three subject pools, namely, i) healthy, ii) COVID-19 subjects recorded during the delta variant dominant period, and iii) data from COVID-19 subjects recorded during the omicron surge. Our findings suggest that multiple sound categories, such as cough, breathing, and speech, indicate significant acoustic feature differences when comparing COVID-19 subjects with omicron and delta variants. The classification areas-under-the-curve are significantly above chance for differentiating subjects infected by omicron from those infected by delta. Using a score fusion from multiple sound categories, we obtained an area-under-the-curve of 89% and 52.4% sensitivity at 95% specificity. Additionally, a hierarchical three class approach was used to classify the acoustic data into healthy and COVID-19 positive, and further COVID-19 subjects into delta and omicron variants providing high level of 3-class classification accuracy. These results suggest new ways for designing sound based COVID-19 diagnosis approaches.
翻訳日:2022-06-27 17:45:55 公開日:2022-06-24
# (参考訳) PoCaP Corpus:インターベンショナルラジオロジーワークフロー分析を用いたスマートオペレーティングルーム音声アシスタント用マルチモーダルデータセット

PoCaP Corpus: A Multimodal Dataset for Smart Operating Room Speech Assistant using Interventional Radiology Workflow Analysis ( http://arxiv.org/abs/2206.12320v1 )

ライセンス: CC0 1.0
Kubilay Can Demir, Matthias May, Axel Schmid, Michael Uder, Katharina Breininger, Tobias Weise, Andreas Maier, Seung Hee Yang(参考訳) 本稿では,PoCaP (Port Catheter Placement) Corpusと呼ばれる多モード干渉ラジオロジーデータセットを提案する。 このコーパスは、ドイツ語、X線画像、および、平均81.4$\pm$41.0分である6人の外科医による31人のPoCaP介入から収集されたシステムコマンドからなる。 コーパスは、手術室でスマート音声アシスタントを開発するためのリソースを提供することを目的としている。 特に、外科医がC腕の動きやテーブル位置などの操作パラメータを制御できる音声制御システムの開発に使用することができる。 このデータセットを記録するために,erlangen大学病院の機関審査委員会と労働者協議会,および患者によるデータプライバシの承認を得た。 記録セット,データ構造,ワークフロー,前処理ステップについて記述し,事前学習モデルを用いて,最初のPoCaP Corpus音声認識解析結果を11.52$\%のワード誤り率で報告する。 以上の結果から,このデータはロバストなコマンド認識システムを構築する可能性があり,医療領域における音声および画像処理を用いた新たな介入支援システムの開発が可能であることが示唆された。

This paper presents a new multimodal interventional radiology dataset, called PoCaP (Port Catheter Placement) Corpus. This corpus consists of speech and audio signals in German, X-ray images, and system commands collected from 31 PoCaP interventions by six surgeons with average duration of 81.4 $\pm$ 41.0 minutes. The corpus aims to provide a resource for developing a smart speech assistant in operating rooms. In particular, it may be used to develop a speech controlled system that enables surgeons to control the operation parameters such as C-arm movements and table positions. In order to record the dataset, we acquired consent by the institutional review board and workers council in the University Hospital Erlangen and by the patients for data privacy. We describe the recording set-up, data structure, workflow and preprocessing steps, and report the first PoCaP Corpus speech recognition analysis results with 11.52 $\%$ word error rate using pretrained models. The findings suggest that the data has the potential to build a robust command recognition system and will allow the development of a novel intervention support systems using speech and image processing in the medical domain.
翻訳日:2022-06-27 17:36:44 公開日:2022-06-24
# (参考訳) グラフ逆問題に対する変分オートエンコーダによるグラフ拡散源の定位

Source Localization of Graph Diffusion via Variational Autoencoders for Graph Inverse Problems ( http://arxiv.org/abs/2206.12327v1 )

ライセンス: CC BY 4.0
Chen Ling, Junji Jiang, Junxiang Wang, and Liang Zhao(参考訳) 噂の伝播、コンピュータウイルス、スマートグリッド障害などのグラフ拡散問題は、ユビキタスで社会的である。 したがって、通常は現在のグラフ拡散観測に基づいて拡散源を特定することが重要である。 その膨大な必要性と重要性にもかかわらず、グラフ拡散の逆問題として、ソースローカライゼーションは極めて困難であり、異なるソースが同じグラフ拡散パターンに繋がる可能性がある。 従来のソースローカライズ手法と異なり,本論文では,異なる候補ソースの不確実性を考慮した確率的手法に焦点を当てる。 このような努力には 克服すべき課題があります 1) グラフ拡散源の局所化の不確実性は定量化が難しい。 2)グラフ拡散源の複雑なパターンを確率的に特徴づけることは困難である。 3)任意の拡散パターンに基づく一般化を課すことは困難である。 そこで本稿では, 拡散源を任意の拡散パターンで同定するためのsl-vae(source localization variational autoencoder)という汎用フレームワークを提案する。 特に, 不確かさを定量化するために拡散源分布を近似する深部生成モデルとともに, 前方拡散推定モデルを活用する確率モデルを提案する。 SL-VAEはさらに、ソース観測ペアの事前知識を利用して、学習された生成前の拡散源の複雑なパターンを特徴付ける。 最後に、前方拡散推定モデルを統合する統一目的を導出し、任意の拡散パターンの下でモデルを一般化させる。 SL-VAEの拡散源再構築における優位性を示すために,AUCスコアの平均20%で他の手法に優れる7つの実世界のデータセットを用いて大規模な実験を行った。

Graph diffusion problems such as the propagation of rumors, computer viruses, or smart grid failures are ubiquitous and societal. Hence it is usually crucial to identify diffusion sources according to the current graph diffusion observations. Despite its tremendous necessity and significance in practice, source localization, as the inverse problem of graph diffusion, is extremely challenging as it is ill-posed: different sources may lead to the same graph diffusion patterns. Different from most traditional source localization methods, this paper focuses on a probabilistic manner to account for the uncertainty of different candidate sources. Such endeavors require overcoming challenges including 1) the uncertainty in graph diffusion source localization is hard to be quantified; 2) the complex patterns of the graph diffusion sources are difficult to be probabilistically characterized; 3) the generalization under any underlying diffusion patterns is hard to be imposed. To solve the above challenges, this paper presents a generic framework: Source Localization Variational AutoEncoder (SL-VAE) for locating the diffusion sources under arbitrary diffusion patterns. Particularly, we propose a probabilistic model that leverages the forward diffusion estimation model along with deep generative models to approximate the diffusion source distribution for quantifying the uncertainty. SL-VAE further utilizes prior knowledge of the source-observation pairs to characterize the complex patterns of diffusion sources by a learned generative prior. Lastly, a unified objective that integrates the forward diffusion estimation model is derived to enforce the model to generalize under arbitrary diffusion patterns. Extensive experiments are conducted on 7 real-world datasets to demonstrate the superiority of SL-VAE in reconstructing the diffusion sources by excelling other methods on average 20% in AUC score.
翻訳日:2022-06-27 17:28:07 公開日:2022-06-24
# (参考訳) HANF:フェデレーションラーニングにおけるハイパーパラメータとニューラルアーキテクチャ検索

HANF: Hyperparameter And Neural Architecture Search in Federated Learning ( http://arxiv.org/abs/2206.12342v1 )

ライセンス: CC BY 4.0
Jonas Seng, Pooja Prasad, Devendra Singh Dhami, Kristian Kersting(参考訳) 機械学習(AutoML)は、機械学習モデルを現実世界の問題を解決するために広く応用するための重要なステップである。 多くの研究進歩にもかかわらず、機械学習の手法は、主にデータプライバシとセキュリティ規制、中央でのデータ量の増大と計算に関わる高コスト、そして最も重要な専門知識の欠如のために、業界によって完全に活用されていない。 したがって、いくつかのデータ所有者サーバに分散したデータのためのAutoMLフレームワークを構築するためのステップとして、新しいフレームワークであるHANF - $\textbf{H}$yperparameter $\textbf{A}$nd $\textbf{N}$eural architecture search in $\textbf{F}$ederated learningを紹介します。 HANFは、勾配に基づくニューラルネットワークサーチと、データ分散設定でそれぞれ$n$armed banditアプローチを使用して、学習アルゴリズムのニューラルアーキテクチャと非アーキテクチャハイパーパラメータを共同で最適化する。 HANFは最適化されたニューラルアーキテクチャを効率的に見つけるとともに、データオーナサーバのハイパーパラメータを調整する。 さらに、HANFはフェデレーション設定と非フェデレーション設定の両方に適用できる。 実験により、HANFは画像分類タスクを用いて、よく適合したアーキテクチャや非構造的ハイパーパラメータセットに収束することを示す。

Automated machine learning (AutoML) is an important step to make machine learning models being widely applied to solve real world problems. Despite numerous research advancement, machine learning methods are not fully utilized by industries mainly due to their data privacy and security regulations, high cost involved in storing and computing increasing amount of data at central location and most importantly lack of expertise. Hence, we introduce a novel framework, HANF - $\textbf{H}$yperparameter $\textbf{A}$nd $\textbf{N}$eural architecture search in $\textbf{F}$ederated learning as a step towards building an AutoML framework for data distributed across several data owner servers without any need for bringing the data to a central location. HANF jointly optimizes a neural architecture and non-architectural hyperparameters of a learning algorithm using gradient-based neural architecture search and $n$-armed bandit approach respectively in data distributed setting. We show that HANF efficiently finds the optimized neural architecture and also tunes the hyperparameters on data owner servers. Additionally, HANF can be applied in both, federated and non-federated settings. Empirically, we show that HANF converges towards well-suited architectures and non-architectural hyperparameter-sets using image-classification tasks.
翻訳日:2022-06-27 16:52:01 公開日:2022-06-24
# (参考訳) 密結合多次元動的ネットワークを用いた心筋SPECT用セグメンテーションフリーPVC

Segmentation-free PVC for Cardiac SPECT using a Densely-connected Multi-dimensional Dynamic Network ( http://arxiv.org/abs/2206.12344v1 )

ライセンス: CC BY 4.0
Huidong Xie, Zhao Liu, Luyao Shi, Kathleen Greco, Xiongchao Chen, Bo Zhou, Attila Feher, John C. Stendahl, Nabil Boutagy, Tassos C. Kyriakides, Ge Wang, Albert J. Sinusas, Chi Liu(参考訳) 核画像では、解像度の制限は、画像のシャープネスと定量精度に影響を与える部分体積効果(PVE)を引き起こす。 CTやMRIから高分解能解剖情報を取り入れた部分体積補正法が有効であることが示されている。 しかし、このような解剖学的誘導法は通常、退屈な画像登録とセグメンテーションの手順を必要とする。 正確なセグメント化された臓器テンプレートは、特に心SPECT画像において、ハイエンドCTと関連するモーションアーティファクトを備えたハイブリッドSPECT/CTスキャナが欠如しているため、入手が困難である。 Slight mis-registration/mis-segmentationはPVC後の画像品質を著しく低下させる。 本研究では,解剖学的情報や臓器分節を伴わない高速心筋spect pvcのディープラーニング法を開発した。 提案するネットワークは、ネットワークが十分に訓練された後も、入力画像に基づいて畳み込みカーネルを適応させることができるように、密結合された多次元動的機構を含む。 心筋内血流量(IMBV)は、ネットワーク最適化のための追加臨床関連損失関数として導入される。 GE Discovery NM/CT 570c専用心筋SPECTスキャナー(64スライスCT)において,Technetium-99m標識赤血球を用いた28種類の犬実験で有望な性能を示した。 本研究は, 動的機構を密結合した提案ネットワークが, 同様の機構を伴わないネットワークと比較して優れた結果を得たことを示すものである。 また, 解剖学的情報を持たないネットワークは, 臨床翻訳に有用である解剖学的誘導PVC法により生成された画像に対して, 統計的に比較したIMBV測定による画像を生成することができた。

In nuclear imaging, limited resolution causes partial volume effects (PVEs) that affect image sharpness and quantitative accuracy. Partial volume correction (PVC) methods incorporating high-resolution anatomical information from CT or MRI have been demonstrated to be effective. However, such anatomical-guided methods typically require tedious image registration and segmentation steps. Accurately segmented organ templates are also hard to obtain, particularly in cardiac SPECT imaging, due to the lack of hybrid SPECT/CT scanners with high-end CT and associated motion artifacts. Slight mis-registration/mis-segmentation would result in severe degradation in image quality after PVC. In this work, we develop a deep-learning-based method for fast cardiac SPECT PVC without anatomical information and associated organ segmentation. The proposed network involves a densely-connected multi-dimensional dynamic mechanism, allowing the convolutional kernels to be adapted based on the input images, even after the network is fully trained. Intramyocardial blood volume (IMBV) is introduced as an additional clinical-relevant loss function for network optimization. The proposed network demonstrated promising performance on 28 canine studies acquired on a GE Discovery NM/CT 570c dedicated cardiac SPECT scanner with a 64-slice CT using Technetium-99m-labeled red blood cells. This work showed that the proposed network with densely-connected dynamic mechanism produced superior results compared with the same network without such mechanism. Results also showed that the proposed network without anatomical information could produce images with statistically comparable IMBV measurements to the images generated by anatomical-guided PVC methods, which could be helpful in clinical translation.
翻訳日:2022-06-27 16:37:48 公開日:2022-06-24
# (参考訳) テンソルネットワーク量子状態からテンソルリカレントニューラルネットワークへ

From Tensor Network Quantum States to Tensorial Recurrent Neural Networks ( http://arxiv.org/abs/2206.12363v1 )

ライセンス: CC BY 4.0
Dian Wu, Riccardo Rossi, Filippo Vicentini, Giuseppe Carleo(参考訳) 我々は,任意の行列積状態 (MPS) が線形メモリ更新を伴うリカレントニューラルネットワーク (RNN) によって正確に表現可能であることを示す。 我々はこのRNNアーキテクチャを多線形メモリ更新を用いて2次元格子に一般化する。 多項式時間での完全なサンプリングと波動関数の評価をサポートし、絡み合いエントロピーの領域則を表現できる。 数値的な証拠から、結合次元を増加させることで体系的に改善できる精度で、mpsよりも桁違いに小さい結合次元を用いて波動関数を符号化できることが示されている。

We show that any matrix product state (MPS) can be exactly represented by a recurrent neural network (RNN) with a linear memory update. We generalize this RNN architecture to 2D lattices using a multilinear memory update. It supports perfect sampling and wave function evaluation in polynomial time, and can represent an area law of entanglement entropy. Numerical evidence shows that it can encode the wave function using a bond dimension lower by orders of magnitude when compared to MPS, with an accuracy that can be systematically improved by increasing the bond dimension.
翻訳日:2022-06-27 16:16:58 公開日:2022-06-24
# (参考訳) 未発見領域の一般化の証明と改善について

On Certifying and Improving Generalization to Unseen Domains ( http://arxiv.org/abs/2206.12364v1 )

ライセンス: CC BY 4.0
Akshay Mehra, Bhavya Kailkhura, Pin-Yu Chen and Jihun Hamm(参考訳) ドメイン一般化 (Domain Generalization, DG) は、複数の関連するソースドメインのデータを使用することで、テスト時に遭遇した見知らぬドメインのパフォーマンスが高いモデルを学ぶことを目的としている。 多くの既存のDGアルゴリズムは、表現空間内のソース分布間のばらつきを減らし、ソースに近い見えない領域を整列させる。 これは、ソースへの分布距離(ワッサーシュタイン距離など)を用いて、未知の領域への一般化を説明する解析によって動機づけられる。 しかし、DGの目的がオープンであることから、いくつかのベンチマークデータセットを使用してDGアルゴリズムを包括的に評価することは困難である。 特に、DG手法を用いてトレーニングされたモデルの精度は、一般的なベンチマークデータセットから生成された未確認領域によって大きく異なることを示す。 これは、いくつかのベンチマークデータセットにおけるDGメソッドのパフォーマンスが、野生の目に見えないドメインにおけるパフォーマンスを表すものではないことを強調している。 この課題を克服するために,分散ロバスト最適化 (distributionally robust optimization,dro) に基づく汎用認証フレームワークを提案する。 これにより、ベンチマークデータセット上での経験的評価を補完するDG法のデータ非依存評価が可能になる。 さらに,任意のdg法を用いて認証性能を向上できるトレーニングアルゴリズムを提案する。 我々の実証評価は,ベンチマークデータセットに大幅な性能低下を生じさせることなく,最悪の場合の損失を著しく改善する手法の有効性を実証するものである。

Domain Generalization (DG) aims to learn models whose performance remains high on unseen domains encountered at test-time by using data from multiple related source domains. Many existing DG algorithms reduce the divergence between source distributions in a representation space to potentially align the unseen domain close to the sources. This is motivated by the analysis that explains generalization to unseen domains using distributional distance (such as the Wasserstein distance) to the sources. However, due to the openness of the DG objective, it is challenging to evaluate DG algorithms comprehensively using a few benchmark datasets. In particular, we demonstrate that the accuracy of the models trained with DG methods varies significantly across unseen domains, generated from popular benchmark datasets. This highlights that the performance of DG methods on a few benchmark datasets may not be representative of their performance on unseen domains in the wild. To overcome this roadblock, we propose a universal certification framework based on distributionally robust optimization (DRO) that can efficiently certify the worst-case performance of any DG method. This enables a data-independent evaluation of a DG method complementary to the empirical evaluations on benchmark datasets. Furthermore, we propose a training algorithm that can be used with any DG method to provably improve their certified performance. Our empirical evaluation demonstrates the effectiveness of our method at significantly improving the worst-case loss (i.e., reducing the risk of failure of these models in the wild) without incurring a significant performance drop on benchmark datasets.
翻訳日:2022-06-27 15:59:05 公開日:2022-06-24
# (参考訳) フェデレート平均化におけるデータ漏洩

Data Leakage in Federated Averaging ( http://arxiv.org/abs/2206.12395v1 )

ライセンス: CC BY 4.0
Dimitar I. Dimitrov, Mislav Balunovi\'c, Nikola Konstantinov, Martin Vechev(参考訳) 最近の攻撃は、ユーザーデータをFedSGDのアップデートから再構築できることを示している。 しかしながら、これらの攻撃はFedAvgアルゴリズムを使うフェデレーション学習の実践的関連性に制限がある。 FedAvgの更新からデータを再構築するのは、次のようなFedSGDよりもはるかに難しいと一般的に受け入れられている。 (i)未観測の中間重量更新がある。 (二)入力の順序が問題であり、 (三)各時代ごとにラベルの順序が変わる。 そこで本研究では,FedAvgに対する新たな最適化ベースの攻撃を提案し,上記の課題に対処する。 まず,受信したクライアント更新に適合するように,再構成ラベルと入力に対するクライアント更新のシミュレーションを強制する自動微分を用いた最適化問題を解く。 第2に、異なるエポックの画像を最適化時に独立に扱うことにより、未知の入力順序に対処し、それ以前の置換不変量と関連付ける。 第三に、FedAvgの各ステップで既存のFedSGD攻撃のパラメータを推定することでラベルを再構築する。 一般的なfemnistデータセットでは,ベースラインを使用した場合の<10%>に比べて,10個のバッチの10個のローカルエポックで計算されたfedavg更新からクライアントのイメージの45%以上を,平均で再現することに成功した。 これらの結果から,FedAvgに基づく実世界のフェデレート学習実装の多くが脆弱であることが示唆された。

Recent attacks have shown that user data can be reconstructed from FedSGD updates, thus breaking privacy. However, these attacks are of limited practical relevance as federated learning typically uses the FedAvg algorithm. It is generally accepted that reconstructing data from FedAvg updates is much harder than FedSGD as: (i) there are unobserved intermediate weight updates, (ii) the order of inputs matters, and (iii) the order of labels changes every epoch. In this work, we propose a new optimization-based attack which successfully attacks FedAvg by addressing the above challenges. First, we solve the optimization problem using automatic differentiation that forces a simulation of the client's update for the reconstructed labels and inputs so as to match the received client update. Second, we address the unknown input order by treating images at different epochs as independent during optimization, while relating them with a permutation invariant prior. Third, we reconstruct the labels by estimating the parameters of existing FedSGD attacks at every FedAvg step. On the popular FEMNIST dataset, we demonstrate that on average we successfully reconstruct >45% of the client's images from realistic FedAvg updates computed on 10 local epochs of 10 batches each with 5 images, compared to only <10% using the baseline. These findings indicate that many real-world federated learning implementations based on FedAvg are vulnerable.
翻訳日:2022-06-27 15:25:13 公開日:2022-06-24
# 未知数の音源に対する反復音源定位

Iterative Sound Source Localization for Unknown Number of Sources ( http://arxiv.org/abs/2206.12273v1 )

ライセンス: Link先を確認
Yanjie Fu, Meng Ge, Haoran Yin, Xinyuan Qian, Longbiao Wang, Gaoyan Zhang, Jianwu Dang(参考訳) 音源定位は、観測されたマルチチャンネルオーディオから全ての音源の到着方向(DOA)を求めることを目的としている。 未知のソース数の実用的な問題に対して、既存のローカライゼーションアルゴリズムは、確率ベースの符号化(空間スペクトル)を予測し、あらかじめ決定された閾値を用いてソース数と対応するDOA値を検出する。 しかし、これらのしきい値に基づくアルゴリズムは、しきい値の選択によって制限されるため、安定ではない。 この問題に対処するため, 終端基準を満たすまで各音源のDOAをしきい値なしに繰り返し抽出できる ISSL という反復音源定位手法を提案する。 しきい値に基づくアルゴリズムとは異なり、ISSLはバイナリ分類器に基づくアクティブなソース検出器ネットワークを設計し、残留空間スペクトルを受け入れ、繰り返しを停止するかを決定する。 そうすることで、ISSLは任意の数のソースを扱うことができ、トレーニング段階で見られるソースの数よりもも多いのです。 実験の結果,既存のしきい値に基づくアルゴリズムと比較して,DOA推定とソース数検出の両方において,ISSLは大幅な性能向上を実現していることがわかった。

Sound source localization aims to seek the direction of arrival (DOA) of all sound sources from the observed multi-channel audio. For the practical problem of unknown number of sources, existing localization algorithms attempt to predict a likelihood-based coding (i.e., spatial spectrum) and employ a pre-determined threshold to detect the source number and corresponding DOA value. However, these threshold-based algorithms are not stable since they are limited by the careful choice of threshold. To address this problem, we propose an iterative sound source localization approach called ISSL, which can iteratively extract each source's DOA without threshold until the termination criterion is met. Unlike threshold-based algorithms, ISSL designs an active source detector network based on binary classifier to accept residual spatial spectrum and decide whether to stop the iteration. By doing so, our ISSL can deal with an arbitrary number of sources, even more than the number of sources seen during the training stage. The experimental results show that our ISSL achieves significant performance improvements in both DOA estimation and source number detection compared with the existing threshold-based algorithms.
翻訳日:2022-06-27 14:58:02 公開日:2022-06-24
# 機械学習に基づくシステムのバグ: faultloadベンチマーク

Bugs in Machine Learning-based Systems: A Faultload Benchmark ( http://arxiv.org/abs/2206.12311v1 )

ライセンス: Link先を確認
Mohammad Mehdi Morovati, Amin Nikanjam, Foutse Khomh, Zhen Ming (Jack) Jiang(参考訳) 機械学習(ML)をさまざまな領域に適用する急速なエスカレーションにより、MLコンポーネントの品質により多くの注意を払っている。 そして、MLコンポーネントの品質を改善し、MLベースのシステムに安全に統合することを目的とした技術とツールが成長している。 これらのツールのほとんどはバグのライフサイクルを使っているが、パフォーマンスを評価し、比較し、その利点と弱点について議論するための標準ベンチマークはない。 本研究ではまず,MLベースのシステムにおけるバグの再現性と検証可能性について検討し,各システムにおいて最も重要な要因を示す。 次に、MLベースのソフトウェアシステムのバグのベンチマークを作成する際の課題について検討し、標準ベンチマークのすべての基準を満たすバグベンチマーク、すなわち、妥当性、再現性、公正性、妥当性、ユーザビリティを提供する。 この障害負荷ベンチマークには、GitHubとStack OverflowでML開発者が報告した113のバグが含まれている。 defect4MLはまた、MLベースのソフトウェアシステムのソフトウェア信頼性エンジニアリングにおける重要な課題にも対処している。 1)フレームワークのさまざまなバージョンに対するさまざまなバグを提供することによる、フレームワークの迅速な変更。 2) さまざまなMLフレームワークで同様のバグを提供することで、コードのポータビリティが向上する。 3) 必要な依存関係とデータに関する完全な情報を備えた完全な再現可能なバグを提供することによる,バグ再現性 4) バグの起源へのリンクを提示することで、バグに関する詳細な情報がない。 defect4MLは、MLベースのシステム実践者や研究者がテストツールやテクニックを評価することに関心がある。

The rapid escalation of applying Machine Learning (ML) in various domains has led to paying more attention to the quality of ML components. There is then a growth of techniques and tools aiming at improving the quality of ML components and integrating them into the ML-based system safely. Although most of these tools use bugs' lifecycle, there is no standard benchmark of bugs to assess their performance, compare them and discuss their advantages and weaknesses. In this study, we firstly investigate the reproducibility and verifiability of the bugs in ML-based systems and show the most important factors in each one. Then, we explore the challenges of generating a benchmark of bugs in ML-based software systems and provide a bug benchmark namely defect4ML that satisfies all criteria of standard benchmark, i.e. relevance, reproducibility, fairness, verifiability, and usability. This faultload benchmark contains 113 bugs reported by ML developers on GitHub and Stack Overflow, using two of the most popular ML frameworks: TensorFlow and Keras. defect4ML also addresses important challenges in Software Reliability Engineering of ML-based software systems, like: 1) fast changes in frameworks, by providing various bugs for different versions of frameworks, 2) code portability, by delivering similar bugs in different ML frameworks, 3) bug reproducibility, by providing fully reproducible bugs with complete information about required dependencies and data, and 4) lack of detailed information on bugs, by presenting links to the bugs' origins. defect4ML can be of interest to ML-based systems practitioners and researchers to assess their testing tools and techniques.
翻訳日:2022-06-27 14:57:42 公開日:2022-06-24
# ラベルはいくつありますか。 金本位制のラベルをよく見る

How many labelers do you have? A closer look at gold-standard labels ( http://arxiv.org/abs/2206.12041v1 )

ライセンス: Link先を確認
Chen Cheng, Hilal Asi, John Duchi(参考訳) 最も教師あり学習データセットの構成は、各インスタンスの複数のラベルを収集し、そのラベルを集約して‘gold-standard’のタイプを形成する。 ''. 我々は、このプロセスの(スティル化)理論モデルを開発し、その統計的結果を分析して、このパイプラインの知恵に疑問を呈し、非集約ラベル情報へのアクセスによって、うまく校正されたモデルのトレーニングが簡単になるか、場合によっては--- 可能になり得るかを示す。 しかし、物語全体は微妙であり、集約されたラベル情報とより完全なラベル情報との対比は、集約された情報を利用する推定器が頑健だが収束速度が遅い問題に依存し、全てのラベルを効果的に活用できる推定器が真のラベル付けプロセスに忠実さ(あるいは学習)がある場合、より早く収束する。 階層化モデルで開発した理論は,非集約ラベルが学習性能を向上すべきである場合など,実世界のデータセットに対していくつかの予測を行う。

The construction of most supervised learning datasets revolves around collecting multiple labels for each instance, then aggregating the labels to form a type of ``gold-standard.''. We question the wisdom of this pipeline by developing a (stylized) theoretical model of this process and analyzing its statistical consequences, showing how access to non-aggregated label information can make training well-calibrated models easier or -- in some cases -- even feasible, whereas it is impossible with only gold-standard labels. The entire story, however, is subtle, and the contrasts between aggregated and fuller label information depend on the particulars of the problem, where estimators that use aggregated information exhibit robust but slower rates of convergence, while estimators that can effectively leverage all labels converge more quickly if they have fidelity to (or can learn) the true labeling process. The theory we develop in the stylized model makes several predictions for real-world datasets, including when non-aggregate labels should improve learning performance, which we test to corroborate the validity of our predictions.
翻訳日:2022-06-27 14:57:20 公開日:2022-06-24
# 「計測できないものを修正できない」--フェデレーション学習における人口統計学的パフォーマンス格差の個人的測定

"You Can't Fix What You Can't Measure": Privately Measuring Demographic Performance Disparities in Federated Learning ( http://arxiv.org/abs/2206.12183v1 )

ライセンス: Link先を確認
Marc Juarez and Aleksandra Korolova(参考訳) 連合学習は、多くのデバイスが機械学習モデルのトレーニングで協力できるようにする。 従来の機械学習と同様に、フェデレーション学習でトレーニングされたモデルが異なるグループで異なるパフォーマンスを示す可能性があるという懸念が高まっている。 グループ間で平等なモデルパフォーマンスを計測および保証するための既存のソリューションは、グループメンバーシップに関する情報にアクセスする必要があるが、このアクセスは、特に連合学習のプライバシー願望の下で、常に利用可能または望ましいとは限らない。 本研究では,ユーザのグループメンバシップのプライバシと,ユーザのデータに対するフェデレーションモデルのパフォーマンスを保護しつつ,パフォーマンスの格差を計測する可能性について検討する。 両者の保護は、相互に関連付けられる可能性があるため、プライバシに不可欠であり、一方を学習することで他方が明らかになる可能性がある。 一方、実用の観点からは、プライバシ保護されたデータは相関を保ち、パフォーマンスの相違を正確に測定する能力を確保する必要がある。 グループメンバシップとモデルパフォーマンスの相関を保ちながら,局所的にプライベートなメカニズムを開発することで,これらの目標を両立させる。 このメカニズムの有効性を分析するために,与えられたプライバシー予算に最適化された場合の差を推定する誤差を限定し,それらの境界を合成データ上で検証した。 本結果から, クライアントの現実的な数のエラーは急速に減少し, 先行研究とは対照的に, 保護属性のプライバシ保護は, フェデレートされたモデルの性能の相違に必ずしも矛盾しないことを示した。

Federated learning allows many devices to collaborate in the training of machine learning models. As in traditional machine learning, there is a growing concern that models trained with federated learning may exhibit disparate performance for different demographic groups. Existing solutions to measure and ensure equal model performance across groups require access to information about group membership, but this access is not always available or desirable, especially under the privacy aspirations of federated learning. We study the feasibility of measuring such performance disparities while protecting the privacy of the user's group membership and the federated model's performance on the user's data. Protecting both is essential for privacy, because they may be correlated, and thus learning one may reveal the other. On the other hand, from the utility perspective, the privacy-preserved data should maintain the correlation to ensure the ability to perform accurate measurements of the performance disparity. We achieve both of these goals by developing locally differentially private mechanisms that preserve the correlations between group membership and model performance. To analyze the effectiveness of the mechanisms, we bound their error in estimating the disparity when optimized for a given privacy budget, and validate these bounds on synthetic data. Our results show that the error rapidly decreases for realistic numbers of participating clients, demonstrating that, contrary to what prior work suggested, protecting the privacy of protected attributes is not necessarily in conflict with identifying disparities in the performance of federated models.
翻訳日:2022-06-27 14:56:58 公開日:2022-06-24
# 信号処理におけるニューラルネットワーク応用の計算複雑性評価

Computational Complexity Evaluation of Neural Network Applications in Signal Processing ( http://arxiv.org/abs/2206.12191v1 )

ライセンス: Link先を確認
Pedro J. Freire, Sasipim Srivallapanondh, Antonio Napoli, Jaroslaw E. Prilepsky, Sergei K. Turitsyn(参考訳) 本稿では,デジタル信号処理におけるニューラルネットワーク層の計算複雑性を評価・比較するための体系的手法を提案する。 ソフトウェアからハードウエアまでの複雑性測定を4つ提供し、異なる複雑性メトリクスがレイヤのハイパーパラメータにどのように関係しているかを定義します。 本稿では、フィードフォワード層とリカレント層に対するこれらの4つのメトリクスの計算方法を説明し、よりソフトなアプリケーションかハードウェア指向のアプリケーションを特徴付けるかによって、特定のメトリクスを使用するべき場合を定義する。 加算数とビットシフト数(nabs)'と呼ばれる4つの指標のうちの1つが、異種量子化のために新しく導入された。 NABSは演算に使用されるビット幅だけでなく、演算に使用される量子化の種類にも影響する。 本研究は、リアルタイムディジタル信号処理におけるニューラルネットワークの応用に関連する複雑性推定のさまざまなレベル(目的)のベースラインとして機能し、計算複雑性推定を統一することを目的としている。

In this paper, we provide a systematic approach for assessing and comparing the computational complexity of neural network layers in digital signal processing. We provide and link four software-to-hardware complexity measures, defining how the different complexity metrics relate to the layers' hyper-parameters. This paper explains how to compute these four metrics for feed-forward and recurrent layers, and defines in which case we ought to use a particular metric depending on whether we characterize a more soft- or hardware-oriented application. One of the four metrics, called `the number of additions and bit shifts (NABS)', is newly introduced for heterogeneous quantization. NABS characterizes the impact of not only the bitwidth used in the operation but also the type of quantization used in the arithmetical operations. We intend this work to serve as a baseline for the different levels (purposes) of complexity estimation related to the neural networks' application in real-time digital signal processing, aiming at unifying the computational complexity estimation.
翻訳日:2022-06-27 14:56:23 公開日:2022-06-24
# ディープニューラルネットワークの敵対的ロバスト性:形式的検証の観点からの考察

Adversarial Robustness of Deep Neural Networks: A Survey from a Formal Verification Perspective ( http://arxiv.org/abs/2206.12227v1 )

ライセンス: Link先を確認
Mark Huasong Meng, Guangdong Bai, Sin Gee Teo, Zhe Hou, Yan Xiao, Yun Lin, Jin Song Dong(参考訳) ニューラルネットワークは、スパムやフィッシング検出、侵入防止、マルウェア検出などのセキュリティアプリケーションで広く利用されている。 しかし、このブラックボックス法はアプリケーションの不確実性や説明性に乏しいことが多い。 さらに、ニューラルネットワーク自体が、しばしば敵の攻撃に対して脆弱である。 これらの理由から,ニューラルネットワークモデルの堅牢性を検証するための信頼性の高い厳密な手法が求められている。 悪意のある操作された入力を扱う際のニューラルネットワークの信頼性に関する敵意の強固さは、セキュリティと機械学習において最もホットなトピックの1つだ。 本研究では,ニューラルネットワークの敵対的ロバスト性検証における既存文献を調査し,機械学習,セキュリティ,ソフトウェア工学分野にわたる39の研究成果を収集する。 頑健さの定式化,検証手法の活用,各手法の強みと限界など,それらのアプローチを体系的に分析する。 我々は,本トピックの包括的理解のために,形式的検証の観点から分類法を提案する。 既存の手法を特性仕様,問題解決,推論戦略に基づいて分類する。 また,サンプルモデルを用いた既存研究に応用された代表的手法を示す。 最後に,今後の課題について考察する。

Neural networks have been widely applied in security applications such as spam and phishing detection, intrusion prevention, and malware detection. This black-box method, however, often has uncertainty and poor explainability in applications. Furthermore, neural networks themselves are often vulnerable to adversarial attacks. For those reasons, there is a high demand for trustworthy and rigorous methods to verify the robustness of neural network models. Adversarial robustness, which concerns the reliability of a neural network when dealing with maliciously manipulated inputs, is one of the hottest topics in security and machine learning. In this work, we survey existing literature in adversarial robustness verification for neural networks and collect 39 diversified research works across machine learning, security, and software engineering domains. We systematically analyze their approaches, including how robustness is formulated, what verification techniques are used, and the strengths and limitations of each technique. We provide a taxonomy from a formal verification perspective for a comprehensive understanding of this topic. We classify the existing techniques based on property specification, problem reduction, and reasoning strategies. We also demonstrate representative techniques that have been applied in existing studies with a sample model. Finally, we discuss open questions for future research.
翻訳日:2022-06-27 14:54:07 公開日:2022-06-24
# ガウス過程をもつ保守ラグランジアン系の物理的に一貫性のある学習

Physically Consistent Learning of Conservative Lagrangian Systems with Gaussian Processes ( http://arxiv.org/abs/2206.12272v1 )

ライセンス: Link先を確認
Giulio Evangelisti and Sandra Hirche(参考訳) 本稿では,不確実なラグランジアン系の同定を可能にする物理的に一貫したガウス過程(GP)を提案する。 函数空間はラグランジアンと微分方程式の構造のエネルギー成分に従って調整され、エネルギー保存や二次形式のような物理的および数学的性質を解析的に保証する。 コレスキー分解行列核の新しい定式化により、正定値性の確率的保存が可能になる。 ガウスノイズはトルク、速度、加速度で許容されるが、関数マップの差動入出力測定は必要である。 本手法の有効性を数値シミュレーションで実証する。

This paper proposes a physically consistent Gaussian Process (GP) enabling the identification of uncertain Lagrangian systems. The function space is tailored according to the energy components of the Lagrangian and the differential equation structure, analytically guaranteeing physical and mathematical properties such as energy conservation and quadratic form. The novel formulation of Cholesky decomposed matrix kernels allow the probabilistic preservation of positive definiteness. Only differential input-to-output measurements of the function map are required while Gaussian noise is permitted in torques, velocities, and accelerations. We demonstrate the effectiveness of the approach in numerical simulation.
翻訳日:2022-06-27 14:53:50 公開日:2022-06-24
# 推薦システムに対する会員推論攻撃に対するデバイアスング学習

Debiasing Learning for Membership Inference Attacks Against Recommender Systems ( http://arxiv.org/abs/2206.12401v1 )

ライセンス: Link先を確認
Zihan Wang, Na Huang, Fei Sun, Pengjie Ren, Zhumin Chen, Hengliang Luo, Maarten de Rijke, Zhaochun Ren(参考訳) 学習されたレコメンデータシステムは、トレーニングデータに関する情報を不注意に漏洩させ、プライバシー侵害につながる可能性がある。 我々は,推薦システムによるプライバシー上の脅威を,会員推定のレンズを通して調査する。 このような攻撃において、相手は、ユーザのデータを使用してターゲットレコメンデータをトレーニングするかどうかを推測する。 これを実現するために、以前の研究ではshadow recommenderを使用して攻撃モデルのトレーニングデータを導出し、ユーザの過去のインタラクションと推奨項目の差分ベクトルを計算してメンバーシップを予測する。 1)攻撃モデルのトレーニングデータは,シャドーとターゲットレコメンデータのギャップによってバイアスを受け,(2)レコメンデータの隠れ状態は観察的ではないため,差分ベクトルの正確な推定には至らなかった。 そこで本研究では,(1)差分ベクトル生成器,(2)不等角エンコーダ,(3)重み推定器,(4)攻撃モデルという4つの主成分を有するリコメンダシステム(dl-mia)フレームワークに対するメンバシップ推論攻撃に対する偏り学習を提案する。 また,レコメンダ間のギャップを軽減するために,変分自動エンコーダ(VAE)をベースとしたアンタングルエンコーダを考案し,レコメンダの不変性と特定の特徴を識別する。 推定バイアスを低減するために,各差分ベクトルに真理レベルスコアを割り当てて推定精度を示す重み推定器を設計する。 DL-MIAを3つの実世界のデータセット上で一般的なレコメンデーションとシーケンシャルなレコメンデーションの両方に対して評価する。 実験の結果,dl-miaはトレーニングと推定のバイアスを効果的に軽減し,最先端の攻撃性能を実現する。

Learned recommender systems may inadvertently leak information about their training data, leading to privacy violations. We investigate privacy threats faced by recommender systems through the lens of membership inference. In such attacks, an adversary aims to infer whether a user's data is used to train the target recommender. To achieve this, previous work has used a shadow recommender to derive training data for the attack model, and then predicts the membership by calculating difference vectors between users' historical interactions and recommended items. State-of-the-art methods face two challenging problems: (1) training data for the attack model is biased due to the gap between shadow and target recommenders, and (2) hidden states in recommenders are not observational, resulting in inaccurate estimations of difference vectors. To address the above limitations, we propose a Debiasing Learning for Membership Inference Attacks against recommender systems (DL-MIA) framework that has four main components: (1) a difference vector generator, (2) a disentangled encoder, (3) a weight estimator, and (4) an attack model. To mitigate the gap between recommenders, a variational auto-encoder (VAE) based disentangled encoder is devised to identify recommender invariant and specific features. To reduce the estimation bias, we design a weight estimator, assigning a truth-level score for each difference vector to indicate estimation accuracy. We evaluate DL-MIA against both general recommenders and sequential recommenders on three real-world datasets. Experimental results show that DL-MIA effectively alleviates training and estimation biases simultaneously, and achieves state-of-the-art attack performance.
翻訳日:2022-06-27 14:53:40 公開日:2022-06-24
# 畳み込みニューラルネットワークを用いた階層型三重系の安定性予測

Predicting the Stability of Hierarchical Triple Systems with Convolutional Neural Networks ( http://arxiv.org/abs/2206.12402v1 )

ライセンス: Link先を確認
Florian Lalande and Alessandro Alberto Trani(参考訳) 階層的三重システムの長期的な進化を理解することは、その固有のカオス性から困難であり、計算コストの高いシミュレーションを必要とする。 本稿では,第1次5次2次軌道の進化を観測することにより,階層型三重項の安定性を予測する畳み込みニューラルネットワークモデルを提案する。 正規化された小体コード \textsc{tsunami} を用いて,5\times 10^6$hierarchical triples をシミュレートし,そこから大規模なトレーニングとテストデータセットを生成する。 我々は、トリプルの軌道要素の異なる組み合わせを利用する12の異なるネットワーク構成を開発し、それらの性能を比較する。 我々の最良のモデルは6つの時系列、すなわち半大軸比、内側と外側の偏心率、相互傾斜および周辺中心の議論を用いる。 このモデルは 95\%$ 以上の曲線の下の領域を達成し、関連するパラメータを知らせて三重系の安定性を研究する。 すべてのトレーニングされたモデルが公開されており、純粋な$n$-bodyメソッドよりも200ドルの高速で階層的な3重システムの安定性を予測できる。

Understanding the long-term evolution of hierarchical triple systems is challenging due to its inherent chaotic nature, and it requires computationally expensive simulations. Here we propose a convolutional neural network model to predict the stability of hierarchical triples by looking at their evolution during the first $5 \times 10^5$ inner binary orbits. We employ the regularized few-body code \textsc{tsunami} to simulate $5\times 10^6$ hierarchical triples, from which we generate a large training and test dataset. We develop twelve different network configurations that use different combinations of the triples' orbital elements and compare their performances. Our best model uses 6 time-series, namely, the semimajor axes ratio, the inner and outer eccentricities, the mutual inclination and the arguments of pericenter. This model achieves an area under the curve of over $95\%$ and informs of the relevant parameters to study triple systems stability. All trained models are made publicly available, allowing to predict the stability of hierarchical triple systems $200$ times faster than pure $N$-body methods.
翻訳日:2022-06-27 14:53:07 公開日:2022-06-24
# (参考訳) パッチ処理による視覚変換器のバックドア攻撃防止

Defending Backdoor Attacks on Vision Transformer via Patch Processing ( http://arxiv.org/abs/2206.12381v1 )

ライセンス: CC BY 4.0
Khoa D. Doan, Yingjie Lao, Peng Yang, Ping Li(参考訳) 視覚トランスフォーマー(vits)は畳み込みニューラルネットワークとは大きく異なるアーキテクチャを持ち、帰納的バイアスがかなり少ない。 パフォーマンスの向上に加えて、ViTのセキュリティと堅牢性も研究にとって非常に重要である。 敵の事例に対するViTsの堅牢性を利用した最近の多くの研究とは対照的に,本論文ではバックドアの代表的な因果攻撃について検討する。 まず,様々なバックドア攻撃に対するvitsの脆弱性を調査し,既存の攻撃に対してvitsが極めて脆弱であることを確認した。 しかし,ViTのクリーンデータ精度とバックドア攻撃成功率は,位置符号化前のパッチ変換に顕著に反応する。 そこで本研究では,パッチベースとブレンディングベースの両方で,パッチ処理によるバックドア攻撃を効果的に防御する手法を提案する。 CIFAR10、GTSRB、TinyImageNetなど、いくつかのベンチマークデータセットで評価され、提案された新規防衛は、ViTに対するバックドア攻撃を緩和するのに非常に成功したことを示している。 本報告では, バックドア攻撃に対して, ViT の特徴を生かした最初の防衛戦略について述べる。

Vision Transformers (ViTs) have a radically different architecture with significantly less inductive bias than Convolutional Neural Networks. Along with the improvement in performance, security and robustness of ViTs are also of great importance to study. In contrast to many recent works that exploit the robustness of ViTs against adversarial examples, this paper investigates a representative causative attack, i.e., backdoor. We first examine the vulnerability of ViTs against various backdoor attacks and find that ViTs are also quite vulnerable to existing attacks. However, we observe that the clean-data accuracy and backdoor attack success rate of ViTs respond distinctively to patch transformations before the positional encoding. Then, based on this finding, we propose an effective method for ViTs to defend both patch-based and blending-based trigger backdoor attacks via patch processing. The performances are evaluated on several benchmark datasets, including CIFAR10, GTSRB, and TinyImageNet, which show the proposed novel defense is very successful in mitigating backdoor attacks for ViTs. To the best of our knowledge, this paper presents the first defensive strategy that utilizes a unique characteristic of ViTs against backdoor attacks.
翻訳日:2022-06-27 14:50:42 公開日:2022-06-24
# 部分的に観測可能なマルコフゲームにおける多目的自己組織化追求に向けて

Toward multi-target self-organizing pursuit in a partially observable Markov game ( http://arxiv.org/abs/2206.12330v1 )

ライセンス: Link先を確認
Lijun Sun, Yu-Cheng Chang, Chao Lyu, Ye Shi, Yuhui Shi, and Chin-Teng Lin(参考訳) マルチターゲット自己組織化追尾(SOP)問題には幅広い応用があり、知的エージェントが協調して複数の動的ターゲットを部分的に観察する分散システムにおける挑戦的な自己組織化ゲームと考えられている。 本研究は,知的エージェントの探索と追跡能力を改善するための分散マルチエージェントシステムのためのフレームワークを提案する。 我々は,分散化,部分観測,非通信などの特徴を持つ,部分可観測マルコフゲーム(pomg)として自己組織化システムをモデル化する。 提案した分散アルゴリズムは、ファジィ自己組織化協調共進化(FSC2)を利用して、分散自己組織化探索(SOS)、分散タスク割り当て、分散単一ターゲット探索の3つの課題を解決する。 fsc2は、均質なエージェントが自然のsosパターンを学習できる協調型マルチエージェント深層強化学習法を含んでいる。 さらに,複数ターゲットSOPを複数の単一ターゲット追従問題に分解するファジィ型分散タスク割り当て手法を提案する。 協調的共進化原理は、各単一ターゲット追従問題に対する分散トラッカーの協調に使用される。 したがって、POMGにおける固有の部分的観察と分散意思決定の不確実性は軽減できる。 実験の結果,3つのサブタスクすべてにおける部分観測による分散非通信型マルチエージェント協調が有効であり,2048のFSC2エージェントが100%の捕捉率で効率的なマルチターゲットSOPを実現できることが示された。

The multiple-target self-organizing pursuit (SOP) problem has wide applications and has been considered a challenging self-organization game for distributed systems, in which intelligent agents cooperatively pursue multiple dynamic targets with partial observations. This work proposes a framework for decentralized multi-agent systems to improve intelligent agents' search and pursuit capabilities. We model a self-organizing system as a partially observable Markov game (POMG) with the features of decentralization, partial observation, and noncommunication. The proposed distributed algorithm: fuzzy self-organizing cooperative coevolution (FSC2) is then leveraged to resolve the three challenges in multi-target SOP: distributed self-organizing search (SOS), distributed task allocation, and distributed single-target pursuit. FSC2 includes a coordinated multi-agent deep reinforcement learning method that enables homogeneous agents to learn natural SOS patterns. Additionally, we propose a fuzzy-based distributed task allocation method, which locally decomposes multi-target SOP into several single-target pursuit problems. The cooperative coevolution principle is employed to coordinate distributed pursuers for each single-target pursuit problem. Therefore, the uncertainties of inherent partial observation and distributed decision-making in the POMG can be alleviated. The experimental results demonstrate that distributed noncommunicating multi-agent coordination with partial observations in all three subtasks are effective, and 2048 FSC2 agents can perform efficient multi-target SOP with an almost 100% capture rate.
翻訳日:2022-06-27 14:27:27 公開日:2022-06-24
# ゼロショット多話者テキスト音声における韻律のクローニング

Prosody Cloning in Zero-Shot Multispeaker Text-to-Speech ( http://arxiv.org/abs/2206.12229v1 )

ライセンス: Link先を確認
Florian Lux and Julia Koch and Ngoc Thang Vu(参考訳) 非転写参照サンプルを用いた話者の声のクローニングは、現代のニューラルテキスト音声(TTS)手法の大きな進歩の1つである。 書き起こされた参照音声の韻律を模倣する手法も最近提案されている。 本研究では,発話レベルの正規化と発話レベルの話者埋め込みにより,これら2つのタスクを初めて結合する。 さらに,個々のサンプルを数秒で微調整できる,微細な韻律特徴を抽出するための軽量な整列器を導入する。 客観的評価と人間研究が示すように、話者の声質の低下や元の声と韻律との類似度が高まることなく、話者の声のクローン化や音声参照の韻律の韻律を独立して行うことが可能であることを示す。 コードとトレーニングされたモデルはすべて、静的およびインタラクティブなデモとともに利用可能です。

The cloning of a speaker's voice using an untranscribed reference sample is one of the great advances of modern neural text-to-speech (TTS) methods. Approaches for mimicking the prosody of a transcribed reference audio have also been proposed recently. In this work, we bring these two tasks together for the first time through utterance level normalization in conjunction with an utterance level speaker embedding. We further introduce a lightweight aligner for extracting fine-grained prosodic features, that can be finetuned on individual samples within seconds. We show that it is possible to clone the voice of a speaker as well as the prosody of a spoken reference independently without any degradation in quality and high similarity to both original voice and prosody, as our objective evaluation and human study show. All of our code and trained models are available, alongside static and interactive demos.
翻訳日:2022-06-27 14:27:03 公開日:2022-06-24
# 第4回大規模ビデオオブジェクトセグメンテーションチャレンジの2位-トラック3:ビデオオブジェクトセグメンテーションを参照して

The Second Place Solution for The 4th Large-scale Video Object Segmentation Challenge--Track 3: Referring Video Object Segmentation ( http://arxiv.org/abs/2206.12035v1 )

ライセンス: Link先を確認
Leilei Cao, Zhuang Li, Bo Yan, Feng Zhang, Fengliang Qi, Yuchen Hu and Hongbin Wang(参考訳) 参照ビデオオブジェクトセグメンテーションタスク(RVOS)は、すべてのビデオフレームにおける言語表現によって参照される所定のビデオ内のオブジェクトインスタンスをセグメントすることを目的としている。 個々のインスタンス内でクロスモーダルセマンティクスを理解する必要があるため、このタスクは、最初のフレームのグランド真理オブジェクトマスクが与えられる従来の半教師付きビデオオブジェクトセグメンテーションよりも難しい。 オブジェクト検出とオブジェクトセグメンテーションにおけるTransformerの大きな成果により、RVOSは、ReferFormerが最先端のパフォーマンスを達成した際、顕著な進歩を遂げた。 本稿では,強力なベースラインフレームワーク--referformerに基づいて,循環学習率,半教師付きアプローチ,テスト時間拡張推論など,さらに強化するためのいくつかのトリックを提案する。 改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位となった。

The referring video object segmentation task (RVOS) aims to segment object instances in a given video referred by a language expression in all video frames. Due to the requirement of understanding cross-modal semantics within individual instances, this task is more challenging than the traditional semi-supervised video object segmentation where the ground truth object masks in the first frame are given. With the great achievement of Transformer in object detection and object segmentation, RVOS has been made remarkable progress where ReferFormer achieved the state-of-the-art performance. In this work, based on the strong baseline framework--ReferFormer, we propose several tricks to boost further, including cyclical learning rates, semi-supervised approach, and test-time augmentation inference. The improved ReferFormer ranks 2nd place on CVPR2022 Referring Youtube-VOS Challenge.
翻訳日:2022-06-27 14:25:00 公開日:2022-06-24
# 離散輪郭木に関する理論的結果

Some theoretical results on discrete contour trees ( http://arxiv.org/abs/2206.12123v1 )

ライセンス: Link先を確認
Yuqing Song(参考訳) 輪郭木は、画像技術や科学シミュレーションでスカラーデータを視覚化またはエンコードするために開発された。 輪郭は連続スカラー場上で定義される。 離散データの場合、連続関数はまず補間され、そこで輪郭が定義される。 本稿では,スカラーグラフ上のiso木と呼ばれる離散輪郭木を定義し,その性質について考察する。 アイソツリーモデルがすべての次元のデータに対して有効であることを示し、離散輪郭構造を定式化する公理系を開発する。 また,同型木と拡張輪郭木との同型性を報告し,輪郭木アルゴリズムを用いて離散輪郭木を計算し,その逆も行うことを示した。

Contour trees have been developed to visualize or encode scalar data in imaging technologies and scientific simulations. Contours are defined on a continuous scalar field. For discrete data, a continuous function is first interpolated, where contours are then defined. In this paper we define a discrete contour tree, called the iso-tree, on a scalar graph, and discuss its properties. We show that the iso-tree model works for data of all dimensions, and develop an axiomatic system formalizing the discrete contour structures. We also report an isomorphism between iso-trees and augmented contour trees, showing that contour tree algorithms can be used to compute discrete contour trees, and vice versa.
翻訳日:2022-06-27 14:24:44 公開日:2022-06-24
# 光コヒーレンス断層画像からのロバストな網膜疾患検出のための特徴表現学習

Feature Representation Learning for Robust Retinal Disease Detection from Optical Coherence Tomography Images ( http://arxiv.org/abs/2206.12136v1 )

ライセンス: Link先を確認
Sharif Amit Kamran, Khondker Fariha Hossain, Alireza Tavakkoli, Stewart Lee Zuckerbrod, Salah A. Baker(参考訳) 眼科画像は、異なる網膜変性疾患を区別する自動化技術で失敗する、同一の外観の病理を含んでいる可能性がある。 さらに、大規模な注釈付きデータセットと知識蒸留の欠如は、実環境におけるmlベースの臨床支援システムのデプロイメントを制限する可能性がある。 知識の堅牢性と伝達性を向上させるために,網膜部分空間から意味のある空間表現を抽出する機能学習モジュールが必要である。 このようなモジュールは、効果的に使用すれば、特有の疾患の特徴を検出し、そのような網膜変性病理の重症度を区別することができる。 本研究では,3つの学習ヘッドを持つ堅牢な疾患検出アーキテクチャを提案する。 一 網膜疾患分類のための監督エンコーダ 二 疾病固有の空間情報の再構成のための教師なしデコーダ、及び 三 エンコーダ・デコーダの特徴の類似性を学習し、モデルの精度を向上させるための新規表現学習モジュール。 2つのOCTデータセットによる実験結果から,提案モデルが既存の最先端モデルよりも精度,解釈可能性,堅牢性に優れ,網膜外網膜疾患の検出に有用であることが示唆された。

Ophthalmic images may contain identical-looking pathologies that can cause failure in automated techniques to distinguish different retinal degenerative diseases. Additionally, reliance on large annotated datasets and lack of knowledge distillation can restrict ML-based clinical support systems' deployment in real-world environments. To improve the robustness and transferability of knowledge, an enhanced feature-learning module is required to extract meaningful spatial representations from the retinal subspace. Such a module, if used effectively, can detect unique disease traits and differentiate the severity of such retinal degenerative pathologies. In this work, we propose a robust disease detection architecture with three learning heads, i) A supervised encoder for retinal disease classification, ii) An unsupervised decoder for the reconstruction of disease-specific spatial information, and iii) A novel representation learning module for learning the similarity between encoder-decoder feature and enhancing the accuracy of the model. Our experimental results on two publicly available OCT datasets illustrate that the proposed model outperforms existing state-of-the-art models in terms of accuracy, interpretability, and robustness for out-of-distribution retinal disease detection.
翻訳日:2022-06-27 14:24:33 公開日:2022-06-24
# プライベートネットワークのための拡張現実によるネットワーク計画サービス

Augmented Reality-Empowered Network Planning Services for Private Networks ( http://arxiv.org/abs/2206.12139v1 )

ライセンス: Link先を確認
Qi Liao and Tianlun Hu and Nikolaj Marchenko(参考訳) 触覚とヒューマンマシンインタラクションを備えたIndustrial 4.0アプリケーションをサポートするため、第6世代(6G)では、完全に自律的で視覚的でインタラクティブな新しいフレームワークが必要である。 本稿では,ユーザデバイスから視覚的および知覚的データを受信し,3Dネットワーク環境を再構築し,サーバ上でのネットワーク計画を行い,ユーザデバイスの表示に拡張現実(AR)を用いたネットワーク性能を可視化するエンド・ツー・エンドのソリューションを提供する,プライベートネットワーク計画サービスのための新しいフレームワークを提案する。 ソリューションには,3つの重要な技術コンポーネントがある。 1)視覚・センサ融合による3次元環境再構築 2)レイトレーシングに基づく無線地図の作成とネットワーク計画 3)リアルタイムカメラ再ローカライズによるARを利用したネットワーク可視化。 筆者らはドイツのボッシュ工場で概念実証を行い,アンテナ位置の最適化,環境復元とカメラ再配置の両方において高精度なネットワークカバレッジを示した。 また,1フレームあたり約32msのレイテンシで,arによるリアルタイムネットワーク監視を実現する。

To support Industry 4.0 applications with haptics and human-machine interaction, the sixth generation (6G) requires a new framework that is fully autonomous, visual, and interactive. In this paper, we propose a novel framework for private network planning services, providing an end-to-end solution that receives visual and sensory data from the user device, reconstructs the 3D network environment and performs network planning on the server, and visualizes the network performance with augmented reality (AR) on the display of the user devices. The solution is empowered by three key technical components: 1) vision- and sensor fusion-based 3D environment reconstruction, 2) ray tracing-based radio map generation and network planning, and 3) AR-empowered network visualization enabled by real-time camera relocalization. We conducted the proof-of-concept in a Bosch plant in Germany and showed good network coverage of the optimized antenna location, as well as high accuracy in both environment reconstruction and camera relocalization. We also achieved real-time AR-supported network monitoring with an end-to-end latency of about 32 ms per frame.
翻訳日:2022-06-27 14:24:15 公開日:2022-06-24
# 多目的ロボットマニピュレーションのための高密度物体ネットの効率的・ロバストトレーニング

Efficient and Robust Training of Dense Object Nets for Multi-Object Robot Manipulation ( http://arxiv.org/abs/2206.12145v1 )

ライセンス: Link先を確認
David B. Adrian, Andras Gabor Kupcsik, Markus Spies and Heiko Neumann(参考訳) 本稿では,多目的ロボット操作シナリオに着目したDense Object Nets(DON)の堅牢かつ効率的なトレーニングフレームワークを提案する。 donは、ロボット操作における多数の下流タスク、例えばポーズ推定、制御のための状態表現などに使用できる、高密度でビュー不変なオブジェクト記述子を得るための一般的なアプローチである。 しかしながら、オリジナルの研究は、インスタンス固有のマルチオブジェクトアプリケーションで限られた結果が得られるように、対話オブジェクトのトレーニングに焦点を当てた。 さらに、トレーニングには、各オブジェクトの3D再構成とマスクアノテーションを含む複雑なデータ収集パイプラインが必要である。 本稿では,より簡易なデータ収集・訓練方式により,より高精度で,より少ないデータ要求でキーポイントのロバストなトラッキングを実現することで,donの有効性をさらに向上させる。 特に私たちは,歌唱されたオブジェクトではなく,マルチオブジェクトデータによるトレーニングに重点を置いています。 さらに、より優れた結果を提供し、ハイパーパラメータに対する感度が低い元のpixelwise定式化に対する代替的損失定式化を提案する。 最後に,実世界のロボットグルーピングタスクにおいて,提案するフレームワークの堅牢性と精度を実証する。

We propose a framework for robust and efficient training of Dense Object Nets (DON) with a focus on multi-object robot manipulation scenarios. DON is a popular approach to obtain dense, view-invariant object descriptors, which can be used for a multitude of downstream tasks in robot manipulation, such as, pose estimation, state representation for control, etc.. However, the original work focused training on singulated objects, with limited results on instance-specific, multi-object applications. Additionally, a complex data collection pipeline, including 3D reconstruction and mask annotation of each object, is required for training. In this paper, we further improve the efficacy of DON with a simplified data collection and training regime, that consistently yields higher precision and enables robust tracking of keypoints with less data requirements. In particular, we focus on training with multi-object data instead of singulated objects, combined with a well-chosen augmentation scheme. We additionally propose an alternative loss formulation to the original pixelwise formulation that offers better results and is less sensitive to hyperparameters. Finally, we demonstrate the robustness and accuracy of our proposed framework on a real-world robotic grasping task.
翻訳日:2022-06-27 14:23:58 公開日:2022-06-24
# 信号知識グラフ

Signal Knowledge Graph ( http://arxiv.org/abs/2206.12111v1 )

ライセンス: Link先を確認
Anj Simmons, Rajesh Vasa(参考訳) 本稿では,知性目的の信号に対する推論を支援する知識グラフを提案する。 この目的のために,マイク,カメラ,ソーシャルメディアの複合データを用いた攻撃の推測を用いて,既存の知識グラフと推論システムの制限を強調した。 提案手法では,受信した信号に対して直接行動するのではなく,攻撃者の行動,信号の放出,受信者特性,信号の要約を考慮し,信号の根本的な原因を推測する。

This paper presents an knowledge graph to assist in reasoning over signals for intelligence purposes. We highlight limitations of existing knowledge graphs and reasoning systems for this purpose, using inference of an attack using combined data from microphones, cameras and social media as an example. Rather than acting directly on the received signal, our approach considers attacker behaviour, signal emission, receiver characteristics, and how signals are summarised to support inferring the underlying cause of the signal.
翻訳日:2022-06-27 14:23:40 公開日:2022-06-24
# ヒューマンコンピュータシステムの性能評価のためのテスト

A Test for Evaluating Performance in Human-Computer Systems ( http://arxiv.org/abs/2206.12390v1 )

ライセンス: Link先を確認
Andres Campero, Michelle Vaccaro, Jaeyoon Song, Haoran Wen, Abdullah Almaatouq, Thomas W. Malone(参考訳) コンピュータのパフォーマンスを人間のパフォーマンスと比較するチューリングテストはよく知られているが、驚くべきことに、人間のコンピュータシステムの性能が、人間単独、コンピュータ単独、その他のベースラインと比べてどの程度優れているかを比較するために広く使われているテストはない。 ここでは,効果の大きさの尺度として,手段の比率を用いて,そのようなテストを行う方法を示す。 そして、このテストの使用を3つの方法で実演します。 第1に,最近公表された79の実験結果の分析では,半数以上の研究で性能低下がみられ,性能改善の平均値と中央値の比はともに約1(改善なし)で,最大比は1.36(36%改善)であることが判明した。 第2に,大規模かつ最先端のAIシステムであるGPT-3を用いて,100人のプログラマがソフトウェアを作成した場合,高い性能向上率が得られるかどうかを実験的に検討する。 この場合、速度改善率は1.27(改善率27%)である。 最後に, GPT-3を用いた50人の非プログラマが, 人間のプログラマに劣らず, そのタスクを遂行できることを見出した。 この場合、非プログラマもコンピュータも単独でタスクを実行できなかったため、これは人間とコンピュータのシナジーの非常に強力な形態の例である。

The Turing test for comparing computer performance to that of humans is well known, but, surprisingly, there is no widely used test for comparing how much better human-computer systems perform relative to humans alone, computers alone, or other baselines. Here, we show how to perform such a test using the ratio of means as a measure of effect size. Then we demonstrate the use of this test in three ways. First, in an analysis of 79 recently published experimental results, we find that, surprisingly, over half of the studies find a decrease in performance, the mean and median ratios of performance improvement are both approximately 1 (corresponding to no improvement at all), and the maximum ratio is 1.36 (a 36% improvement). Second, we experimentally investigate whether a higher performance improvement ratio is obtained when 100 human programmers generate software using GPT-3, a massive, state-of-the-art AI system. In this case, we find a speed improvement ratio of 1.27 (a 27% improvement). Finally, we find that 50 human non-programmers using GPT-3 can perform the task about as well as--and less expensively than--the human programmers. In this case, neither the non-programmers nor the computer would have been able to perform the task alone, so this is an example of a very strong form of human-computer synergy.
翻訳日:2022-06-27 14:22:17 公開日:2022-06-24
# zprobe: 連合学習のためのゼロピークロバスト性チェック

zPROBE: Zero Peek Robustness Checks for Federated Learning ( http://arxiv.org/abs/2206.12100v1 )

ライセンス: Link先を確認
Zahra Ghodsi, Mojan Javaheripi, Nojan Sheybani, Xinqiao Zhang, Ke Huang, Farinaz Koushanfar(参考訳) プライバシ保護フェデレーション学習は、複数のユーザが中央サーバの調整でモデルを共同でトレーニングすることを可能にする。 サーバは最終集計結果のみを学習し、個々のモデル更新からユーザの(プライベートな)トレーニングデータの漏洩を防止する。 しかし、個々の更新をプライベートに保つことで、悪意のあるユーザーがビザンチン攻撃を実行し、検出されることなくモデルの精度を低下させることができる。 ビザンツの労働者に対する最良の防御は、例えば中央値など、厳格な階級に基づく統計に頼っている。 しかし、プライバシの保存するランクベースの統計の実装は、すべての更新をソートする必要があるため、セキュアなドメインでは非自明でエスカレーションできない。 集約モデル更新において,ハイブレークポイントランクに基づく統計情報を用いた最初のプライベートロバスト性チェックを行う。 ランダムなクラスタリングを利用することで、プライバシを損なうことなく、防御のスケーラビリティを大幅に向上します。 ゼロ知識証明における統計的境界を利用して、悪意のある更新を検出し、削除する。 我々の新しいフレームワークであるzPROBEは、ビザンチンの弾力性とセキュアな連邦学習を可能にする。 実証的な評価では、zprobeはプライバシを維持しながら最先端のビザンチン攻撃から防御するための低いオーバーヘッドソリューションを提供する。

Privacy-preserving federated learning allows multiple users to jointly train a model with coordination of a central server. The server only learns the final aggregation result, thereby preventing leakage of the users' (private) training data from the individual model updates. However, keeping the individual updates private allows malicious users to perform Byzantine attacks and degrade the model accuracy without being detected. Best existing defenses against Byzantine workers rely on robust rank-based statistics, e.g., the median, to find malicious updates. However, implementing privacy-preserving rank-based statistics is nontrivial and unscalable in the secure domain, as it requires sorting of all individual updates. We establish the first private robustness check that uses high break point rank-based statistics on aggregated model updates. By exploiting randomized clustering, we significantly improve the scalability of our defense without compromising privacy. We leverage the derived statistical bounds in zero-knowledge proofs to detect and remove malicious updates without revealing the private user updates. Our novel framework, zPROBE, enables Byzantine resilient and secure federated learning. Empirical evaluations demonstrate that zPROBE provides a low overhead solution to defend against state-of-the-art Byzantine attacks while preserving privacy.
翻訳日:2022-06-27 14:21:14 公開日:2022-06-24
# グラフニューラルネットワークにおけるバイアスの構造記述について

On Structural Explanation of Bias in Graph Neural Networks ( http://arxiv.org/abs/2206.12104v1 )

ライセンス: Link先を確認
Yushun Dong, Song Wang, Yu Wang, Tyler Derr, Jundong Li(参考訳) グラフニューラルネットワーク(GNN)は,様々なグラフ解析問題において,満足度の高い性能を示す。 したがって、様々な意思決定シナリオにおける \emph{de facto} ソリューションとなっている。 しかし、GNNは特定の人口集団に対して偏りのある結果をもたらす可能性がある。 いくつかの最近の研究は、入力ネットワークのバイアス構造がGNNにとって重要なバイアス源であることを実証的に示している。 それでも、入力ネットワーク構造のどの部分が任意のノードに対してバイアス予測をもたらすかを体系的に精査する研究は行われていない。 入力ネットワークの構造がGNN結果のバイアスにどのように影響するかに関する低い透明性は、さまざまな決定クリティカルなシナリオにおけるGNNの安全な採用を著しく制限する。 本稿では,GNNにおけるバイアスの構造的説明に関する新しい研究課題について述べる。 具体的には、各ノードに対するGNN予測の公平度を最大化して最大化することができる2つのエッジセットを同定する、新しいポストホックな説明フレームワークを提案する。 このような説明は、GNN予測のバイアス/フェアネスを包括的に理解するだけでなく、効果的で公平なGNNモデルを構築する上でも実践的な重要性を持つ。 実世界のデータセットに関する大規模な実験は、GNNのバイアスに対する効果的な構造的説明を提供するためのフレームワークの有効性を検証する。 オープンソースコードはhttps://github.com/yushundong/REFEREEで見ることができる。

Graph Neural Networks (GNNs) have shown satisfying performance in various graph analytical problems. Hence, they have become the \emph{de facto} solution in a variety of decision-making scenarios. However, GNNs could yield biased results against certain demographic subgroups. Some recent works have empirically shown that the biased structure of the input network is a significant source of bias for GNNs. Nevertheless, no studies have systematically scrutinized which part of the input network structure leads to biased predictions for any given node. The low transparency on how the structure of the input network influences the bias in GNN outcome largely limits the safe adoption of GNNs in various decision-critical scenarios. In this paper, we study a novel research problem of structural explanation of bias in GNNs. Specifically, we propose a novel post-hoc explanation framework to identify two edge sets that can maximally account for the exhibited bias and maximally contribute to the fairness level of the GNN prediction for any given node, respectively. Such explanations not only provide a comprehensive understanding of bias/fairness of GNN predictions but also have practical significance in building an effective yet fair GNN model. Extensive experiments on real-world datasets validate the effectiveness of the proposed framework towards delivering effective structural explanations for the bias of GNNs. Open-source code can be found at https://github.com/yushundong/REFEREE.
翻訳日:2022-06-27 14:20:51 公開日:2022-06-24
# SANE-TTS: 安定的で自然な多言語テキスト合成

SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech ( http://arxiv.org/abs/2206.12132v1 )

ライセンス: Link先を確認
Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo(参考訳) 本稿では,安定かつ自然な多言語TTSモデルであるSANE-TTSを提案する。 話者の多言語コーパスを得るのが難しいため、単言語コーパスを用いた多言語TSモデルを訓練することは避けられない。 言語間合成における音声の自然性を改善する話者正規化損失と、他の多言語TSモデルに適用したドメイン対逆訓練を導入する。 さらに、話者正規化損失を追加することで、話者埋め込みを時間予測器でゼロベクトルに置き換えることで、言語間推論を安定化する。 この置き換えにより,言語間合成における音源話者によらず,適度なリズムの音声を生成する。 MOS評価では、SANE-TTSは言語間合成と言語内合成の両方において3.80以上の自然度スコアを達成する。 SANE-TTSは、言語間推論においても、基底真理に近い話者類似性を維持する。 オーディオサンプルは私たちのWebページにある。

In this paper, we present SANE-TTS, a stable and natural end-to-end multilingual TTS model. By the difficulty of obtaining multilingual corpus for given speaker, training multilingual TTS model with monolingual corpora is unavoidable. We introduce speaker regularization loss that improves speech naturalness during cross-lingual synthesis as well as domain adversarial training, which is applied in other multilingual TTS models. Furthermore, by adding speaker regularization loss, replacing speaker embedding with zero vector in duration predictor stabilizes cross-lingual inference. With this replacement, our model generates speeches with moderate rhythm regardless of source speaker in cross-lingual synthesis. In MOS evaluation, SANE-TTS achieves naturalness score above 3.80 both in cross-lingual and intralingual synthesis, where the ground truth score is 3.99. Also, SANE-TTS maintains speaker similarity close to that of ground truth even in cross-lingual inference. Audio samples are available on our web page.
翻訳日:2022-06-27 14:20:32 公開日:2022-06-24
# コヒーレント光伝送システムにおけるニューラルネットワークに基づく非線形性緩和器のFPGA実装に向けて

Towards FPGA Implementation of Neural Network-Based Nonlinearity Mitigation Equalizers in Coherent Optical Transmission Systems ( http://arxiv.org/abs/2206.12180v1 )

ライセンス: Link先を確認
Pedro J. Freire, Michael Anderson, Bernhard Spinnler, Thomas Bex, Jaroslaw E. Prilepsky, Tobias A. Eriksson, Nelson Costa, Wolfgang Schairer, Michaela Blott, Antonio Napoli, Sergei K. Turitsyn(参考訳) 最初に、非線形性補償のためのリカレントおよびフィードフォワードニューラルネットワークベースの等化器をFPGAに実装し、分散等化器と同等の複雑さを有する。 NNベースの等化器は1ステップ当たりのDBPよりも優れていることを示す。

For the first time, recurrent and feedforward neural network-based equalizers for nonlinearity compensation are implemented in an FPGA, with a level of complexity comparable to that of a dispersion equalizer. We demonstrate that the NN-based equalizers can outperform a 1 step-per-span DBP.
翻訳日:2022-06-27 14:20:15 公開日:2022-06-24
# (参考訳) ビデオオブジェクトのテキスト駆動スタイライゼーション

Text-Driven Stylization of Video Objects ( http://arxiv.org/abs/2206.12396v1 )

ライセンス: CC BY 4.0
Sebastian Loeschcke, Serge Belongie and Sagie Benaim(参考訳) ユーザが指定したテキストプロンプトに従ってビデオオブジェクトを直感的かつ意味的にスタイライゼーションするタスクに取り組む。 1) 時間的に一貫性があり、ジッタリングや類似したアーティファクトを避ける必要があり、(2) 結果のスタイリングは、オブジェクトのグローバルなセマンティクスとその微細な詳細の両方を保持し、(3) ユーザが指定したテキストプロンプトに従わなければならない。 そこで本手法では,グローバルなセマンティクスを記述したグローバルなターゲットテキストプロンプトと,ローカルなセマンティクスを記述したローカルなターゲットテキストプロンプトに基づいて,ビデオ内のオブジェクトをスタイリングする。 オブジェクトのスタイルを変更するために、クリップの表現力を利用して(1)局所的な対象テキストと局所的なスタイル化されたビューのセットと(2)グローバルなターゲットテキストとスタイル化されたグローバルビューのセットとの類似度スコアを得る。 我々は,事前訓練されたatlas分解ネットワークを用いて,編集を時間的に一貫した方法で伝達する。 本手法は,対象テキストの仕様に準拠した様々なオブジェクトやビデオに対して,一貫したスタイル変化を時間内に生成できることを実証する。 また,対象テキストの特異性を変化させる方法を示し,プレフィックスのセットでテキストを補足することにより,細部レベルの異なるスタイライゼーションを実現する。 完全な結果はプロジェクトのWebページにある。 https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/

We tackle the task of stylizing video objects in an intuitive and semantic manner following a user-specified text prompt. This is a challenging task as the resulting video must satisfy multiple properties: (1) it has to be temporally consistent and avoid jittering or similar artifacts, (2) the resulting stylization must preserve both the global semantics of the object and its fine-grained details, and (3) it must adhere to the user-specified text prompt. To this end, our method stylizes an object in a video according to a global target text prompt that describes the global semantics and a local target text prompt that describes the local semantics. To modify the style of an object, we harness the representational power of CLIP to get a similarity score between (1) the local target text and a set of local stylized views, and (2) a global target text and a set of stylized global views. We use a pretrained atlas decomposition network to propagate the edits in a temporally consistent manner. We demonstrate that our method can generate consistent style changes in time for a variety of objects and videos, that adhere to the specification of the target texts. We also show how varying the specificity of the target texts, and augmenting the texts with a set of prefixes results in stylizations with different levels of detail. Full results are given on our project webpage: https://sloeschcke.github.io/Text-Driven-Stylization-of-Video-Objects/
翻訳日:2022-06-27 14:18:28 公開日:2022-06-24
# MaskRange: レンジビューに基づくLiDARセグメンテーションのためのマスク分類モデル

MaskRange: A Mask-classification Model for Range-view based LiDAR Segmentation ( http://arxiv.org/abs/2206.12073v1 )

ライセンス: Link先を確認
Yi Gu, Yuming Huang, Chengzhong Xu, Hui Kong(参考訳) レンジビューに基づくLiDARセグメンテーション手法は、効率的な2D CNNアーキテクチャから直接継承されるため、実用的な応用には魅力的である。 文献では、ほとんどの範囲ビューに基づく手法はピクセル単位の分類パラダイムに従う。 近年,イメージセグメンテーション領域において,マスク分類問題としてセグメンテーションを定式化した別のパラダイムが注目されている。 マスク分類パラダイムは、レンジビューベースのLiDARセグメンテーションの恩恵を受け、ピクセル単位のパラダイムよりも優れたパフォーマンスを実現することができるのか? そこで本稿では,レンジビューに基づくlidarセマンティクスとpanopticセグメンテーションのためのマスク分類モデルであるmaskrangeを提案する。 また,新しいパラダイムとともに,オーバーフィッティングやコンテキスト依存,クラス不均衡といった問題に対処する新しいデータ拡張手法を提案する。 semantickittiベンチマークで広範な実験が行われた。 得られた範囲ビューベースの手法のうち、我々のMaskRangeは、セマンティックセグメンテーションにおける6.10$ mIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10$ PQの有望な結果を達成する。 私たちのコードはリリースされます。

Range-view based LiDAR segmentation methods are attractive for practical applications due to their direct inheritance from efficient 2D CNN architectures. In literature, most range-view based methods follow the per-pixel classification paradigm. Recently, in the image segmentation domain, another paradigm formulates segmentation as a mask-classification problem and has achieved remarkable performance. This raises an interesting question: can the mask-classification paradigm benefit the range-view based LiDAR segmentation and achieve better performance than the counterpart per-pixel paradigm? To answer this question, we propose a unified mask-classification model, MaskRange, for the range-view based LiDAR semantic and panoptic segmentation. Along with the new paradigm, we also propose a novel data augmentation method to deal with overfitting, context-reliance, and class-imbalance problems. Extensive experiments are conducted on the SemanticKITTI benchmark. Among all published range-view based methods, our MaskRange achieves state-of-the-art performance with $66.10$ mIoU on semantic segmentation and promising results with $53.10$ PQ on panoptic segmentation with high efficiency. Our code will be released.
翻訳日:2022-06-27 13:59:49 公開日:2022-06-24
# 水中物体検出のための掘削roi注意

Excavating RoI Attention for Underwater Object Detection ( http://arxiv.org/abs/2206.12128v1 )

ライセンス: Link先を確認
Xutao Liang, Pinhao Song(参考訳) 自己注意はディープラーニングにおいて最も成功した設計の一つであり、異なるトークンの類似性を計算し、注意行列に基づいて特徴を再構築する。 NLP用に設計されたセルフアテンションはコンピュータビジョンでも人気があり、ピクセルレベルの注意とパッチレベルの注意に分類することができる。 オブジェクト検出では、RoI機能は基本機能マップからのパッチとして見ることができる。 本稿では,RoI機能にアテンションモジュールを適用して性能を向上させることを目的とする。 オリジナルの自己注意モジュールを使う代わりに、パラメータを減らした自己注意モジュール、外部注意モジュールを選択します。 提案するダブルヘッド構造と位置符号化モジュールにより,提案手法は物体検出において有望な性能を実現することができる。 総合的な実験により、特に水中物体検出データセットにおいて、有望な性能を達成することが示された。 https://github.com/zsyasd/Excavating-RoI-Attention-for-Underwater-Object-detection

Self-attention is one of the most successful designs in deep learning, which calculates the similarity of different tokens and reconstructs the feature based on the attention matrix. Originally designed for NLP, self-attention is also popular in computer vision, and can be categorized into pixel-level attention and patch-level attention. In object detection, RoI features can be seen as patches from base feature maps. This paper aims to apply the attention module to RoI features to improve performance. Instead of employing an original self-attention module, we choose the external attention module, a modified self-attention with reduced parameters. With the proposed double head structure and the Positional Encoding module, our method can achieve promising performance in object detection. The comprehensive experiments show that it achieves promising performance, especially in the underwater object detection dataset. The code will be avaiable in: https://github.com/zsyasd/Excavating-RoI-Attention-for-Underwater-Object-Detection
翻訳日:2022-06-27 13:59:24 公開日:2022-06-24
# HM3D-ABO:オブジェクト中心多視点3D再構成のためのフォトリアリスティックデータセット

HM3D-ABO: A Photo-realistic Dataset for Object-centric Multi-view 3D Reconstruction ( http://arxiv.org/abs/2206.12356v1 )

ライセンス: Link先を確認
Zhenpei Yang, Zaiwei Zhang, Qixing Huang(参考訳) 3Dオブジェクトの再構築は、AR/VRに幅広い応用をもたらす重要なコンピュータビジョンタスクである。 このタスクのために開発されたディープラーニングアルゴリズムは通常、ShapeNetや Things3Dのような非現実的な合成データセットに依存している。 一方、既存のオブジェクト中心のデータセットは、教師付きトレーニングや信頼性評価を可能にする十分なアノテーションを持っていない。 本稿では,フォトリアリスティックなオブジェクト中心データセットHM3D-ABOを提案する。 リアルな屋内シーンとリアルなオブジェクトを構成することで構築される。 各構成について,多視点RGB観測,物体用水密メッシュモデル,地中真理深度マップ,オブジェクトマスクを提供する。 提案するデータセットは,カメラポーズ推定や新視点合成などのタスクにも有用である。 データセット生成コードはhttps://github.com/zhenpeiyang/HM3D-ABOで公開されている。

Reconstructing 3D objects is an important computer vision task that has wide application in AR/VR. Deep learning algorithm developed for this task usually relies on an unrealistic synthetic dataset, such as ShapeNet and Things3D. On the other hand, existing real-captured object-centric datasets usually do not have enough annotation to enable supervised training or reliable evaluation. In this technical report, we present a photo-realistic object-centric dataset HM3D-ABO. It is constructed by composing realistic indoor scene and realistic object. For each configuration, we provide multi-view RGB observations, a water-tight mesh model for the object, ground truth depth map and object mask. The proposed dataset could also be useful for tasks such as camera pose estimation and novel-view synthesis. The dataset generation code is released at https://github.com/zhenpeiyang/HM3D-ABO.
翻訳日:2022-06-27 13:59:03 公開日:2022-06-24
# 混合試料増量によるオンライン蒸留

Online Distillation with Mixed Sample Augmentation ( http://arxiv.org/abs/2206.12370v1 )

ライセンス: Link先を確認
Yiqing Shen, Liwu Xu, Yuzhe Yang, Yaqian Li, Yandong Guo(参考訳) MixUpやCutMixのようなMixed Sample Regularization(MSR)は、畳み込みニューラルネットワークを一般化するための強力なデータ拡張戦略である。 これまでの実証分析では、msrと従来のオフライン知識蒸留(kd)の直交性能向上が示されている。 より具体的に言うと、学生ネットワークは、逐次蒸留の訓練段階におけるMSRの関与によって拡張することができる。 しかし、より強力な蒸留パラダイムであるmsrとオンライン知識蒸留の相互作用は、相互に学習する仲間の学生の集団が探求されていない。 このギャップを埋めるため、オンライン蒸留にcutmixを組み込む最初の試みを行い、実証的に大幅な改善を観察しました。 そこで我々は, オンライン蒸留用として, Cut^nMix というさらに強力な MSR を提案する。 さらに,Cut^nMix上に新たなオンライン蒸留フレームワークを設計し,機能レベルの相互学習と自己アンサンブル教師による蒸留を強化した。 CIFAR10とCIFAR100の6つのネットワークアーキテクチャによる総合的な評価は、我々のアプローチが常に最先端の蒸留法より優れていることを示している。

Mixed Sample Regularization (MSR), such as MixUp or CutMix, is a powerful data augmentation strategy to generalize convolutional neural networks. Previous empirical analysis has illustrated an orthogonal performance gain between MSR and the conventional offline Knowledge Distillation (KD). To be more specific, student networks can be enhanced with the involvement of MSR in the training stage of the sequential distillation. Yet, the interplay between MSR and online knowledge distillation, a stronger distillation paradigm, where an ensemble of peer students learn mutually from each other, remains unexplored. To bridge the gap, we make the first attempt at incorporating CutMix into online distillation, where we empirically observe a significant improvement. Encouraged by this fact, we propose an even stronger MSR specifically for online distillation, named as Cut^nMix. Furthermore, a novel online distillation framework is designed upon Cut^nMix, to enhance the distillation with feature level mutual learning and a self-ensemble teacher. Comprehensive evaluations on CIFAR10 and CIFAR100 with six network architectures show that our approach can consistently outperform state-of-the-art distillation methods.
翻訳日:2022-06-27 13:58:51 公開日:2022-06-24
# QReg: 量子化の正規化効果について

QReg: On Regularization Effects of Quantization ( http://arxiv.org/abs/2206.12372v1 )

ライセンス: Link先を確認
MohammadHossein AskariHemmat, Reyhane Askari Hemmat, Alex Hoffman, Ivan Lazarevich, Ehsan Saboori, Olivier Mastropietro, Yvon Savaria, Jean-Pierre David(参考訳) 本稿では,DNNトレーニングにおける量子化の効果について検討する。 重み量子化は正則化の一形態であり、正則化の量は正定化レベルと相関していると仮定する(precision)。 我々は分析研究と実証結果を提供することで仮説を立証する。 重み付け雑音の一形態として重み量子化をモデル化することにより,この雑音がトレーニング時にネットワークを伝搬する方法について検討する。 このノイズの大きさは量子化のレベルと相関していることを示す。 本論文では, 様々な視覚タスクやモデルにおいて, 量子化の正規化効果が, 様々なデータセット上で見られることを示した。 本研究では,8ビット量子化が,様々な視覚タスクやモデルにおいて信頼性の高い正則化を実現することを提案する。

In this paper we study the effects of quantization in DNN training. We hypothesize that weight quantization is a form of regularization and the amount of regularization is correlated with the quantization level (precision). We confirm our hypothesis by providing analytical study and empirical results. By modeling weight quantization as a form of additive noise to weights, we explore how this noise propagates through the network at training time. We then show that the magnitude of this noise is correlated with the level of quantization. To confirm our analytical study, we performed an extensive list of experiments summarized in this paper in which we show that the regularization effects of quantization can be seen in various vision tasks and models, over various datasets. Based on our study, we propose that 8-bit quantization provides a reliable form of regularization in different vision tasks and models.
翻訳日:2022-06-27 13:58:30 公開日:2022-06-24
# HiPPOのトレーニング方法:一般化直交基底射影による状態空間モデル

How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections ( http://arxiv.org/abs/2206.12037v1 )

ライセンス: Link先を確認
Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher R\'e(参考訳) 線形時間不変状態空間モデル(英: linear time-invariant state space model, ssm)は、工学と統計の古典的なモデルであり、近年、構造化状態空間系列モデル(s4)を通じて機械学習において非常に有望であることが示されている。 S4の中核的な構成要素は、SSM状態行列をHiPPO行列と呼ばれる特定の行列に初期化することである。 しかし、S4が使用する特定の行列は、実際には特定の時間変化力学系に対する以前の研究で導出されており、この行列を時間不変のSSMとして用いることは、既知の数学的解釈を持たない。 その結果、S4が長距離依存をモデル化する理論的メカニズムは、実際には説明できないままである。 我々は、指数関数的にワープされたルジャンドル多項式への分解としてS4の単純な数学的解釈を提供するHiPPOフレームワークのより汎用的で直感的な定式化を導き、長い依存を捉える能力を説明する。 我々の一般化は理論上リッチなssmクラスを導入し、フーリエ基底のような他の基底に対するより直感的なs4変種を導出し、重要な時間スケールパラメータを初期化する方法など、s4のトレーニングの他の側面を説明します。 これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。

Linear time-invariant state space models (SSM) are a classical model from engineering and statistics, that have recently been shown to be very promising in machine learning through the Structured State Space sequence model (S4). A core component of S4 involves initializing the SSM state matrix to a particular matrix called a HiPPO matrix, which was empirically important for S4's ability to handle long sequences. However, the specific matrix that S4 uses was actually derived in previous work for a particular time-varying dynamical system, and the use of this matrix as a time-invariant SSM had no known mathematical interpretation. Consequently, the theoretical mechanism by which S4 models long-range dependencies actually remains unexplained. We derive a more general and intuitive formulation of the HiPPO framework, which provides a simple mathematical interpretation of S4 as a decomposition onto exponentially-warped Legendre polynomials, explaining its ability to capture long dependencies. Our generalization introduces a theoretically rich class of SSMs that also lets us derive more intuitive S4 variants for other bases such as the Fourier basis, and explains other aspects of training S4, such as how to initialize the important timescale parameter. These insights improve S4's performance to 86% on the Long Range Arena benchmark, with 96% on the most difficult Path-X task.
翻訳日:2022-06-27 13:56:23 公開日:2022-06-24
# treedrnet:長期時系列予測のためのロバストな深層モデル

TreeDRNet:A Robust Deep Model for Long Term Time Series Forecasting ( http://arxiv.org/abs/2206.12106v1 )

ライセンス: Link先を確認
Tian Zhou, Jianqing Zhu, Xue Wang, Ziqing Ma, Qingsong Wen, Liang Sun, Rong Jin(参考訳) Various deep learning models, especially some latest Transformer-based approaches, have greatly improved the state-of-art performance for long-term time series forecasting.However, those transformer-based models suffer a severe deterioration performance with prolonged input length, which prohibits them from using extended historical info.Moreover, these methods tend to handle complex examples in long-term forecasting with increased model complexity, which often leads to a significant increase in computation and less robustness in performance(e.g., overfitting). 我々は、より効果的な長期予測のための新しいニューラルネットワークアーキテクチャ、TreeDRNetを提案する。 ロバスト回帰に触発され,予測をより堅牢にするために2倍の残差リンク構造を導入する。kolmogorov-arnold表現定理に基づいて,treedrnetのロバスト性と表現力を向上させる拡張入力シーケンスをさらに活用するために,特徴選択,モデルアンサンブル,ツリー構造を明示的に導入する。 逐次予測作業のための従来のディープモデルとは異なり、TreeDRNetは完全に多層パーセプトロン上に構築されており、計算効率が高い。 大規模実験の結果,treedrnetは最先端の手法よりも有意に有効であり,多変量時系列の予測誤差を20%から40%削減できることがわかった。 特に、TreeDRNetはトランスフォーマーベースの手法の10倍以上の効率である。 コードはまもなくリリースされる。

Various deep learning models, especially some latest Transformer-based approaches, have greatly improved the state-of-art performance for long-term time series forecasting.However, those transformer-based models suffer a severe deterioration performance with prolonged input length, which prohibits them from using extended historical info.Moreover, these methods tend to handle complex examples in long-term forecasting with increased model complexity, which often leads to a significant increase in computation and less robustness in performance(e.g., overfitting). We propose a novel neural network architecture, called TreeDRNet, for more effective long-term forecasting. Inspired by robust regression, we introduce doubly residual link structure to make prediction more robust.Built upon Kolmogorov-Arnold representation theorem, we explicitly introduce feature selection, model ensemble, and a tree structure to further utilize the extended input sequence, which improves the robustness and representation power of TreeDRNet. Unlike previous deep models for sequential forecasting work, TreeDRNet is built entirely on multilayer perceptron and thus enjoys high computational efficiency. Our extensive empirical studies show that TreeDRNet is significantly more effective than state-of-the-art methods, reducing prediction errors by 20% to 40% for multivariate time series. In particular, TreeDRNet is over 10 times more efficient than transformer-based methods. The code will be released soon.
翻訳日:2022-06-27 13:55:55 公開日:2022-06-24
# ModLaNets: モジュラリティと物理的誘導バイアスによる一般的なダイナミクスの学習

ModLaNets: Learning Generalisable Dynamics via Modularity and Physical Inductive Bias ( http://arxiv.org/abs/2206.12325v1 )

ライセンス: Link先を確認
Yupu Lu, Shijie Lin, Guanqi Chen, Jia Pan(参考訳) 深層学習モデルは1つの特定の力学系を近似することができるが、力学系は同じ物理法則に従うが、異なる数の要素(二重および三重振り子系)を含む一般力学の学習に苦慮する。 この問題を解消するために、モジュラリティと物理的帰納バイアスを備えた構造ニューラルネットワークフレームワークであるModLaNet(Modular Lagrangian Network)を提案した。 このフレームワークはモジュラリティを用いて各要素のエネルギーをモデル化し、ラグランジアン力学を介して対象の力学系を構築する。 モジュール性は、トレーニングされたネットワークの再利用と、ネットワークとデータセットのスケールの削減に有用である。 結果として、我々のフレームワークはより単純なシステムのダイナミクスから学び、より複雑なものへと拡張することができる。 トレーニングデータセットの少ない二重振り子または3体システムのモデリングフレームワークについて検討し,本モデルがデータ効率と精度を比較検討した。 また,マルチペンデュラムシステムやマルチボディシステムのモデル拡張としてモデルを再編成し,フレームワークの興味深い再利用可能な機能を示す。

Deep learning models are able to approximate one specific dynamical system but struggle at learning generalisable dynamics, where dynamical systems obey the same laws of physics but contain different numbers of elements (e.g., double- and triple-pendulum systems). To relieve this issue, we proposed the Modular Lagrangian Network (ModLaNet), a structural neural network framework with modularity and physical inductive bias. This framework models the energy of each element using modularity and then construct the target dynamical system via Lagrangian mechanics. Modularity is beneficial for reusing trained networks and reducing the scale of networks and datasets. As a result, our framework can learn from the dynamics of simpler systems and extend to more complex ones, which is not feasible using other relevant physics-informed neural networks. We examine our framework for modelling double-pendulum or three-body systems with small training datasets, where our models achieve the best data efficiency and accuracy performance compared with counterparts. We also reorganise our models as extensions to model multi-pendulum and multi-body systems, demonstrating the intriguing reusable feature of our framework.
翻訳日:2022-06-27 13:55:13 公開日:2022-06-24
# (参考訳) ZSON:マルチモーダルゴール埋め込みを用いたゼロショット目標ナビゲーション

ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings ( http://arxiv.org/abs/2206.12403v1 )

ライセンス: CC BY 4.0
Arjun Majumdar, Gunjan Aggarwal, Bhavika Devnani, Judy Hoffman, Dhruv Batra(参考訳) 我々は、オープンワールドのオブジェクトゴールナビゲーション(ObjectNav)を学ぶためのスケーラブルなアプローチを提示します -- 仮想ロボット(エージェント)に、探索されていない環境でオブジェクトのインスタンス(例:"find a sink")を見つけるように要求するタスクです。 このアプローチは完全にゼロショットです -- つまり、ObjectNavの報酬やデモは一切必要ありません。 代わりに、image-goal navigation (imagenav)タスクをトレーニングし、エージェントが画像(すなわち目標画像)がキャプチャされた場所を見つける。 具体的には、目標画像をマルチモーダルなセマンティック埋め込み空間にエンコードし、アノテーションのない3D環境(例えばHM3D)で意味ゴールナビゲーション(SemanticNav)エージェントを大規模に訓練できるようにする。 トレーニング後、SemanticNavエージェントは、言語目標を同じマルチモーダルでセマンティックな埋め込み空間に投影することで、自由形式の自然言語(例えば「シンク」や「バスルームシンク」など)で記述されたオブジェクトを見つけるように指示することができる。 その結果,オープンワールドのObjectNavが実現できた。 我々は,3つのObjectNavデータセット(Gibson,HM3D,MP3D)上でエージェントを広範囲に評価し,既存のゼロショット法よりも4.2%~20.0%の絶対的な改善を観察した。 参考までに、これらの利益は、habitat 2020と2021年のobjectnavチャレンジの勝者の間の5%の改善に匹敵する。 オープンワールドの環境では、我々のエージェントが明示的に述べた部屋(例えば「キッチンシンクを探す」)と、対象の部屋が推測できるとき(例えば「シンクとストーブを探す」)と組み合わせて命令を一般化できることを発見します。

We present a scalable approach for learning open-world object-goal navigation (ObjectNav) -- the task of asking a virtual robot (agent) to find any instance of an object in an unexplored environment (e.g., "find a sink"). Our approach is entirely zero-shot -- i.e., it does not require ObjectNav rewards or demonstrations of any kind. Instead, we train on the image-goal navigation (ImageNav) task, in which agents find the location where a picture (i.e., goal image) was captured. Specifically, we encode goal images into a multimodal, semantic embedding space to enable training semantic-goal navigation (SemanticNav) agents at scale in unannotated 3D environments (e.g., HM3D). After training, SemanticNav agents can be instructed to find objects described in free-form natural language (e.g., "sink", "bathroom sink", etc.) by projecting language goals into the same multimodal, semantic embedding space. As a result, our approach enables open-world ObjectNav. We extensively evaluate our agents on three ObjectNav datasets (Gibson, HM3D, and MP3D) and observe absolute improvements in success of 4.2% - 20.0% over existing zero-shot methods. For reference, these gains are similar or better than the 5% improvement in success between the Habitat 2020 and 2021 ObjectNav challenge winners. In an open-world setting, we discover that our agents can generalize to compound instructions with a room explicitly mentioned (e.g., "Find a kitchen sink") and when the target room can be inferred (e.g., "Find a sink and a stove").
翻訳日:2022-06-27 13:52:09 公開日:2022-06-24
# 長期的エクイティビリティの達成と脆弱性

Achievement and Fragility of Long-term Equitability ( http://arxiv.org/abs/2206.12333v1 )

ライセンス: Link先を確認
Andrea Simonetto and Ivano Notarnicola(参考訳) 現在の意思決定ツールに公正性、平等性、その他の倫理的動機付けされた結果の概念を加えることは、機械学習、AI、最適化における最近の研究における最優先事項の1つである。 本稿では,同性の概念を最大化するために,限られた資源を「局所的に相互作用する」コミュニティに割り当てる方法について検討する。 特に、複数の期間(例えば、年々)にわたってアロケーションが繰り返され、その間にローカルコミュニティが進化し(提供されたアロケーションによって)、コミュニティ自体からのフィードバックによってアロケーションが調整される動的設定に注目します。 データ駆動フィードバックのオンライン最適化に端を発する近年の数学的ツールを用いて,コミュニティが自身の(おそらくは未知の)進化や満足度,さらには意思決定者との情報共有を学べるようにしている。 我々は,長期的均衡性を最大化するアロケーションに収束する動的ポリシーを設計する。 我々はさらに,サブサマリア諸国における医療・教育補助金設計の現実的な例を用いて,モデルと方法論を実証する。 私たちの設定から得られる重要な経験的特徴の1つは、割当戦略における他の要素(例えば、割当の平等)の重み付けを行うときに、長期的平等が壊れやすいことである。 さらに、ナイーブ妥協はコミュニティに大きな利点を与えないが、社会的成果における不平等を促進することができる。

Equipping current decision-making tools with notions of fairness, equitability, or other ethically motivated outcomes, is one of the top priorities in recent research efforts in machine learning, AI, and optimization. In this paper, we investigate how to allocate limited resources to {locally interacting} communities in a way to maximize a pertinent notion of equitability. In particular, we look at the dynamic setting where the allocation is repeated across multiple periods (e.g., yearly), the local communities evolve in the meantime (driven by the provided allocation), and the allocations are modulated by feedback coming from the communities themselves. We employ recent mathematical tools stemming from data-driven feedback online optimization, by which communities can learn their (possibly unknown) evolution, satisfaction, as well as they can share information with the deciding bodies. We design dynamic policies that converge to an allocation that maximize equitability in the long term. We further demonstrate our model and methodology with realistic examples of healthcare and education subsidies design in Sub-Saharian countries. One of the key empirical takeaways from our setting is that long-term equitability is fragile, in the sense that it can be easily lost when deciding bodies weigh in other factors (e.g., equality in allocation) in the allocation strategy. Moreover, a naive compromise, while not providing significant advantage to the communities, can promote inequality in social outcomes.
翻訳日:2022-06-27 13:30:48 公開日:2022-06-24
# 熱画像超解像用チャネル分割ネットワークと変圧器を用いたバイラテラルネットワーク

Bilateral Network with Channel Splitting Network and Transformer for Thermal Image Super-Resolution ( http://arxiv.org/abs/2206.12046v1 )

ライセンス: Link先を確認
Bo Yan, Leilei Cao, Fengliang Qi and Hongbin Wang(参考訳) 近年、熱画像超解像(tisr)問題は魅力的な研究課題となっている。 TISRは、軍、医療、農業、動物の生態学など幅広い分野で使用される。 PBVS-2020とPBVS-2021ワークショップの課題の成功により、TISRの結果は改善され続け、より多くの研究者がPBVS-2022チャレンジに登録するようになった。 本稿では,チャネル分割ネットワークとトランスフォーマー(BN-CSNT)を備えたバイラテラルネットワークを設計し,TISR問題に対処するためのPBVS-2022チャレンジの技術的詳細を紹介する。 まず,トランスを用いたチャネル分割ネットワークに基づくコンテキスト分岐を設計し,十分なコンテキスト情報を得る。 第2に,浅層変圧器を用いた空間分岐を設計し,空間情報を保存できる低レベル特徴を抽出した。 最後に,チャネル分割ネットワークとトランスフォーマーから特徴を融合させるためのコンテキストブランチについて,注意改善モジュールを提案し,その後,特徴融合モジュールによってコンテキストブランチと空間ブランチの機能を融合させる。 提案手法は,PSNR=33.64,SSIM=0.9263,PSNR=21.08,SSIM=0.7803をPBVS-2022チャレンジテストデータセットで達成できる。

In recent years, the Thermal Image Super-Resolution (TISR) problem has become an attractive research topic. TISR would been used in a wide range of fields, including military, medical, agricultural and animal ecology. Due to the success of PBVS-2020 and PBVS-2021 workshop challenge, the result of TISR keeps improving and attracts more researchers to sign up for PBVS-2022 challenge. In this paper, we will introduce the technical details of our submission to PBVS-2022 challenge designing a Bilateral Network with Channel Splitting Network and Transformer(BN-CSNT) to tackle the TISR problem. Firstly, we designed a context branch based on channel splitting network with transformer to obtain sufficient context information. Secondly, we designed a spatial branch with shallow transformer to extract low level features which can preserve the spatial information. Finally, for the context branch in order to fuse the features from channel splitting network and transformer, we proposed an attention refinement module, and then features from context branch and spatial branch are fused by proposed feature fusion module. The proposed method can achieve PSNR=33.64, SSIM=0.9263 for x4 and PSNR=21.08, SSIM=0.7803 for x2 in the PBVS-2022 challenge test dataset.
翻訳日:2022-06-27 13:30:24 公開日:2022-06-24
# 6G無線ネットワークにおける機械学習応用のためのインプシットチャネル学習

Implicit Channel Learning for Machine Learning Applications in 6G Wireless Networks ( http://arxiv.org/abs/2206.12127v1 )

ライセンス: Link先を確認
Ahmet M. Elbir, Wei Shi, Kumar Vijay Mishra, Anastasios K. Papazafeiropoulos, Symeon Chatzinotas(参考訳) 第5世代(5G)無線システムの展開が世界中で勢いを増す中、6Gのテクノロジーは活発に研究が進められている。 特に、6Gにおける機械学習(ML)の役割は、仮想現実や拡張現実、車載自律性、コンピュータビジョンといった新興アプリケーションを強化し、支援することが期待される。 これにより、画像、ビデオ、音声を含むワイヤレスデータトラフィックのセグメントが大きくなる。 MLアルゴリズムはこれらをクラウドサーバ上の学習モデルを通じて分類/認識/推定のために処理する。 これはエッジデバイスからクラウドサーバへのデータの無線送信を必要とする。 認識ステップとは別に処理されるチャネル推定は、正確な学習性能に不可欠である。 チャネルとMLデータの双方の学習を組み合わせることで、暗黙のチャネル学習を導入し、無線チャネルを推定することなくMLタスクを実行する。 ここでは、MLモデルは名目データの代わりにチャネル破損したデータセットで訓練される。 チャネル推定なしでは、ミリ波やIEEE 802.11pの車両用チャネルなどの様々なシナリオに対して、画像と音声の分類タスクを約60%改善する。

With the deployment of the fifth generation (5G) wireless systems gathering momentum across the world, possible technologies for 6G are under active research discussions. In particular, the role of machine learning (ML) in 6G is expected to enhance and aid emerging applications such as virtual and augmented reality, vehicular autonomy, and computer vision. This will result in large segments of wireless data traffic comprising image, video and speech. The ML algorithms process these for classification/recognition/estimation through the learning models located on cloud servers. This requires wireless transmission of data from edge devices to the cloud server. Channel estimation, handled separately from recognition step, is critical for accurate learning performance. Toward combining the learning for both channel and the ML data, we introduce implicit channel learning to perform the ML tasks without estimating the wireless channel. Here, the ML models are trained with channel-corrupted datasets in place of nominal data. Without channel estimation, the proposed approach exhibits approximately 60% improvement in image and speech classification tasks for diverse scenarios such as millimeter wave and IEEE 802.11p vehicular channels.
翻訳日:2022-06-27 13:29:58 公開日:2022-06-24
# 私の感情を知っていますか。 説得的対話システムに対する感情認識戦略認識

Do You Know My Emotion? Emotion-Aware Strategy Recognition towards a Persuasive Dialogue System ( http://arxiv.org/abs/2206.12101v1 )

ライセンス: Link先を確認
Wei Peng, Yue Hu, Luxi Xing, Yuqiang Xie, and Yajing Sun(参考訳) 説得的戦略認識タスクは、会話に応じて、説得者の採用戦略を認識するようシステムに要求する。 しかし、従来の手法は主に文脈情報に焦点を当てており、心理的フィードバック、すなわち説得者の感情を取り入れて戦略を予測することはほとんど知られていない。 本稿では,感情フィードバックを利用したクロスチャネルフィードバックメモリネットワーク(cfo-net,cross-channel feedback memory network)を提案する。 具体的には、cfo-netは感情認識戦略表現を得るために、戦略プールとフィードバックプールを含むフィードバックメモリモジュールを設計する。 戦略プールは過去の戦略を格納することを目的としており、フィードバックプールはフィードバックの感情情報に基づいて戦略の重み付けを更新することを目的としている。 さらに、チャネル間融合予測器を開発し、感情認識戦略表現と文脈認識対話情報を相互に相互作用させて戦略認識を行う。 実験の結果,提案モデルであるCFO-NetはM-F1の性能を61.74から65.41に向上させる効果があることが確認された。

Persuasive strategy recognition task requires the system to recognize the adopted strategy of the persuader according to the conversation. However, previous methods mainly focus on the contextual information, little is known about incorporating the psychological feedback, i.e. emotion of the persuadee, to predict the strategy. In this paper, we propose a Cross-channel Feedback memOry Network (CFO-Net) to leverage the emotional feedback to iteratively measure the potential benefits of strategies and incorporate them into the contextual-aware dialogue information. Specifically, CFO-Net designs a feedback memory module, including strategy pool and feedback pool, to obtain emotion-aware strategy representation. The strategy pool aims to store historical strategies and the feedback pool is to obtain updated strategy weight based on feedback emotional information. Furthermore, a cross-channel fusion predictor is developed to make a mutual interaction between the emotion-aware strategy representation and the contextual-aware dialogue information for strategy recognition. Experimental results on \textsc{PersuasionForGood} confirm that the proposed model CFO-Net is effective to improve the performance on M-F1 from 61.74 to 65.41.
翻訳日:2022-06-27 13:27:15 公開日:2022-06-24
# MVP: 自然言語生成のためのマルチタスク事前トレーニング

MVP: Multi-task Supervised Pre-training for Natural Language Generation ( http://arxiv.org/abs/2206.12131v1 )

ライセンス: Link先を確認
Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen(参考訳) プレトレーニング言語モデル(PLM)は自然言語生成(NLG)タスクにおいて顕著な成功を収めた。 現在、ほとんどのPLMは大規模汎用コーパスを用いて教師なしで事前訓練されている。 一方、ラベルの少ないデータで事前訓練されたモデルの増加は、教師なしモデルよりも優れたパフォーマンスを示している。 教師付き事前学習の成功に触発され,自然言語生成のためのマルチタスク・スーパーバイザド・プレトレーニング(MVP)を提案する。 テキスト生成モデルmvpを事前学習するために、7世代のタスクで45のデータセットからラベル付き事前学習コーパスを収集する。 各タスクに対して、特定のタスクを実行する際のモデルのキャパシティを刺激する、事前訓練された特定のソフトプロンプトを更に行う。 広範な実験により,多数のnlgタスクにおける教師付き事前トレーニングの有効性が実証され,17個のデータセットのうち12個において,最先端のパフォーマンスを実現する方法が提案されている。

Pre-trained language models (PLMs) have achieved notable success in natural language generation (NLG) tasks. Up to now, most of the PLMs are pre-trained in an unsupervised manner using large-scale general corpus. In the meanwhile, an increasing number of models pre-trained with less labeled data showcase superior performance compared to unsupervised models. Motivated by the success of supervised pre-training, we propose Multi-task superVised Pre-training (MVP) for natural language generation. For pre-training the text generation model MVP, we collect a labeled pre-training corpus from 45 datasets over seven generation tasks. For each task, we further pre-train specific soft prompts to stimulate the model capacity in performing a specific task. Extensive experiments have demonstrated the effectiveness of our supervised pre-training in a number of NLG tasks, and our general methods achieve state-of-the-art performance on 12 of 17 datasets.
翻訳日:2022-06-27 13:26:55 公開日:2022-06-24
# QAGAN: ドメイン不変言語の特徴を学習するための逆アプローチ

QAGAN: Adversarial Approach To Learning Domain Invariant Language Features ( http://arxiv.org/abs/2206.12388v1 )

ライセンス: Link先を確認
Shubham Shrivastava and Kaiyue Wang(参考訳) データドメインシフトに対して堅牢なトレーニングモデルは、アカデミックと業界の両方で関心を集めています。 自然言語処理(NLP)研究における典型的な問題の1つである質問回答言語モデルは、大きなトランスフォーマーモデルの出現で大きな成功を収めている。 しかしながら、既存のアプローチは、トレーニングやテスト中にデータが同じ分布から引き出されるという仮定の下で機能する。 本稿では、言語モデルがドメイン外データセットにうまく一般化できるように、ドメイン不変の特徴を学習するための敵対的トレーニングアプローチを検討する。 また,文のパラフレーズ化によるデータ拡張,開始語に対する応答範囲予測の条件付け,アニーリング関数を慎重に設計するなど,モデル性能を向上させるためのさまざまな方法についても検討する。 最初の結果は、これらの方法と組み合わせて、emスコアの15.2\%$改善と、ベースライン上のドメイン外のバリデーションデータセットのf1スコアの5.6\%$ boostを達成できることを示しています。 また、モデル出力を分解し、低次元空間に投影することでモデル隠れ状態の可視化を行い、我々の特定の対角トレーニングアプローチが実際にモデルにドメイン不変の埋め込みを学習させ、多次元空間に近づけるよう促すことを発見した。

Training models that are robust to data domain shift has gained an increasing interest both in academia and industry. Question-Answering language models, being one of the typical problem in Natural Language Processing (NLP) research, has received much success with the advent of large transformer models. However, existing approaches mostly work under the assumption that data is drawn from same distribution during training and testing which is unrealistic and non-scalable in the wild. In this paper, we explore adversarial training approach towards learning domain-invariant features so that language models can generalize well to out-of-domain datasets. We also inspect various other ways to boost our model performance including data augmentation by paraphrasing sentences, conditioning end of answer span prediction on the start word, and carefully designed annealing function. Our initial results show that in combination with these methods, we are able to achieve $15.2\%$ improvement in EM score and $5.6\%$ boost in F1 score on out-of-domain validation dataset over the baseline. We also dissect our model outputs and visualize the model hidden-states by projecting them onto a lower-dimensional space, and discover that our specific adversarial training approach indeed encourages the model to learn domain invariant embedding and bring them closer in the multi-dimensional space.
翻訳日:2022-06-27 13:26:41 公開日:2022-06-24
# SDF-StyleGAN:3次元形状生成のためのSDF型スタイルGAN

SDF-StyleGAN: Implicit SDF-Based StyleGAN for 3D Shape Generation ( http://arxiv.org/abs/2206.12055v1 )

ライセンス: Link先を確認
Xin-Yang Zheng and Yang Liu and Peng-Shuai Wang and Xin Tong(参考訳) 本稿では,SDF-StyleGANと呼ばれる3次元形状生成のためのStyleGAN2に基づくディープラーニング手法を提案する。 StyleGAN2を3次元に拡張し、暗黙符号距離関数(SDF)を3次元形状表現として利用し、実と偽のSDF値と勾配を区別する2つの新しいグローバルおよび局所形状判別器を導入し、形状形状と視覚的品質を著しく改善する。 さらに,影画像に基づくFr'echet開始距離(FID)スコアを用いて3次元生成モデルの評価指標を補完し,生成した形状の視覚的品質と形状分布をよりよく評価する。 形状生成実験は, SDF-StyleGANの最先端性能を示す。 さらに, 形状再構成, 部分点雲からの形状完了, 単視点画像ベース形状生成, 形状スタイル編集など, GAN のインバージョンに基づく各種タスクにおける SDF-StyleGAN の有効性を示す。 広範なアブレーション研究は,フレームワーク設計の有効性を正当化する。 私たちのコードとトレーニングされたモデルは、https://github.com/zhengxinyang/sdf-styleganで利用可能です。

We present a StyleGAN2-based deep learning approach for 3D shape generation, called SDF-StyleGAN, with the aim of reducing visual and geometric dissimilarity between generated shapes and a shape collection. We extend StyleGAN2 to 3D generation and utilize the implicit signed distance function (SDF) as the 3D shape representation, and introduce two novel global and local shape discriminators that distinguish real and fake SDF values and gradients to significantly improve shape geometry and visual quality. We further complement the evaluation metrics of 3D generative models with the shading-image-based Fr\'echet inception distance (FID) scores to better assess visual quality and shape distribution of the generated shapes. Experiments on shape generation demonstrate the superior performance of SDF-StyleGAN over the state-of-the-art. We further demonstrate the efficacy of SDF-StyleGAN in various tasks based on GAN inversion, including shape reconstruction, shape completion from partial point clouds, single-view image-based shape generation, and shape style editing. Extensive ablation studies justify the efficacy of our framework design. Our code and trained models are available at https://github.com/Zhengxinyang/SDF-StyleGAN.
翻訳日:2022-06-27 13:25:59 公開日:2022-06-24
# (参考訳) 事前学習ベイズニューラルネットワークによる分布ロバスト性の評価

Out of distribution robustness with pre-trained Bayesian neural networks ( http://arxiv.org/abs/2206.12361v1 )

ライセンス: CC BY 4.0
Xi Wang and Laurence Aitchison(参考訳) 我々は,ベイズ型ニューラルネットワーク(bnns)のout of distribution(ood)ロバスト性に関する新たなトレーニングデータ依存確率であるshiftmatchを開発した。 ShiftMatchは、Izmailovら(2021a)のトレーニングデータ依存の"EmpCov"にインスパイアされ、トレーニング時間におけるテスト時間空間相関を効率的にマッチングする。 批判的に、ShiftMatchはニューラルネットワークのトレーニングをそのままにして、トレーニング済みのBNNから公開されているサンプルを使用するように設計されている。 事前訓練された hmc サンプルを使用すると、shiftmatch は cifar-10-c の性能が向上し、empcov prior よりも優れている。 shiftmatchはディープアンサンブルのような非ベイズ的手法と統合でき、より小さく、しかし、相当なパフォーマンス改善を提供する。 全体として、Bayesian ShiftMatchはShiftMatchのアンサンブルよりもわずかに精度が良かったが、どちらも非常によく似たログ型であった。

We develop ShiftMatch, a new training-data-dependent likelihood for out of distribution (OOD) robustness in Bayesian neural networks (BNNs). ShiftMatch is inspired by the training-data-dependent "EmpCov" priors from Izmailov et al. (2021a) and efficiently matches test-time spatial correlations to those at training time. Critically, ShiftMatch is designed to leave neural network training unchanged, allowing it to use publically available samples from pretrained BNNs. Using pre-trained HMC samples, ShiftMatch gives strong performance improvements on CIFAR-10-C, outperforms EmpCov priors, and is perhaps the first Bayesian method capable of convincingly outperforming plain deep ensembles. ShiftMatch can be integrated with non-Bayesian methods like deep ensembles, where it offers smaller, but still considerable, performance improvements. Overall, Bayesian ShiftMatch gave slightly better accuracy than ensembles with ShiftMatch, though they both had very similar log-likelihoods.
翻訳日:2022-06-27 13:23:54 公開日:2022-06-24
# ドメイン間の知識伝達を伴う集約多出力ガウス過程

Aggregated Multi-output Gaussian Processes with Knowledge Transfer Across Domains ( http://arxiv.org/abs/2206.12141v1 )

ライセンス: Link先を確認
Yusuke Tanaka, Toshiyuki Tanaka, Tomoharu Iwata, Takeshi Kurashima, Maya Okawa, Yasunori Akagi, Hiroyuki Toda(参考訳) 集約データは社会経済学や治安など様々な分野にしばしば現れる。 集約データは、ポイントではなく、サポート(例えば、都市の空間領域)に関連付けられている。 支援者は属性(例えば貧困率や犯罪率)によって様々な粒度を持つ可能性があるため、そのようなデータのモデリングは簡単ではない。 本稿では,各粒度の集合データセットを用いて属性の関数を推論する多出力ガウス過程(MoGP)モデルを提案する。 提案モデルでは,各属性の関数は独立潜在GPの線形混合としてモデル化された依存GPであると仮定する。 我々は,各属性に対する集約プロセスを備えた観測モデルを設計し,そのプロセスは対応するサポートに対するGPの積分である。 また,混合重みの事前分布を導入し,事前の共有により,各領域(都市など)にまたがる知識伝達を可能にする。 これは、都市内の空間的に集約されたデータセットが粗いので補間できない状況において有利であり、提案モデルでは、他の都市の集合データセットを利用することで、属性の正確な予測を行うことができる。 提案モデルの推論は変分ベイズに基づいており、複数のドメインから集約データセットを使用してモデルパラメータを学習することができる。 実験の結果,提案手法は,北京の大気汚染物質の時系列と,ニューヨークやシカゴの様々な空間データセットにおいて,実世界のデータセットの粗粒度データを精錬する作業に勝ることが判明した。

Aggregate data often appear in various fields such as socio-economics and public security. The aggregate data are associated not with points but with supports (e.g., spatial regions in a city). Since the supports may have various granularities depending on attributes (e.g., poverty rate and crime rate), modeling such data is not straightforward. This article offers a multi-output Gaussian process (MoGP) model that infers functions for attributes using multiple aggregate datasets of respective granularities. In the proposed model, the function for each attribute is assumed to be a dependent GP modeled as a linear mixing of independent latent GPs. We design an observation model with an aggregation process for each attribute; the process is an integral of the GP over the corresponding support. We also introduce a prior distribution of the mixing weights, which allows a knowledge transfer across domains (e.g., cities) by sharing the prior. This is advantageous in such a situation where the spatially aggregated dataset in a city is too coarse to interpolate; the proposed model can still make accurate predictions of attributes by utilizing aggregate datasets in other cities. The inference of the proposed model is based on variational Bayes, which enables one to learn the model parameters using the aggregate datasets from multiple domains. The experiments demonstrate that the proposed model outperforms in the task of refining coarse-grained aggregate data on real-world datasets: Time series of air pollutants in Beijing and various kinds of spatial datasets from New York City and Chicago.
翻訳日:2022-06-27 13:02:17 公開日:2022-06-24
# スパース機能の学習はニューラルネットワークの過度な適合につながる

Learning sparse features can lead to overfitting in neural networks ( http://arxiv.org/abs/2206.12314v1 )

ライセンス: Link先を確認
Leonardo Petrini, Francesco Cagnetta, Eric Vanden-Eijnden, Matthieu Wyart(参考訳) ディープネットワークの成功は、データの特徴の有意義な表現を学ぶ能力にあると広く信じられている。 例えば、イメージを分類する訓練を受けたモダンなアーキテクチャには有益であるが、同じデータ上で同じタスクのために訓練された完全接続されたネットワークには有害である。 ここでは,機能学習が(ランダム特徴カーネルやntkによる)遅延トレーニングよりもパフォーマンスが悪く,前者がスパーサー神経表現に繋がることを示すことで,このパズルの説明を提案する。 空間性は異方性データの学習に不可欠であることが知られているが、対象関数が入力空間の特定の方向に沿って一定あるいは滑らかなときに有害である。 この現象を2つの設定で説明します (i)d-次元単位球面上のガウス確率関数の回帰と (ii)画像のベンチマークデータセットの分類。 のために (i)訓練点数で一般化誤差のスケーリングを計算し,入力空間の次元が大きい場合でも,特徴を学習しない手法の方が一般化することを示す。 のために (ii)我々は,学習機能によって画像予測器のスリム化やスムース化が促進されることを実証的に示す。 この事実は、微分同型(diffeomorphism)に沿った滑らかさと相関することが知られているパフォーマンスを劣化させる原因である。

It is widely believed that the success of deep networks lies in their ability to learn a meaningful representation of the features of the data. Yet, understanding when and how this feature learning improves performance remains a challenge: for example, it is beneficial for modern architectures trained to classify images, whereas it is detrimental for fully-connected networks trained for the same task on the same data. Here we propose an explanation for this puzzle, by showing that feature learning can perform worse than lazy training (via random feature kernel or the NTK) as the former can lead to a sparser neural representation. Although sparsity is known to be essential for learning anisotropic data, it is detrimental when the target function is constant or smooth along certain directions of input space. We illustrate this phenomenon in two settings: (i) regression of Gaussian random functions on the d-dimensional unit sphere and (ii) classification of benchmark datasets of images. For (i), we compute the scaling of the generalization error with number of training points, and show that methods that do not learn features generalize better, even when the dimension of the input space is large. For (ii), we show empirically that learning features can indeed lead to sparse and thereby less smooth representations of the image predictors. This fact is plausibly responsible for deteriorating the performance, which is known to be correlated with smoothness along diffeomorphisms.
翻訳日:2022-06-27 13:01:52 公開日:2022-06-24
# 機械学習アルゴリズムにおける固有ランダム性の定量化

Quantifying Inherent Randomness in Machine Learning Algorithms ( http://arxiv.org/abs/2206.12353v1 )

ライセンス: Link先を確認
Soham Raste, Rahul Singh, Joel Vaughan, and Vijayan N. Nair(参考訳) ほとんどの機械学習(ML)アルゴリズムはいくつかの確率的要素を持ち、それらの性能はこれらのランダムな源に影響される。 本稿では,モデルトレーニングにおけるランダム性と,データセットのトレーニングとテストサブセットへの分割におけるランダム性という2つのソースの効果を体系的に検討する。 我々は、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、フィードフォワードニューラルネットワーク(FFNN)の予測性能の変動の大きさを定量化し、比較する。 異なるアルゴリズムの中で、モデルトレーニングにおけるランダム性は、木に基づく手法に比べてFFNNの変動が大きい。 ffnnにはモデル初期化とトレーニングの一部であるより確率的な要素があるため、これは期待できる。 また,データセットのランダムな分割は,モデルトレーニングの固有ランダム性よりも高いばらつきをもたらすことが分かった。 データ分割のバリエーションは、元のデータセットがかなり不均一性がある場合、大きな問題となる。 キーワード:モデルトレーニング、再現性、バリエーション

Most machine learning (ML) algorithms have several stochastic elements, and their performances are affected by these sources of randomness. This paper uses an empirical study to systematically examine the effects of two sources: randomness in model training and randomness in the partitioning of a dataset into training and test subsets. We quantify and compare the magnitude of the variation in predictive performance for the following ML algorithms: Random Forests (RFs), Gradient Boosting Machines (GBMs), and Feedforward Neural Networks (FFNNs). Among the different algorithms, randomness in model training causes larger variation for FFNNs compared to tree-based methods. This is to be expected as FFNNs have more stochastic elements that are part of their model initialization and training. We also found that random splitting of datasets leads to higher variation compared to the inherent randomness from model training. The variation from data splitting can be a major issue if the original dataset has considerable heterogeneity. Keywords: Model Training, Reproducibility, Variation
翻訳日:2022-06-27 13:01:28 公開日:2022-06-24
# ショットハイパースペクトル画像分類のための自己教師付き学習

Self Supervised Learning for Few Shot Hyperspectral Image Classification ( http://arxiv.org/abs/2206.12117v1 )

ライセンス: Link先を確認
Nassim Ait Ali Braham, Lichao Mou, Jocelyn Chanussot, Julien Mairal, Xiao Xiang Zhu(参考訳) ディープラーニングは、ハイパースペクトル画像(HSI)分類において非常に効果的なアプローチであることが証明されている。 しかし、ディープニューラルネットワークは、うまく一般化するために大きな注釈付きデータセットを必要とする。 これによりhsi分類におけるディープラーニングの適用性が制限され、各シーンに数千ピクセルを手作業でラベル付けすることは現実的ではない。 本稿では,HSI分類における自己監督学習(SSL)の利用を提案する。 最先端のSSLアルゴリズムであるBarlow-Twinsを用いて,ラベルのない画素にエンコーダを事前学習することにより,少数のラベルを持つ正確なモデルが得られることを示す。 実験の結果,このアプローチはバニラ指導学習を有意に上回ることがわかった。

Deep learning has proven to be a very effective approach for Hyperspectral Image (HSI) classification. However, deep neural networks require large annotated datasets to generalize well. This limits the applicability of deep learning for HSI classification, where manually labelling thousands of pixels for every scene is impractical. In this paper, we propose to leverage Self Supervised Learning (SSL) for HSI classification. We show that by pre-training an encoder on unlabeled pixels using Barlow-Twins, a state-of-the-art SSL algorithm, we can obtain accurate models with a handful of labels. Experimental results demonstrate that this approach significantly outperforms vanilla supervised learning.
翻訳日:2022-06-27 13:01:12 公開日:2022-06-24
# 組込みシステムのための正確なBNNのトレーニング方法

How to train accurate BNNs for embedded systems? ( http://arxiv.org/abs/2206.12322v1 )

ライセンス: Link先を確認
Floran de Putter and Henk Corporaal(参考訳) 畳み込みニューラルネットワークをリソース制約付き組み込みシステム上にデプロイするためのキーイネーブラは、binary neural network (bnn)である。 BNNはメモリを節約し、特徴と重みをバイナライズすることで計算を単純化する。 残念ながら、二項化は必然的に精度の低下を伴う。 本章では,2値ネットワークと完全精度ネットワークの精度ギャップを低減するため,近年では多くの補修手法が提案されている。 修復方法はトレーニング技術とネットワークトポロジの変更の2つのメインブランチに分割され,さらに小さなカテゴリに分割することができる。 後者は組み込みシステムの追加コスト(エネルギー消費または追加エリア)を導入するが、前者は導入しない。 以上より,BNNの精度差の低減に進展が見られたが,BNNの高精度なBNNの補修方法については,BNNの論文は一致していない。 したがって、本章では、resnet-20\&cifar10とresnet-18\&cifar100ベンチマークを分離して多くの修復方法の利点を評価する経験的レビューを含む。 最も有益である3つの修復カテゴリーは, 機能バイナライザ, 機能正規化, 二重残基であった。 本稿では,今後の方向性と研究の機会について論じる。 我々は,BNNが資源制約の組込みシステムにおいてエネルギー効率を高く保ちながら,BNNが精度のギャップを埋められるかどうかをまだ見極めていないため,組込みシステムにおけるBNNのメリットとコストを概観する。

A key enabler of deploying convolutional neural networks on resource-constrained embedded systems is the binary neural network (BNN). BNNs save on memory and simplify computation by binarizing both features and weights. Unfortunately, binarization is inevitably accompanied by a severe decrease in accuracy. To reduce the accuracy gap between binary and full-precision networks, many repair methods have been proposed in the recent past, which we have classified and put into a single overview in this chapter. The repair methods are divided into two main branches, training techniques and network topology changes, which can further be split into smaller categories. The latter category introduces additional cost (energy consumption or additional area) for an embedded system, while the former does not. From our overview, we observe that progress has been made in reducing the accuracy gap, but BNN papers are not aligned on what repair methods should be used to get highly accurate BNNs. Therefore, this chapter contains an empirical review that evaluates the benefits of many repair methods in isolation over the ResNet-20\&CIFAR10 and ResNet-18\&CIFAR100 benchmarks. We found three repair categories most beneficial: feature binarizer, feature normalization, and double residual. Based on this review we discuss future directions and research opportunities. We sketch the benefit and costs associated with BNNs on embedded systems because it remains to be seen whether BNNs will be able to close the accuracy gap while staying highly energy-efficient on resource-constrained embedded systems.
翻訳日:2022-06-27 12:59:46 公開日:2022-06-24
# step-unrolled denoising autoencoderを用いたメガピクセル画像生成

Megapixel Image Generation with Step-Unrolled Denoising Autoencoders ( http://arxiv.org/abs/2206.12351v1 )

ライセンス: Link先を確認
Alex F. McKinney, Chris G. Willcocks(参考訳) 生成モデリング研究の現在進行中の傾向は、サンプル解像度を高くし、同時にトレーニングとサンプリングの計算要求を減らすことである。 それぞれの領域における現在の効率の頂点を表す各コンポーネントのテクニックの組み合わせによって、この傾向をさらに推し進めることを目指している。 例えば、ベクトル量子化GAN(VQ-GAN)、高レベルの損失を知覚的に重要視できるベクトル量子化(VQ)モデル、時間ガラストランスフォーマー、高度にスケール可能な自己アテンションモデル、非自己回帰(NAR)テキスト生成モデルであるステップ制御型デノイングオートエンコーダ(SUNDAE)などがある。 多次元データに適用した場合の時間ガラス変圧器の元々の定式化の弱点を明らかにする。 これを踏まえ、階層変換器を多次元データに適用するタスクに適用可能な再サンプリング機構の修正を提案する。 さらに,SUNDAEの長いシーケンス長に対するスケーラビリティを,以前の作業の4倍の時間で実証する。 提案手法は高分解能(1024 \times 1024$)までスケールし,高速(2-4日)で走行する。 重要なことは、トレーニングされたモデルは、コンシューマグレードGPU(GTX 1080Ti)上で、多種多様な現実的なメガピクセルサンプルを約2秒で生成する。 一般に、このフレームワークは柔軟性があり、任意の数のサンプリングステップ、サンプル回りのセルフストッピング、自己補正機能、条件生成、任意の塗装マスクを可能にするNARの定式化をサポートする。 FIDスコアはFFHQ256で10.56点、サンプリングステップの半分以下でVQ-GANに近づき、FFHQ1024で21.85点を得る。

An ongoing trend in generative modelling research has been to push sample resolutions higher whilst simultaneously reducing computational requirements for training and sampling. We aim to push this trend further via the combination of techniques - each component representing the current pinnacle of efficiency in their respective areas. These include vector-quantized GAN (VQ-GAN), a vector-quantization (VQ) model capable of high levels of lossy - but perceptually insignificant - compression; hourglass transformers, a highly scaleable self-attention model; and step-unrolled denoising autoencoders (SUNDAE), a non-autoregressive (NAR) text generative model. Unexpectedly, our method highlights weaknesses in the original formulation of hourglass transformers when applied to multidimensional data. In light of this, we propose modifications to the resampling mechanism, applicable in any task applying hierarchical transformers to multidimensional data. Additionally, we demonstrate the scalability of SUNDAE to long sequence lengths - four times longer than prior work. Our proposed framework scales to high-resolutions ($1024 \times 1024$) and trains quickly (2-4 days). Crucially, the trained model produces diverse and realistic megapixel samples in approximately 2 seconds on a consumer-grade GPU (GTX 1080Ti). In general, the framework is flexible: supporting an arbitrary number of sampling steps, sample-wise self-stopping, self-correction capabilities, conditional generation, and a NAR formulation that allows for arbitrary inpainting masks. We obtain FID scores of 10.56 on FFHQ256 - close to the original VQ-GAN in less than half the sampling steps - and 21.85 on FFHQ1024 in only 100 sampling steps.
翻訳日:2022-06-27 12:59:19 公開日:2022-06-24
# 自発対話を用いた発話スタイルの潜在表現に基づくエンドツーエンドテキスト音声合成

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue ( http://arxiv.org/abs/2206.12040v1 )

ライセンス: Link先を確認
Kentaro Mitsui, Tianyu Zhao, Kei Sawada, Yukiya Hono, Yoshihiko Nankaku, Keiichi Tokuda(参考訳) 近年のTTS (text-to-speech) は人間に匹敵する品質を達成しているが, 音声対話への応用は広く研究されていない。 本研究の目的は,人間の対話によく似たTSを実現することである。 まず, 自発対話を録音し, 書き起こしを行う。 次に、第1段、変分オートエンコーダ(vae)−vitsまたはガウス混合変分オートエンコーダ(gmvae)−vitsを訓練し、最近提案されているエンドツーエンドttsモデルであるエンドツーエンドテキスト・ツー・スパイチ(vits)に対する逆学習を伴う変動推論に発話レベル潜在変数を導入する。 潜在発話スタイル表現を音声から抽出するスタイルエンコーダをttsと共同で訓練する。 第2段階では、対話履歴から合成される発話スタイルを予測するようにスタイル予測器を訓練する。 推論中、スタイル予測器が予測する発話スタイル表現をvae/gmvae-vitsに渡すことにより、対話の文脈に適したスタイルで音声を合成することができる。 主観評価の結果,提案手法は対話レベルの自然性において,元のVITSよりも優れていた。

The recent text-to-speech (TTS) has achieved quality comparable to that of humans; however, its application in spoken dialogue has not been widely studied. This study aims to realize a TTS that closely resembles human dialogue. First, we record and transcribe actual spontaneous dialogues. Then, the proposed dialogue TTS is trained in two stages: first stage, variational autoencoder (VAE)-VITS or Gaussian mixture variational autoencoder (GMVAE)-VITS is trained, which introduces an utterance-level latent variable into variational inference with adversarial learning for end-to-end text-to-speech (VITS), a recently proposed end-to-end TTS model. A style encoder that extracts a latent speaking style representation from speech is trained jointly with TTS. In the second stage, a style predictor is trained to predict the speaking style to be synthesized from dialogue history. During inference, by passing the speaking style representation predicted by the style predictor to VAE/GMVAE-VITS, speech can be synthesized in a style appropriate to the context of the dialogue. Subjective evaluation results demonstrate that the proposed method outperforms the original VITS in terms of dialogue-level naturalness.
翻訳日:2022-06-27 12:58:47 公開日:2022-06-24
# 深層学習に基づく画像分類のための活性化関数の進化

Evolution of Activation Functions for Deep Learning-Based Image Classification ( http://arxiv.org/abs/2206.12089v1 )

ライセンス: Link先を確認
Raz Lapid and Moshe Sipper(参考訳) 活性化関数(AF)は、ニューラルネットワークの性能において重要な役割を果たす。 Rectified Linear Unit (ReLU) は現在最も一般的なAFである。 ReLUの代替案がいくつか提案されているが、改善は矛盾している。 一部のAFは特定のタスクに対してより良いパフォーマンスを示すが、適切なタスクを選択する方法を知ることは困難である。 標準完全連結ニューラルネットワーク (FCN) と畳み込みニューラルネットワーク (CNN) の両方について検討し, AF を進化させる新しい3つの集団共進化アルゴリズムを提案し,それを進化的および非進化的という4つの方法と比較した。 MNIST、FashionMNIST、KMNIST、USPSの4つのデータセットでテストした結果、優れたAFとAFアーキテクチャを見つけるためのパフォーマンスアルゴリズムであることが証明された。

Activation functions (AFs) play a pivotal role in the performance of neural networks. The Rectified Linear Unit (ReLU) is currently the most commonly used AF. Several replacements to ReLU have been suggested but improvements have proven inconsistent. Some AFs exhibit better performance for specific tasks, but it is hard to know a priori how to select the appropriate one(s). Studying both standard fully connected neural networks (FCNs) and convolutional neural networks (CNNs), we propose a novel, three-population, coevolutionary algorithm to evolve AFs, and compare it to four other methods, both evolutionary and non-evolutionary. Tested on four datasets -- MNIST, FashionMNIST, KMNIST, and USPS -- coevolution proves to be a performant algorithm for finding good AFs and AF architectures.
翻訳日:2022-06-27 12:58:20 公開日:2022-06-24
# (参考訳) BERT埋め込みを用いた難聴者における会話文における単語の重要性のモデル化

Using BERT Embeddings to Model Word Importance in Conversational Transcripts for Deaf and Hard of Hearing Users ( http://arxiv.org/abs/2206.12368v1 )

ライセンス: CC BY 4.0
Akhter Al Amin, Saad Hassan, Cecilia O. Alm, Matt Huenerfauth(参考訳) 聴覚障害者や聴覚障害者は、ライブテレビを見ながらキャプションに頼っている。 各種キャプション評価指標を用いて、規制当局によるライブテレビキャプションの評価を行う。 しかし、キャプション評価の指標は、DHHユーザの好みや、キャプションがどれほど意味のあるものであるかによって通知されないことが多い。 テキスト中の単語の相対的重要性を考慮に入れたキャプション評価指標を構築する必要がある。 既存のコーパスにおける2種類の単語埋め込みとラベル付き単語インポータンススコアの相関分析を行った。 その結果,BERTを用いた正規化単語埋め込みは,ワード2vecに基づく単語埋め込みよりも,手作業による重要度スコアとよく相関していることがわかった。 単語埋め込みのペアリングと,その人による重要度スコアを提供する。 また,単語重要度モデルを訓練し,単語重要度分類タスクで0.57のf1スコアを達成することにより,概念実証の有用性を提供する。

Deaf and hard of hearing individuals regularly rely on captioning while watching live TV. Live TV captioning is evaluated by regulatory agencies using various caption evaluation metrics. However, caption evaluation metrics are often not informed by preferences of DHH users or how meaningful the captions are. There is a need to construct caption evaluation metrics that take the relative importance of words in a transcript into account. We conducted correlation analysis between two types of word embeddings and human-annotated labeled word-importance scores in existing corpus. We found that normalized contextualized word embeddings generated using BERT correlated better with manually annotated importance scores than word2vec-based word embeddings. We make available a pairing of word embeddings and their human-annotated importance scores. We also provide proof-of-concept utility by training word importance models, achieving an F1-score of 0.57 in the 6-class word importance classification task.
翻訳日:2022-06-27 12:57:22 公開日:2022-06-24
# (参考訳) 木で1-wasserstein距離を近似する

Approximating 1-Wasserstein Distance with Trees ( http://arxiv.org/abs/2206.12116v1 )

ライセンス: CC BY 4.0
Makoto Yamada, Yuki Takezawa, Ryoma Sato, Han Bao, Zornitsa Kozareva, Sujith Ravi(参考訳) 分布間の差を測定するワッサースタイン距離は、自然言語処理(NLP)とコンピュータビジョン(CV)の様々な用途において有効であることを示す。 wasserstein距離の推定における課題の1つは、計算コストが高く、多くの分散比較タスクでうまくスケールしないことである。 本稿では,木面上のノード数に関して,TWDが木面上に埋め込まれた1-ワッサースタイン距離を線形時間で計算できる木面ワッサースタイン距離(TWD)を用いて1-ワッサースタイン距離を近似することを目的とする。 より具体的には、木の端の重みを学習するための単純で効率的なL1正規化手法を提案する。 この結果から,木上の最短経路距離を用いて1-ワッサーシュタイン近似問題を距離近似問題として定式化できることを示す。 次に,最短経路距離を線形モデルで表現し,ラッソに基づく回帰問題として定式化できることを示す。 凸定式化により、グローバル最適解を効率的に得ることができる。 さらに,これらの手法のツリースライクな変種を提案する。 実験により、重み付きtwdは元の1-wasserstein距離を正確に近似できることを示した。

Wasserstein distance, which measures the discrepancy between distributions, shows efficacy in various types of natural language processing (NLP) and computer vision (CV) applications. One of the challenges in estimating Wasserstein distance is that it is computationally expensive and does not scale well for many distribution comparison tasks. In this paper, we aim to approximate the 1-Wasserstein distance by the tree-Wasserstein distance (TWD), where TWD is a 1-Wasserstein distance with tree-based embedding and can be computed in linear time with respect to the number of nodes on a tree. More specifically, we propose a simple yet efficient L1-regularized approach to learning the weights of the edges in a tree. To this end, we first show that the 1-Wasserstein approximation problem can be formulated as a distance approximation problem using the shortest path distance on a tree. We then show that the shortest path distance can be represented by a linear model and can be formulated as a Lasso-based regression problem. Owing to the convex formulation, we can obtain a globally optimal solution efficiently. Moreover, we propose a tree-sliced variant of these methods. Through experiments, we demonstrated that the weighted TWD can accurately approximate the original 1-Wasserstein distance.
翻訳日:2022-06-27 12:47:26 公開日:2022-06-24
# Capture Salient Historical Information:マルチターン音声言語理解のための高速かつ高精度な非自己回帰モデル

Capture Salient Historical Information: A Fast and Accurate Non-Autoregressive Model for Multi-turn Spoken Language Understanding ( http://arxiv.org/abs/2206.12209v1 )

ライセンス: Link先を確認
Lizhi Cheng, Weijia jia, Wenmian Yang(参考訳) タスク指向対話システムの中核的なコンポーネントである音声言語理解(SLU)は、人間の不忍さに直面する短い推論を期待している。 既存の作業は、シングルターンSLUタスクの非自己回帰モデルを設計することで推論速度を向上するが、対話履歴に対向するマルチターンSLUには適用できない。 直感的なアイデアは、すべての歴史的な発話を結合し、非自己回帰モデルを直接利用することである。 しかし、このアプローチは重要な歴史的情報を見逃し、調整されていないスロットの問題に苦しむ。 これらの欠点を克服するため,SHAモジュール,層分割機構(LRM),スロットラベル生成(SLG)タスクで構成されるSHA-LRT(Salient History Attention with Layer-Refined Transformer)と呼ばれるマルチターンSLUの新しいモデルを提案する。 shaは、歴史的発話と結果の両方から現在の対話について、よく設計された履歴アテンション機構を通じて、有意義な歴史的情報をキャプチャする。 LRMはTransformerの中間状態から予備的なSLU結果を予測し、それらを最終予測に利用し、SLGは非自己回帰エンコーダの逐次依存性情報を取得する。 公開データセットを用いた実験から,本モデルではマルチターンSLUの高速化(全体の17.5%)と,最先端のベースラインでの推論プロセスの高速化(約15倍),およびシングルターンSLUタスクの有効性が示唆された。

Spoken Language Understanding (SLU), a core component of the task-oriented dialogue system, expects a shorter inference facing the impatience of human users. Existing work increases inference speed by designing non-autoregressive models for single-turn SLU tasks but fails to apply to multi-turn SLU in confronting the dialogue history. The intuitive idea is to concatenate all historical utterances and utilize the non-autoregressive models directly. However, this approach seriously misses the salient historical information and suffers from the uncoordinated-slot problems. To overcome those shortcomings, we propose a novel model for multi-turn SLU named Salient History Attention with Layer-Refined Transformer (SHA-LRT), which composes of an SHA module, a Layer-Refined Mechanism (LRM), and a Slot Label Generation (SLG) task. SHA captures salient historical information for the current dialogue from both historical utterances and results via a well-designed history-attention mechanism. LRM predicts preliminary SLU results from Transformer's middle states and utilizes them to guide the final prediction, and SLG obtains the sequential dependency information for the non-autoregressive encoder. Experiments on public datasets indicate that our model significantly improves multi-turn SLU performance (17.5% on Overall) with accelerating (nearly 15 times) the inference process over the state-of-the-art baseline as well as effective on the single-turn SLU tasks.
翻訳日:2022-06-27 12:47:04 公開日:2022-06-24
# NLPモデルにおける説明法のロバスト性

Robustness of Explanation Methods for NLP Models ( http://arxiv.org/abs/2206.12284v1 )

ライセンス: Link先を確認
Shriya Atmakuri, Tejas Chheda, Dinesh Kandula, Nishant Yadav, Taesung Lee, Hessel Tuinhof(参考訳) 説明手法は、ニューラルネットワークの予測にかかわる特徴を強調する重要なツールとして登場した。 多くの説明方法がかなり信頼できず、悪意のある操作の影響を受けやすいという証拠が増えている。 本稿では,テキストモダリティの文脈における説明手法の堅牢性を理解することを目的とする。 テキスト説明に対する敵意攻撃を成功させるための最初の洞察と結果を提供する。 我々の知る限り、これは説明手法の対角的堅牢性を評価する最初の試みである。 実験では, 実験対象の86%までのサンプルに対して, 入力文と意味論のわずかな変化を伴って, 説明手法をほとんど乱すことができることを示した。

Explanation methods have emerged as an important tool to highlight the features responsible for the predictions of neural networks. There is mounting evidence that many explanation methods are rather unreliable and susceptible to malicious manipulations. In this paper, we particularly aim to understand the robustness of explanation methods in the context of text modality. We provide initial insights and results towards devising a successful adversarial attack against text explanations. To our knowledge, this is the first attempt to evaluate the adversarial robustness of an explanation method. Our experiments show the explanation method can be largely disturbed for up to 86% of the tested samples with small changes in the input sentence and its semantics.
翻訳日:2022-06-27 12:46:36 公開日:2022-06-24
# 時間的注意ユニット:時空間予測学習の効率化を目指して

Temporal Attention Unit: Towards Efficient Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2206.12126v1 )

ライセンス: Link先を確認
Cheng Tan, Zhangyang Gao, Siyuan Li, Yongjie Xu, Stan Z. Li(参考訳) 時空間予測学習は、歴史的枠組みから学習することで将来のフレームを生成することを目的としている。 本稿では,既存の手法を調査し,空間エンコーダとデコーダがフレーム内特徴を捉え,中間時間モジュールがフレーム間相関を捉える時空間予測学習の一般的な枠組みを提案する。 主流の手法は長期の時間的依存を捉えるために繰り返し単位を用いるが、並列化不可能なアーキテクチャのために計算効率が低い。 時間的モジュールを並列化するために,時間的注意をフレーム内静的な注意とフレーム間動的注意に分解する時間的注意ユニット(TAU)を提案する。 さらに、平均二乗誤差損失はフレーム内誤差に焦点をあてる一方で、フレーム間変動を考慮した新しい差分分岐正規化を導入する。 大規模な実験により,提案手法により,種々の時空間予測ベンチマークにおいて,導出モデルによる競合性能の達成が可能となった。

Spatiotemporal predictive learning aims to generate future frames by learning from historical frames. In this paper, we investigate existing methods and present a general framework of spatiotemporal predictive learning, in which the spatial encoder and decoder capture intra-frame features and the middle temporal module catches inter-frame correlations. While the mainstream methods employ recurrent units to capture long-term temporal dependencies, they suffer from low computational efficiency due to their unparallelizable architectures. To parallelize the temporal module, we propose the Temporal Attention Unit (TAU), which decomposes the temporal attention into intra-frame statical attention and inter-frame dynamical attention. Moreover, while the mean squared error loss focuses on intra-frame errors, we introduce a novel differential divergence regularization to take inter-frame variations into account. Extensive experiments demonstrate that the proposed method enables the derived model to achieve competitive performance on various spatiotemporal prediction benchmarks.
翻訳日:2022-06-27 12:46:25 公開日:2022-06-24
# シンボリック・レグレッション・ブースティング

Symbolic-Regression Boosting ( http://arxiv.org/abs/2206.12082v1 )

ライセンス: Link先を確認
Moshe Sipper and Jason H Moore(参考訳) 埋め込みの弱い学習者を置き換えることで、標準勾配ブースティングを変更することで、強力な(er)学習者を選び、sirbo:symbol-regression boosting(シンボリック回帰ブースティング)を提案する。 98以上の回帰データセットの実験では、象徴的な回帰器に少数のブースティングステージ(2~5)を追加することで、統計的に重要な改善がしばしば達成される。 シンボリックな回帰器の上でSyRBoをコーディングするのは簡単であり、追加のコストは単により進化的なラウンドである。 SyRBoは基本的には単純なアドオンで、既存のシンボル的回帰器に簡単に追加できる。

Modifying standard gradient boosting by replacing the embedded weak learner in favor of a strong(er) one, we present SyRBo: Symbolic-Regression Boosting. Experiments over 98 regression datasets show that by adding a small number of boosting stages -- between 2--5 -- to a symbolic regressor, statistically significant improvements can often be attained. We note that coding SyRBo on top of any symbolic regressor is straightforward, and the added cost is simply a few more evolutionary rounds. SyRBo is essentially a simple add-on that can be readily added to an extant symbolic regressor, often with beneficial results.
翻訳日:2022-06-27 12:31:37 公開日:2022-06-24
# La Carte Selection of Activation Function を用いたニューラルネットワーク

Neural Networks with A La Carte Selection of Activation Functions ( http://arxiv.org/abs/2206.12166v1 )

ライセンス: Link先を確認
Moshe Sipper(参考訳) 近年、ニューラルネットワークの成功(あるいは失敗)に重要な活性化関数(AF)が注目され、ネットワーク性能のいくつかの側面を改善する新しいAFの設計を目指す研究者が増えている。 この論文では、多くの既知のafsを成功裏にアーキテクチャに組み合わせ、3つの方法を提案する別の方向を取り上げます。 1) AF アーキテクチャをランダムに生成する。 2) 木構造型Parzen Estimator(TPE)サンプル装置を備えた自動ハイパーパラメータ最適化ソフトウェアフレームワークであるOptunaを使用する。 3) Covariance Matrix Adaptation Evolution Strategy (CMA-ES) sampler で Optuna を使用する。 本稿では,ReLU隠れユニットとソフトマックス出力ユニットからなる標準ネットワークと比較して,25の分類問題に対して,全ての手法が有意に優れた結果をもたらすことを示す。 TPEサンプルを用いたオプトゥーナは、最高のAFアーキテクチャ生成方法として登場した。

Activation functions (AFs), which are pivotal to the success (or failure) of a neural network, have received increased attention in recent years, with researchers seeking to design novel AFs that improve some aspect of network performance. In this paper we take another direction, wherein we combine a slew of known AFs into successful architectures, proposing three methods to do so beneficially: 1) generate AF architectures at random, 2) use Optuna, an automatic hyper-parameter optimization software framework, with a Tree-structured Parzen Estimator (TPE) sampler, and 3) use Optuna with a Covariance Matrix Adaptation Evolution Strategy (CMA-ES) sampler. We show that all methods often produce significantly better results for 25 classification problems when compared with a standard network composed of ReLU hidden units and a softmax output unit. Optuna with the TPE sampler emerged as the best AF architecture-producing method.
翻訳日:2022-06-27 12:31:24 公開日:2022-06-24
# 強化学習に基づく適応的メタヒューリスティックス

Reinforcement learning based adaptive metaheuristics ( http://arxiv.org/abs/2206.12233v1 )

ライセンス: Link先を確認
Michele Tessari, Giovanni Iacca(参考訳) パラメータ適応は、直面する問題に応じてアルゴリズムのハイパーパラメータを自動的に調整する能力であり、数値最適化に応用される進化的計算の主要なトレンドの1つである。 この問題に対処するために手作りの適応ポリシーが長年提案されてきたが、そのようなポリシーを学ぶために機械学習を適用する試みはごくわずかである。 本稿では,最先端強化学習アルゴリズムに基づく連続ドメインメタヒューリスティックスにおいてパラメータ適応を行う汎用フレームワークを提案する。 本研究では,共分散行列適応進化戦略(cma-es)と微分進化戦略(de),ステップサイズ(cma-es)の適応ポリシー,スケール係数とクロスオーバー率(de)の2つのアルゴリズムについて,このフレームワークの適用性を示す。 我々は、これらのポリシーを異なる次元の46のベンチマーク関数に訓練し、ポリシーへの様々なインプットを2つの設定(機能ごとに1つのポリシーと、すべての機能に対する1つのグローバルポリシー)で行います。 累積ステップサイズ適応 (CSA) 政策と2つのよく知られた適応型DE変種 (iDE と jDE) と比較して,我々の政策は,大半の場合,特に DE の場合において競争結果を生み出すことができる。

Parameter adaptation, that is the capability to automatically adjust an algorithm's hyperparameters depending on the problem being faced, is one of the main trends in evolutionary computation applied to numerical optimization. While several handcrafted adaptation policies have been proposed over the years to address this problem, only few attempts have been done so far at apply machine learning to learn such policies. Here, we introduce a general-purpose framework for performing parameter adaptation in continuous-domain metaheuristics based on state-of-the-art reinforcement learning algorithms. We demonstrate the applicability of this framework on two algorithms, namely Covariance Matrix Adaptation Evolution Strategies (CMA-ES) and Differential Evolution (DE), for which we learn, respectively, adaptation policies for the step-size (for CMA-ES), and the scale factor and crossover rate (for DE). We train these policies on a set of 46 benchmark functions at different dimensionalities, with various inputs to the policies, in two settings: one policy per function, and one global policy for all functions. Compared, respectively, to the Cumulative Step-size Adaptation (CSA) policy and to two well-known adaptive DE variants (iDE and jDE), our policies are able to produce competitive results in the majority of cases, especially in the case of DE.
翻訳日:2022-06-27 12:31:10 公開日:2022-06-24
# 不均衡・極小データセットを用いた短文多クラス分類のための多モデル深層学習フレームワーク

A multi-model-based deep learning framework for short text multiclass classification with the imbalanced and extremely small data set ( http://arxiv.org/abs/2206.12027v1 )

ライセンス: Link先を確認
Jiajun Tong, Zhixiao Wang, Xiaobin Rui(参考訳) テキスト分類は多くの実践的応用において重要な役割を果たしている。 現実世界では、非常に小さなデータセットがあります。 既存の手法の多くは、この種のデータセットを扱うために事前学習されたニューラルネットワークモデルを採用している。 しかし、これらの手法は、大きな出力サイズのためモバイルデバイスに展開することが難しいか、フレーズと節間の深い意味情報を完全に抽出できないかのどちらかである。 本稿では,不均衡かつ極めて小さなデータセットを持つ短文マルチクラス分類のための,マルチモデルに基づくディープラーニングフレームワークを提案する。 エンコーダ層はDISTILBERTを用いて,従来の特徴工学手法では表現が困難であった,文脈に敏感な動的単語ベクトルを得る。 この層の変圧器部分は蒸留されているので、我々の枠組みは圧縮されている。 次に、次の2つのレイヤを使って深い意味情報を抽出する。 エンコーダ層の出力は双方向のLSTMネットワークに送信され、その特徴行列は単語と文レベルでLSTMを介して階層的に抽出され、きめ細かい意味表現が得られる。 その後、マックスプール層は特徴行列を低次元行列に変換し、明らかな特徴のみを保持する。 最後に、その特徴行列を、予測線形ベクトルを各分類におけるテキストの確率として出力値に変換する関数を含む、完全に連結されたソフトマックス層の入力とする。 2つの公開ベンチマークに対する大規模な実験は、非常に小さなデータセット上で提案手法の有効性を示す。 精度,リコール,精度,F1スコアの点で最先端のベースライン性能を保ち,モデルサイズ,トレーニング時間,収束エポックを通じて,我々の手法をモバイルデバイスにより速く,軽量に展開できると結論付けることができる。

Text classification plays an important role in many practical applications. In the real world, there are extremely small datasets. Most existing methods adopt pre-trained neural network models to handle this kind of dataset. However, these methods are either difficult to deploy on mobile devices because of their large output size or cannot fully extract the deep semantic information between phrases and clauses. This paper proposes a multimodel-based deep learning framework for short-text multiclass classification with an imbalanced and extremely small data set. Our framework mainly includes five layers: The encoder layer uses DISTILBERT to obtain context-sensitive dynamic word vectors that are difficult to represent in traditional feature engineering methods. Since the transformer part of this layer is distilled, our framework is compressed. Then, we use the next two layers to extract deep semantic information. The output of the encoder layer is sent to a bidirectional LSTM network, and the feature matrix is extracted hierarchically through the LSTM at the word and sentence level to obtain the fine-grained semantic representation. After that, the max-pooling layer converts the feature matrix into a lower-dimensional matrix, preserving only the obvious features. Finally, the feature matrix is taken as the input of a fully connected softmax layer, which contains a function that can convert the predicted linear vector into the output value as the probability of the text in each classification. Extensive experiments on two public benchmarks demonstrate the effectiveness of our proposed approach on an extremely small data set. It retains the state-of-the-art baseline performance in terms of precision, recall, accuracy, and F1 score, and through the model size, training time, and convergence epoch, we can conclude that our method can be deployed faster and lighter on mobile devices.
翻訳日:2022-06-27 12:30:48 公開日:2022-06-24
# (参考訳) GEMv2: 1行のコードによる多言語NLGベンチマーク

GEMv2: Multilingual NLG Benchmarking in a Single Line of Code ( http://arxiv.org/abs/2206.11249v3 )

ライセンス: CC BY 4.0
Sebastian Gehrmann, Abhik Bhattacharjee, Abinaya Mahendiran, Alex Wang, Alexandros Papangelis, Aman Madaan, Angelina McMillan-Major, Anna Shvets, Ashish Upadhyay, Bingsheng Yao, Bryan Wilie, Chandra Bhagavatula, Chaobin You, Craig Thomson, Cristina Garbacea, Dakuo Wang, Daniel Deutsch, Deyi Xiong, Di Jin, Dimitra Gkatzia, Dragomir Radev, Elizabeth Clark, Esin Durmus, Faisal Ladhak, Filip Ginter, Genta Indra Winata, Hendrik Strobelt, Hiroaki Hayashi, Jekaterina Novikova, Jenna Kanerva, Jenny Chim, Jiawei Zhou, Jordan Clive, Joshua Maynez, Jo\~ao Sedoc, Juraj Juraska, Kaustubh Dhole, Khyathi Raghavi Chandu, Laura Perez-Beltrachini, Leonardo F. R. Ribeiro, Lewis Tunstall, Li Zhang, Mahima Pushkarna, Mathias Creutz, Michael White, Mihir Sanjay Kale, Moussa Kamal Eddine, Nico Daheim, Nishant Subramani, Ondrej Dusek, Paul Pu Liang, Pawan Sasanka Ammanamanchi, Qi Zhu, Ratish Puduppully, Reno Kriz, Rifat Shahriyar, Ronald Cardenas, Saad Mahamood, Salomey Osei, Samuel Cahyawijaya, Sanja \v{S}tajner, Sebastien Montella, Shailza, Shailza Jolly, Simon Mille, Tahmid Hasan, Tianhao Shen, Tosin Adewumi, Vikas Raunak, Vipul Raheja, Vitaly Nikolaev, Vivian Tsai, Yacine Jernite, Ying Xu, Yisi Sang, Yixin Liu, Yufang Hou(参考訳) 機械学習の評価は通常、データセットやメトリクスなど、過去の選択によって通知される。 この標準化により、リーダーボードを用いた均等な足場の比較が可能となるが、より良い選択肢が生まれるにつれて、評価選択は準最適となる。 この問題は、断定的な主張をするためにデータセット、メトリクス、人間の評価を継続的に改善する必要がある自然言語生成において特に重要となる。 モデル評価のベストプラクティスをより容易にするために、GEMv2を導入します。 新バージョンのGeneration, Evaluation, Metrics Benchmarkでは、データセット、モデル、メトリック開発者が互いに作業の恩恵を受けるためのモジュラーインフラストラクチャが導入されている。 GEMv2は51言語で40のドキュメントデータセットをサポートする。 すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。

Evaluation in machine learning is usually informed by past choices, for example which datasets or metrics to use. This standardization enables the comparison on equal footing using leaderboards, but the evaluation choices become sub-optimal as better alternatives arise. This problem is especially pertinent in natural language generation which requires ever-improving suites of datasets, metrics, and human evaluation to make definitive claims. To make following best model evaluation practices easier, we introduce GEMv2. The new version of the Generation, Evaluation, and Metrics Benchmark introduces a modular infrastructure for dataset, model, and metric developers to benefit from each others work. GEMv2 supports 40 documented datasets in 51 languages. Models for all datasets can be evaluated online and our interactive data card creation and rendering tools make it easier to add new datasets to the living benchmark.
翻訳日:2022-06-27 11:50:37 公開日:2022-06-24
# (参考訳) サイドエフェクト正規化の問題の形式化

Formalizing the Problem of Side Effect Regularization ( http://arxiv.org/abs/2206.11812v2 )

ライセンス: CC BY 4.0
Alexander Matt Turner, Aseem Saxena, Prasad Tadepalli(参考訳) aiの目的はしばしば適切な指定が難しい。 エージェントは、不完全に指定されたプロキシの目標で“どれだけ混乱させるか”を重み付ける必要があります。 補助ゲームフレームワークによる副作用正規化の形式的基準を提案する。 これらのゲームでは、エージェントは最適化すべき目的関数の不確実性を表す部分的に観測可能なマルコフ決定プロセス(POMDP)を解く。 我々は,次のステップで真の目的がエージェントに明らかにされるような設定を考える。 このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。 2つのグリッドワールド環境における地中評価を通じて問題形式化の合理的さを実証する。

AI objectives are often hard to specify properly. Some approaches tackle this problem by regularizing the AI's side effects: Agents must weigh off "how much of a mess they make" with an imperfectly specified proxy objective. We propose a formal criterion for side effect regularization via the assistance game framework. In these games, the agent solves a partially observable Markov decision process (POMDP) representing its uncertainty about the objective function it should optimize. We consider the setting where the true objective is revealed to the agent at a later time step. We show that this POMDP is solved by trading off the proxy reward with the agent's ability to achieve a range of future tasks. We empirically demonstrate the reasonableness of our problem formalization via ground-truth evaluation in two gridworld environments.
翻訳日:2022-06-27 11:23:22 公開日:2022-06-24
# (参考訳) 深層学習による気象予報による地球降水量の短期予測

Short-range forecasts of global precipitation using deep learning-augmented numerical weather prediction ( http://arxiv.org/abs/2206.11669v2 )

ライセンス: CC BY 4.0
Manmeet Singh, Vaisakh S B, Nachiketa Acharya, Suryachandra A Rao, Bipin Kumar, Zong-Liang Yang, Dev Niyogi(参考訳) 降水は地球の水気候を支配し、その日々の時空間変動は社会経済に大きな影響を与える。 数値気象予測(NWP)の進歩は、温度や圧力などの様々な物理分野の予測の改善によって測定されてきたが、降水予測には大きなバイアスが存在する。 我々は,有名なNWPモデルであるCFSv2の出力を深層学習により増強し,1日,2日,3日のリードタイムで短距離のグローバル降水量を改善するハイブリッドモデルを作成する。 本研究では,全フィールドを立方体球投影に変換するDLWP-CSアーキテクチャを用いて,大域データの球状性に対処する。 動的モデル降水と表面温度出力を改良DLWP-CS (UNET) に供給し, 地中真実降水を予測する。 cfsv2の平均バイアスは地上で+5から+7mm/日であるが、多変量ディープラーニングモデルは1から+1mm/日以内に減少する。 2005年のハリケーン・カトリーナ、2004年のハリケーン・イヴァン、2010年の中国洪水、2005年のインド洪水、2008年のミャンマーの嵐ナルジは、ハイブリッド動的深層学習モデルのスキルの大幅な向上を確認するために使用されている。 CFSv2は通常、空間パターンの適度から大きなバイアスを示し、短距離の時間スケールで降水量を過大評価する。 深層学習拡張nwpモデルは,これらのバイアスに対処し,予測降水の空間パターンと大きさを大幅に改善することができる。 深層学習の強化 CFSv2 は CFSv2 と比較して 1 日間,重要な土地領域に対する平均バイアスを 8 倍削減する。 時空間深層学習システムは,地球規模の短距離降水予測の精度と精度を高めるために経路を開く。

Precipitation governs Earth's hydroclimate, and its daily spatiotemporal fluctuations have major socioeconomic effects. Advances in Numerical weather prediction (NWP) have been measured by the improvement of forecasts for various physical fields such as temperature and pressure; however, large biases exist in precipitation prediction. We augment the output of the well-known NWP model CFSv2 with deep learning to create a hybrid model that improves short-range global precipitation at 1-, 2-, and 3-day lead times. To hybridise, we address the sphericity of the global data by using modified DLWP-CS architecture which transforms all the fields to cubed-sphere projection. Dynamical model precipitation and surface temperature outputs are fed into a modified DLWP-CS (UNET) to forecast ground truth precipitation. While CFSv2's average bias is +5 to +7 mm/day over land, the multivariate deep learning model decreases it to within -1 to +1 mm/day. Hurricane Katrina in 2005, Hurricane Ivan in 2004, China floods in 2010, India floods in 2005, and Myanmar storm Nargis in 2008 are used to confirm the substantial enhancement in the skill for the hybrid dynamical-deep learning model. CFSv2 typically shows a moderate to large bias in the spatial pattern and overestimates the precipitation at short-range time scales. The proposed deep learning augmented NWP model can address these biases and vastly improve the spatial pattern and magnitude of predicted precipitation. Deep learning enhanced CFSv2 reduces mean bias by 8x over important land regions for 1 day lead compared to CFSv2. The spatio-temporal deep learning system opens pathways to further the precision and accuracy in global short-range precipitation forecasts.
翻訳日:2022-06-27 11:04:35 公開日:2022-06-24
# ヘテロジニアスグラフニューラルネットワークにおける関係認識エネルギーの降下ステップ

Descent Steps of a Relation-Aware Energy Produce Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2206.11081v2 )

ライセンス: Link先を確認
Hongjoon Ahn, Yongyi Yang, Quan Gan, David Wipf and Taesup Moon(参考訳) 不均一グラフニューラルネットワーク(GNN)は、半教師付き学習環境においてノード分類タスクにおいて高い性能を達成する。 しかし、より単純な同種GNNの場合と同様に、メッセージパッシングに基づく異種GNNは、深層モデルで発生する過度な平滑化と、長距離依存グラフ構造データとのバランスをとるのに苦労する可能性がある。 さらに、このトレードオフの複雑さは、異なるタイプのノード間の異種不均一関係のため、異種グラフの場合において複雑になる。 これらの問題に対処するため、我々は、新しい関係認識エネルギー関数を導出する最適化ステップから層を導出する異種GNNアーキテクチャを提案する。 対応する最小化器はエネルギー関数パラメータに関して完全に微分可能であり、次の分類タスクに対して最小が最適なノード表現を提供する機能形式を効果的に学習するために二段階最適化を適用することができる。 特に,本手法では,多種多様なノード間のヘテロフィリな関係をモデル化できる。 8つの異種グラフベンチマークの実験結果から,提案手法が競合ノードの分類精度を向上できることが示された。

Heterogeneous graph neural networks (GNNs) achieve strong performance on node classification tasks in a semi-supervised learning setting. However, as in the simpler homogeneous GNN case, message-passing-based heterogeneous GNNs may struggle to balance between resisting the oversmoothing occuring in deep models and capturing long-range dependencies graph structured data. Moreover, the complexity of this trade-off is compounded in the heterogeneous graph case due to the disparate heterophily relationships between nodes of different types. To address these issues, we proposed a novel heterogeneous GNN architecture in which layers are derived from optimization steps that descend a novel relation-aware energy function. The corresponding minimizer is fully differentiable with respect to the energy function parameters, such that bilevel optimization can be applied to effectively learn a functional form whose minimum provides optimal node representations for subsequent classification tasks. In particular, this methodology allows us to model diverse heterophily relationships between different node types while avoiding oversmoothing effects. Experimental results on 8 heterogeneous graph benchmarks demonstrates that our proposed method can achieve competitive node classification accuracy.
翻訳日:2022-06-27 10:51:47 公開日:2022-06-24
# 提案マイニングと予測等化を用いたオープン語彙物体検出

Open Vocabulary Object Detection with Proposal Mining and Prediction Equalization ( http://arxiv.org/abs/2206.11134v2 )

ライセンス: Link先を確認
Peixian Chen, Kekai Sheng, Mengdan Zhang, Yunhang Shen, Ke Li, Chunhua Shen(参考訳) Open-vocabulary Object Detection (OVD)は、学習語彙以外の新しいカテゴリのオブジェクトを検出するために、語彙サイズを拡大することを目的としている。 最近の研究は、事前訓練された視覚言語モデルにおける豊富な知識に頼っている。 しかし、既存の手法は提案レベルの視覚言語アライメントでは効果がない。 一方、モデルは通常、基本カテゴリに対する信頼バイアスに苦しめられ、新しいカテゴリではパフォーマンスが悪化する。 この課題を克服するために,提案マイニングと予測等化を用いた新規かつ効果的なovdフレームワークであるmedetを提案する。 まず,提案手法を設計し,遺伝的知識を粗いものから細かいものへと改良し,提案レベルの検出指向の特徴アライメントを実現する。 第二に, 因果推論理論に基づき, 新たなカテゴリーの予測を強化し, 全体のovd性能を向上させるために, クラス毎のバックドア調整を導入する。 COCOおよびLVISベンチマークの広範囲にわたる実験は、新しいカテゴリのオブジェクト(例えば、COCOでは32.6% AP50、LVISでは22.4%マスクmAP)の検出において、MEDetが競合するアプローチよりも優れていることを検証している。

Open-vocabulary object detection (OVD) aims to scale up vocabulary size to detect objects of novel categories beyond the training vocabulary. Recent work resorts to the rich knowledge in pre-trained vision-language models. However, existing methods are ineffective in proposal-level vision-language alignment. Meanwhile, the models usually suffer from confidence bias toward base categories and perform worse on novel ones. To overcome the challenges, we present MEDet, a novel and effective OVD framework with proposal mining and prediction equalization. First, we design an online proposal mining to refine the inherited vision-semantic knowledge from coarse to fine, allowing for proposal-level detection-oriented feature alignment. Second, based on causal inference theory, we introduce a class-wise backdoor adjustment to reinforce the predictions on novel categories to improve the overall OVD performance. Extensive experiments on COCO and LVIS benchmarks verify the superiority of MEDet over the competing approaches in detecting objects of novel categories, e.g., 32.6% AP50 on COCO and 22.4% mask mAP on LVIS.
翻訳日:2022-06-27 10:51:25 公開日:2022-06-24
# 構造的クロスモーダル表現による大腸ポリープ認識に向けて

Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency ( http://arxiv.org/abs/2206.11826v2 )

ライセンス: Link先を確認
Weijie Ma, Ye Zhu, Ruimao Zhang, Jie Yang, Yiwen Hu, Zhen Li, Li Xiang(参考訳) 大腸ポリープ分類は重要な臨床検査である。 分類精度を向上させるため,ほとんどのコンピュータ支援診断アルゴリズムはNarrow-Band Imaging (NBI) を用いて大腸ポリープを認識する。 しかし、NBIは通常、White-Light (WL)画像を用いてポリプが検出された場合、この特定の画像を取得するには、手動で光モードを切り替える必要があるため、実際の臨床シナリオで利用できない。 以上のような状況を避けるため,構造的クロスモーダル表現の一貫性を生かして,正確な白目大腸内視鏡像の分類を行う新しい方法を提案する。 実際には、NBIとWLの2つのマルチモーダル画像が共有トランスフォーマーに入力され、階層的特徴表現を抽出する。 次に、クラストークンとパッチトークンの類似性を、特定のモダリティ画像のマルチレベルから計算するために、新しく設計された空間注意モジュール(SAM)を採用する。 NBIとWLのペア画像のクラストークンと空間アテンションマップを異なるレベルで整列させることで、トランスフォーマーは上記の2つのモードに対してグローバルおよび局所的な表現整合性を維持することができる。 大規模な実験結果から,提案手法は,WL画像のみを用いた分類精度を大幅に向上させつつ,単一トランスフォーマを用いたマルチモーダル予測を実現し,近年の研究よりも優れた性能を示した。

The colorectal polyps classification is a critical clinical examination. To improve the classification accuracy, most computer-aided diagnosis algorithms recognize colorectal polyps by adopting Narrow-Band Imaging (NBI). However, the NBI usually suffers from missing utilization in real clinic scenarios since the acquisition of this specific image requires manual switching of the light mode when polyps have been detected by using White-Light (WL) images. To avoid the above situation, we propose a novel method to directly achieve accurate white-light colonoscopy image classification by conducting structured cross-modal representation consistency. In practice, a pair of multi-modal images, i.e. NBI and WL, are fed into a shared Transformer to extract hierarchical feature representations. Then a novel designed Spatial Attention Module (SAM) is adopted to calculate the similarities between the class token and patch tokens %from multi-levels for a specific modality image. By aligning the class tokens and spatial attention maps of paired NBI and WL images at different levels, the Transformer achieves the ability to keep both global and local representation consistency for the above two modalities. Extensive experimental results illustrate the proposed method outperforms the recent studies with a margin, realizing multi-modal prediction with a single Transformer while greatly improving the classification accuracy when only with WL images.
翻訳日:2022-06-27 10:51:04 公開日:2022-06-24
# (参考訳) lidarmultinet:単一マルチタスクネットワークにおけるlidarセマンティクスセグメンテーション、3dオブジェクト検出、およびpanopticセグメンテーションの統合

LidarMultiNet: Unifying LiDAR Semantic Segmentation, 3D Object Detection, and Panoptic Segmentation in a Single Multi-task Network ( http://arxiv.org/abs/2206.11428v2 )

ライセンス: CC BY 4.0
Dongqiangzi Ye, Weijia Chen, Zixiang Zhou, Yufei Xie, Yu Wang, Panqu Wang and Hassan Foroosh(参考訳) 本報告では,waymo open dataset 3d semantic segmentation challenge 2022の1位入賞ソリューションを提案する。 我々のネットワークはLidarMultiNetと呼ばれ、3Dセマンティックセグメンテーション、オブジェクト検出、単眼セグメンテーションといったLiDARの主要な認識タスクを単一のフレームワークに統合する。 LidarMultiNetのコアには、強力な3Dボクセルベースのエンコーダ-デコーダネットワークがあり、そのローカル機能を補完するためにLiDARフレームからグローバルなコンテキスト特徴を抽出する新しいGCPモジュールがある。 任意の第2段階が提案され、第1段階のセグメンテーションを洗練したり、正確なパノプティクスセグメンテーション結果を生成する。 私たちのソリューションは71.13のmiouを実現し、waymo 3dセマンティックセグメンテーションテストセットの22クラスの大半で最良であり、公式のリーダーボード上の他の3dセマンティックセグメンテーションメソッドよりも優れています。 私たちは初めて、主要なLiDAR知覚タスクを、エンドツーエンドでトレーニング可能な単一の強力なネットワークに統合できることを示します。

This technical report presents the 1st place winning solution for the Waymo Open Dataset 3D semantic segmentation challenge 2022. Our network, termed LidarMultiNet, unifies the major LiDAR perception tasks such as 3D semantic segmentation, object detection, and panoptic segmentation in a single framework. At the core of LidarMultiNet is a strong 3D voxel-based encoder-decoder network with a novel Global Context Pooling (GCP) module extracting global contextual features from a LiDAR frame to complement its local features. An optional second stage is proposed to refine the first-stage segmentation or generate accurate panoptic segmentation results. Our solution achieves a mIoU of 71.13 and is the best for most of the 22 classes on the Waymo 3D semantic segmentation test set, outperforming all the other 3D semantic segmentation methods on the official leaderboard. We demonstrate for the first time that major LiDAR perception tasks can be unified in a single strong network that can be trained end-to-end.
翻訳日:2022-06-27 09:31:46 公開日:2022-06-24
# (参考訳) 重み付き連結ドミネートセットによるUAV画像の運動からの並列構造

Parallel Structure from Motion for UAV Images via Weighted Connected Dominating Set ( http://arxiv.org/abs/2206.11499v2 )

ライセンス: CC BY 4.0
San Jiang, Qingquan Li, Wanshou Jiang, Wu Chen(参考訳) 運動からのインクリメンタル構造 (ISfM) は、UAV画像の向き付けに広く用いられている。 しかし、その効率は連続的な制約のために劇的に低下する。 分割・分割戦略は効率改善に利用されてきたが、クラスタマージは困難か、あるいは真剣に設計されたオーバーラップ構造に依存している。 本稿では,クラスタマージのための大域的モデルを抽出し,効率よく正確なUAV画像配向を実現するために並列SfMソリューションを設計するアルゴリズムを提案する。 まず、語彙木検索に基づいてマッチペアを選択し、特徴マッチングの数と分布の両方を考慮してエッジ重みを計算した非指向重み付きマッチグラフを構築する。 第2に、マッチグラフの簡略化と、グラフノード選択におけるエッジ重みを組み込んだグローバルモデルの構築を実現するために、重み付き連結支配集合(wcds)と呼ばれるアルゴリズムが設計されている。 第3に、マッチグラフは同時にコンパクトクラスタと非オーバーラップクラスタに分割される。 並列再構築後、グローバルモデルとクラスタモデルの間の共通の3dポイントの助けを借りてクラスタマージを行う。 最後に,古典斜めの3つのUAVデータセットと近年最適化されたビュー・フォトグラム法を用いて,包括的解析と比較により提案手法の有効性を検証する。 実験の結果,提案する並列sfmは17.4倍の効率向上と配向精度を両立できることがわかった。 絶対baでは、地理参照精度は水平方向と垂直方向のgsd値の約2.0倍と3.0倍である。 並列SfMの場合、提案手法はより信頼性の高い代替手段である。

Incremental Structure from Motion (ISfM) has been widely used for UAV image orientation. Its efficiency, however, decreases dramatically due to the sequential constraint. Although the divide-and-conquer strategy has been utilized for efficiency improvement, cluster merging becomes difficult or depends on seriously designed overlap structures. This paper proposes an algorithm to extract the global model for cluster merging and designs a parallel SfM solution to achieve efficient and accurate UAV image orientation. First, based on vocabulary tree retrieval, match pairs are selected to construct an undirected weighted match graph, whose edge weights are calculated by considering both the number and distribution of feature matches. Second, an algorithm, termed weighted connected dominating set (WCDS), is designed to achieve the simplification of the match graph and build the global model, which incorporates the edge weight in the graph node selection and enables the successful reconstruction of the global model. Third, the match graph is simultaneously divided into compact and non-overlapped clusters. After the parallel reconstruction, cluster merging is conducted with the aid of common 3D points between the global and cluster models. Finally, by using three UAV datasets that are captured by classical oblique and recent optimized views photogrammetry, the validation of the proposed solution is verified through comprehensive analysis and comparison. The experimental results demonstrate that the proposed parallel SfM can achieve 17.4 times efficiency improvement and comparative orientation accuracy. In absolute BA, the geo-referencing accuracy is approximately 2.0 and 3.0 times the GSD (Ground Sampling Distance) value in the horizontal and vertical directions, respectively. For parallel SfM, the proposed solution is a more reliable alternative.
翻訳日:2022-06-27 09:17:33 公開日:2022-06-24
# 帰納的共形予測: pythonの例で簡単に紹介する

Inductive Conformal Prediction: A Straightforward Introduction with Examples in Python ( http://arxiv.org/abs/2206.11810v2 )

ライセンス: Link先を確認
Martim Sousa(参考訳) Inductive Conformal Prediction (ICP) は、ユーザ定義の信頼性とカバレッジを保証するために考案された、分布のないモデルに依存しないアルゴリズムのセットである。 点予測、すなわち回帰の場合の実数や多重クラス分類の単一クラスではなく、ICPを用いてキャリブレーションされたモデルはそれぞれインターバルまたはクラスのセットを出力する。 ICPは、真の出力が高い確率で設定された予測セットに属することを望む高リスク設定において特に重要である。 例えば、分類モデルは、患者が報告すべき潜在疾患を持たない磁気共鳴画像が与えられたときに出力する。 しかし、このモデルの結果は最も可能性の高いクラスに基づいており、2番目に可能性の高いクラスは、脳腫瘍やその他の重篤な疾患の確率が15%であることを示し、さらなる検査を行うべきである。 したがって、ICPの使用はより情報的であり、予測作成の標準的な方法であるべきだと考えています。 本論文は,その理論を紹介する際に,実例を提示するものである。

Inductive Conformal Prediction (ICP) is a set of distribution-free and model agnostic algorithms devised to predict with a user-defined confidence with coverage guarantee. Instead of having point predictions, i.e., a real number in the case of regression or a single class in multi class classification, models calibrated using ICP output an interval or a set of classes, respectively. ICP takes special importance in high-risk settings where we want the true output to belong to the prediction set with high probability. As an example, a classification model might output that given a magnetic resonance image a patient has no latent diseases to report. However, this model output was based on the most likely class, the second most likely class might tell that the patient has a 15% chance of brain tumor or other severe disease and therefore further exams should be conducted. Using ICP is therefore way more informative and we believe that should be the standard way of producing forecasts. This paper is a hands-on introduction, this means that we will provide examples as we introduce the theory.
翻訳日:2022-06-27 09:14:33 公開日:2022-06-24
# 条件付き拡散生成のためのエントロピー駆動サンプリングとトレーニング手法

Entropy-driven Sampling and Training Scheme for Conditional Diffusion Generation ( http://arxiv.org/abs/2206.11474v2 )

ライセンス: Link先を確認
Shengming Li, Guangcong Zheng, Hui Wang, Taiping Yao, Yang Chen, Shoudong Ding, Xi Li(参考訳) Denoising Diffusion Probabilistic Model (DDPM) は、独立ノイズ認識分類器を導入し、デノナイズプロセスの各段階で条件勾配ガイダンスを提供することにより、事前ノイズから実データへのフレキシブルな条件画像生成を可能にする。 しかし、分類器が不完全生成画像を高レベル構造のみで容易に判別できるため、クラス情報指導の一種である勾配は早期に消失する傾向にあり、条件生成プロセスから無条件プロセスへの崩壊に繋がる。 この問題に対処するために,2つの観点から,単純だが効果的なアプローチを提案する。 サンプリング手順では,予測分布のエントロピーをガイダンスの消失レベルとして導入し,条件付きセマンティックガイダンスを適応的に復元するエントロピー対応スケーリング手法を提案する。 imagenet1000 256x256では,提案するサンプリングスキームと訓練された分類器を用いて,プリトレーニング条件付きddpmモデルがそれぞれ10.89% (4.59から4.09) と43.5% (12から6.78) のfid改善を達成できる。

Denoising Diffusion Probabilistic Model (DDPM) is able to make flexible conditional image generation from prior noise to real data, by introducing an independent noise-aware classifier to provide conditional gradient guidance at each time step of denoising process. However, due to the ability of classifier to easily discriminate an incompletely generated image only with high-level structure, the gradient, which is a kind of class information guidance, tends to vanish early, leading to the collapse from conditional generation process into the unconditional process. To address this problem, we propose two simple but effective approaches from two perspectives. For sampling procedure, we introduce the entropy of predicted distribution as the measure of guidance vanishing level and propose an entropy-aware scaling method to adaptively recover the conditional semantic guidance. For training stage, we propose the entropy-aware optimization objectives to alleviate the overconfident prediction for noisy data.On ImageNet1000 256x256, with our proposed sampling scheme and trained classifier, the pretrained conditional and unconditional DDPM model can achieve 10.89% (4.59 to 4.09) and 43.5% (12 to 6.78) FID improvement respectively.
翻訳日:2022-06-27 09:14:14 公開日:2022-06-24