このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220715となっている論文です。

PDF登録状況(公開日: 20220715)

TitleAuthorsAbstract論文公表日・翻訳日
# Transform-o-meter:イノベーションの変革的影響を予測する方法

The Transform-o-meter: A method to forecast the transformative impact of innovation ( http://arxiv.org/abs/2208.04711v1 )

ライセンス: Link先を確認
Hector G. T. Torres(参考訳) トランスフォーマティブ・人工知能(Transformative Artificial Intelligence)の出現により、イノベーションの変革的影響やポテンシャルを計測し、予測できることがこれまで以上に重要になった。 しかし、現在の手法はこの課題に直面すると不足する。 本稿では,上述の目標を達成するための手法であるtransform-o-meterについて紹介する。 この方法は、前述の目的に効果的に利用することができるが、第1のアプローチとして、反復し、研究し、さらに拡張すべきである。

With the advent of Transformative Artificial Intelligence, it is now more important than ever to be able to both measure and forecast the transformative impact/potential of innovation. However, current methods fall short when faced with this task. This paper introduces the Transform-o-meter; a methodology that can be used to achieve the aforementioned goal, and be applied to any innovation, both material and immaterial. While this method can effectively be used for the mentioned purpose, it should be taken as a first approach; to be iterated, researched, and expanded further upon.
翻訳日:2022-08-14 18:23:25 公開日:2022-07-15
# 単一航空機からコミュニティへ:航空交通複雑性ダイナミクスの中立的解釈

From Single Aircraft to Communities: A Neutral Interpretation of Air Traffic Complexity Dynamics ( http://arxiv.org/abs/2208.01740v1 )

ライセンス: Link先を確認
Ralvi Isufaj, Marsel Omeri, Miquel Angel Piera, Jaume Saez Valls, Christian Eduardo Verdonk Gallego(参考訳) ATMの異なる管理層の利害を考慮し、現在の航空交通量メトリクスを定義する。 これらの層は異なる目的を持ち、実際には自身の目標を最大化するために競い合い、分断された意思決定につながる。 この断片化と競合するKPAは、説明可能な一連の行動の道を開くために透明で中立な航空交通情報を必要とする。 本稿では,航空交通の全体的な複雑さに対する各航空機の貢献を判断するために,単航空機の複雑性の概念を紹介する。 さらに、この概念を拡張して、ある空域における複雑性の大部分を寄与する相互依存型航空機のグループである複素コミュニティを定義する手法について述べる。 この方法論を紹介するために,アルゴリズムの出力を視覚化するツールを開発した。 合成および実際の履歴トラフィックに基づくユースケースを通じて、まず、このアルゴリズムがコントローラ決定を形式化し、コントローラをより良い決定に導くのに役立つことを示す。 さらに,提案する情報を用いて,異なる空域利用者に対する意思決定者の透明性を高めることにより,公平性と公平性を高めることができるかを検討する。 最後に、各入力が方法論にどのように影響するかを体系的に分析するために感度分析を行う。

Present air traffic complexity metrics are defined considering the interests of different management layers of ATM. These layers have different objectives which in practice compete to maximize their own goals, which leads to fragmented decision making. This fragmentation together with competing KPAs requires transparent and neutral air traffic information to pave the way for an explainable set of actions. In this paper, we introduce the concept of single aircraft complexity, to determine the contribution of each aircraft to the overall complexity of air traffic. Furthermore, we describe a methodology extending this concept to define complex communities, which are groups of interdependent aircraft that contribute the majority of the complexity in a certain airspace. In order to showcase the methodology, a tool that visualizes different outputs of the algorithm is developed. Through use-cases based on synthetic and real historical traffic, we first show that the algorithm can serve to formalize controller decisions as well as guide controllers to better decisions. Further, we investigate how the provided information can be used to increase transparency of the decision makers towards different airspace users, which serves also to increase fairness and equity. Lastly, a sensitivity analysis is conducted in order to systematically analyse how each input affects the methodology.
翻訳日:2022-08-07 14:32:15 公開日:2022-07-15
# NFDLM:IoTドメインにおけるDDoS攻撃検出のための軽量ネットワークフローに基づくディープラーニングモデル

NFDLM: A Lightweight Network Flow based Deep Learning Model for DDoS Attack Detection in IoT Domains ( http://arxiv.org/abs/2207.10803v1 )

ライセンス: Link先を確認
Kumar Saurabh, Tanuj Kumar, Uphar Singh, O.P. Vyas, Rahamatullah Khondoker(参考訳) 近年,モノのインターネット(IoT)デバイスに対するDDoS(Distributed Denial of Service)攻撃は,世界中のインターネットユーザにとって大きな関心事のひとつとなっている。 IoTエコシステムに対する攻撃の源泉の1つはボットネットである。 侵入者は、短時間で大量のメッセージを送信することによって、IoTデバイスを正当なユーザでは利用できないように強制する。 本研究では,Long Short Term Memory (LSTM) やSimple ANNと比較して優れた結果をもたらす特徴選択法として,相互相関性を備えた軽量で最適化されたニューラルネットワーク(ANN)に基づく分散攻撃検出フレームワークであるNFDLMを提案する。 全体として、ボットネットからの攻撃検出の精度は約99%である。 本研究では,ANNをベースとした4つのモデルと,LSTMをベースとしたDDoSの攻撃タイプを検出する4つのモデルの設計と比較を行った。

In the recent years, Distributed Denial of Service (DDoS) attacks on Internet of Things (IoT) devices have become one of the prime concerns to Internet users around the world. One of the sources of the attacks on IoT ecosystems are botnets. Intruders force IoT devices to become unavailable for its legitimate users by sending large number of messages within a short interval. This study proposes NFDLM, a lightweight and optimised Artificial Neural Network (ANN) based Distributed Denial of Services (DDoS) attack detection framework with mutual correlation as feature selection method which produces a superior result when compared with Long Short Term Memory (LSTM) and simple ANN. Overall, the detection performance achieves approximately 99\% accuracy for the detection of attacks from botnets. In this work, we have designed and compared four different models where two are based on ANN and the other two are based on LSTM to detect the attack types of DDoS.
翻訳日:2022-07-31 14:32:48 公開日:2022-07-15
# Flow Moods:Deezerで音楽のリコメンデーションを行う

Flow Moods: Recommending Music by Moods on Deezer ( http://arxiv.org/abs/2207.11229v1 )

ライセンス: Link先を確認
Th\'eo Bontempelli and Benjamin Chapus and Fran\c{c}ois Rigaud and Mathieu Morlon and Marin Lorant and Guillaume Salha-Galvan(参考訳) 音楽ストリーミングサービスのDeezerは、楽曲のパーソナライズされたラジオスタイルのプレイリストを生成するFlowアルゴリズムに大きく依存している。 しかし、過去数年間の有望な結果にもかかわらず、Flowはリコメンデーションを提供する際にユーザーの気分を無視していた。 本稿では,この制限に対処するフローの改良版であるFlow Moodsを紹介する。 flow moodsは、プロの音楽キュレーターによる協調フィルタリング、オーディオコンテンツ分析、ムードアノテーションを活用して、大規模にパーソナライズされたムード固有のプレイリストを生成する。 私たちはこのシステムのモチベーション、開発、デプロイについてDeezerで詳しく説明します。 2021年にリリースされて以来、flow moodsは毎日何百万というユーザーに音楽のムードを推奨してきた。

The music streaming service Deezer extensively relies on its Flow algorithm, which generates personalized radio-style playlists of songs, to help users discover musical content. Nonetheless, despite promising results over the past years, Flow used to ignore the moods of users when providing recommendations. In this paper, we present Flow Moods, an improved version of Flow that addresses this limitation. Flow Moods leverages collaborative filtering, audio content analysis, and mood annotations from professional music curators to generate personalized mood-specific playlists at scale. We detail the motivations, the development, and the deployment of this system on Deezer. Since its release in 2021, Flow Moods has been recommending music by moods to millions of users every day.
翻訳日:2022-07-31 14:32:18 公開日:2022-07-15
# 医用画像のフェデレーション学習における毒殺の抑制

Suppressing Poisoning Attacks on Federated Learning for Medical Imaging ( http://arxiv.org/abs/2207.10804v1 )

ライセンス: Link先を確認
Naif Alkhunaizi, Dmitry Kamzolov, Martin Tak\'a\v{c}, Karthik Nandakumar(参考訳) 複数のデータ所有エンティティ(例えば病院)間のコラボレーションは、トレーニングプロセスを加速し、データの可用性と多様性のために機械学習モデルを改善する。 しかし、プライバシーの懸念は機密性を維持しながらデータ交換を困難にしている。 Federated Learning(FL)は、生のデータの代わりにモデルパラメータの交換を通じて協調的なトレーニングを可能にする有望なソリューションである。 しかし、既存のFLソリューションのほとんどは、参加するクライアントが \emph{honest} であると仮定して動作するため、グローバルモデルのパフォーマンスを低下させることを目標とする悪意のある当事者による攻撃に対して失敗する可能性がある。 本研究では,ビザンチンの故障に対して弾力性のある距離ベースアウトリアー抑制(dos)と呼ばれるロバストなアグリゲーションルールを提案する。 提案手法は,異なるクライアントのローカルパラメータ更新間の距離を計算し,Copula-based Outlier Detection (COPOD) を用いて各クライアントの出力スコアを求める。 得られた外れ値スコアをソフトマックス関数を用いて正規化重みに変換し、グローバルモデルを更新するために局所パラメータの重み付け平均を用いる。 dosアグリゲーションは、データ分散が異種であっても、ハイパーパラメータの選択を必要とせずに、悪意のあるクライアントからのパラメータ更新を効果的に抑制することができる。 2つの医用画像データセット(CheXpertとHAM10000)の評価は、他の最先端の方法と比較してDOS法が様々な中毒攻撃に対して高い堅牢性を示す。 コードはhttps://github.com/Naiftt/SPAFDで見ることができる。

Collaboration among multiple data-owning entities (e.g., hospitals) can accelerate the training process and yield better machine learning models due to the availability and diversity of data. However, privacy concerns make it challenging to exchange data while preserving confidentiality. Federated Learning (FL) is a promising solution that enables collaborative training through exchange of model parameters instead of raw data. However, most existing FL solutions work under the assumption that participating clients are \emph{honest} and thus can fail against poisoning attacks from malicious parties, whose goal is to deteriorate the global model performance. In this work, we propose a robust aggregation rule called Distance-based Outlier Suppression (DOS) that is resilient to byzantine failures. The proposed method computes the distance between local parameter updates of different clients and obtains an outlier score for each client using Copula-based Outlier Detection (COPOD). The resulting outlier scores are converted into normalized weights using a softmax function, and a weighted average of the local parameters is used for updating the global model. DOS aggregation can effectively suppress parameter updates from malicious clients without the need for any hyperparameter selection, even when the data distributions are heterogeneous. Evaluation on two medical imaging datasets (CheXpert and HAM10000) demonstrates the higher robustness of DOS method against a variety of poisoning attacks in comparison to other state-of-the-art methods. The code can be found here https://github.com/Naiftt/SPAFD.
翻訳日:2022-07-31 14:31:30 公開日:2022-07-15
# PowerFDNet:AC-モデル伝送システムにおける深層学習に基づく定常Falthyデータインジェクション検出

PowerFDNet: Deep Learning-Based Stealthy False Data Injection Attack Detection for AC-model Transmission Systems ( http://arxiv.org/abs/2207.10805v1 )

ライセンス: Link先を確認
Xuefei Yin, Yanming Zhu, Yi Xie, Jiankun Hu(参考訳) 最近の研究では、SFDIAsは残差に基づく悪いデータ検出メカニズムを回避できるため、スマートグリッドはステルス偽データインジェクション攻撃(SFDIA)に弱いことが示されている。 SFDIA検出はスマートグリッド研究の焦点の一つとなっている。 深層学習技術に基づく手法は,SFDIAの検出において有望な精度を示した。 しかし、既存の手法のほとんどは、一連の測定の時間構造に依存しているが、バスと送電線の間の空間構造は考慮していない。 そこで本研究では,交流モデル電力網におけるsfdia検出のための時空間深層ネットワークpowerfdnetを提案する。 powerfdnetはspatial architecture (sa)とtemporal architecture (ta)の2つのサブアーキテクチャで構成されている。 SAは,バス・ライン計測の表現を抽出し,その表現に基づいて空間構造をモデル化することを目的としている。 TAは、一連の測定の時間構造をモデル化することを目的としている。 したがって,提案するpowerfdnetは,計測の時空間構造を効果的にモデル化することができる。 ベンチマークスマートグリッド上でSFDIAを検出するケーススタディでは、PowerFDNetは最先端のSFDIA検出方法と比較して大幅に改善された。 さらに、サイズ52MBのIoT指向の軽量プロトタイプがモバイルデバイス向けに実装され、テストされている。 トレーニングされたモデルは、textit{https://github.com/FrankYinXF/PowerFDNet}で利用できる。

Recent studies have demonstrated that smart grids are vulnerable to stealthy false data injection attacks (SFDIAs), as SFDIAs can bypass residual-based bad data detection mechanisms. The SFDIA detection has become one of the focuses of smart grid research. Methods based on deep learning technology have shown promising accuracy in the detection of SFDIAs. However, most existing methods rely on the temporal structure of a sequence of measurements but do not take account of the spatial structure between buses and transmission lines. To address this issue, we propose a spatiotemporal deep network, PowerFDNet, for the SFDIA detection in AC-model power grids. The PowerFDNet consists of two sub-architectures: spatial architecture (SA) and temporal architecture (TA). The SA is aimed at extracting representations of bus/line measurements and modeling the spatial structure based on their representations. The TA is aimed at modeling the temporal structure of a sequence of measurements. Therefore, the proposed PowerFDNet can effectively model the spatiotemporal structure of measurements. Case studies on the detection of SFDIAs on the benchmark smart grids show that the PowerFDNet achieved significant improvement compared with the state-of-the-art SFDIA detection methods. In addition, an IoT-oriented lightweight prototype of size 52 MB is implemented and tested for mobile devices, which demonstrates the potential applications on mobile devices. The trained model will be available at \textit{https://github.com/FrankYinXF/PowerFDNet}.
翻訳日:2022-07-31 14:26:36 公開日:2022-07-15
# WordSig: プラットフォームに依存しない自己識別を可能にするQRストリーム

WordSig: QR streams enabling platform-independent self-identification that's impossible to deepfake ( http://arxiv.org/abs/2207.10806v1 )

ライセンス: Link先を確認
Andrew Critch(参考訳) ディープフェイクは、リーダー、当局、さらには友人からのビデオコンテンツを信頼する能力を制限することで、社会の質を損なうことができる。 暗号化されたセキュアなデジタル署名は、ビデオストリーミングプラットフォームによってコンテンツの推奨に使用されるが、これらの署名はビデオの参加者ではなくコンテンツ配信者によって適用される。 wordsigは、ビデオ参加者が話す言葉をqrコードストリームを使ってデジタル署名し、視聴者がビデオ間の署名の一貫性を検証するためのシンプルなプロトコルである。 これにより、コンテンツ配信者によって仲介されない視聴者と参加者との間の信頼された接続を確立することができる。 ハイパーリンクや予防接種記録の配布にQRコードが広く採用されていること、2022年以降の有名ディープフェイクの普及を考えると、公共の人々がQRベースのセルフ認証ツールの使用と普及を始めるのに良いタイミングである。

Deepfakes can degrade the fabric of society by limiting our ability to trust video content from leaders, authorities, and even friends. Cryptographically secure digital signatures may be used by video streaming platforms to endorse content, but these signatures are applied by the content distributor rather than the participants in the video. We introduce WordSig, a simple protocol allowing video participants to digitally sign the words they speak using a stream of QR codes, and allowing viewers to verify the consistency of signatures across videos. This allows establishing a trusted connection between the viewer and the participant that is not mediated by the content distributor. Given the widespread adoption of QR codes for distributing hyperlinks and vaccination records, and the increasing prevalence of celebrity deepfakes, 2022 or later may be a good time for public figures to begin using and promoting QR-based self-authentication tools.
翻訳日:2022-07-31 14:25:11 公開日:2022-07-15
# vtrackit: インフラストラクチャと車両情報プールを備えた合成自動運転データセット

VTrackIt: A Synthetic Self-Driving Dataset with Infrastructure and Pooled Vehicle Information ( http://arxiv.org/abs/2207.11146v1 )

ライセンス: Link先を確認
Mayuresh Savargaonkar and Abdallah Chehade(参考訳) 自律走行車(AV)のための人工知能ソリューションは、Argoverse、ApolloScape、Level5、NuScenesなどの公開データセットを使用して開発されている。 これらのデータセットの大きな制限の1つは、車線タイプ、車速、交通標識、交差点などのインフラストラクチャーおよび/またはプールされた車両情報がないことである。 このような情報は必要であり、リスクの高いエッジケースを排除するために補完するものではない。 車両・車間構造と車両・車間構造技術の急速な進歩は、インフラとプールされた車両情報がほぼリアルタイムでアクセスできるようになることを約束している。 将来的には、インテリジェントなインフラストラクチャとプールされた車両情報を備えた、初めての総合的な合成データセットを導入して、次世代のAV(VTrackIt)を前進させる。 また、そのような情報を考慮した軌道予測のための最初の深層学習モデル(InfraGAN)を導入する。 InfraGANを用いた実験により、VTrackItが提供する包括的情報により、リスクの高いエッジケースの数が減少することが示された。 VTrackItデータセットは、Creative Commons CC BY-NC-SA 4.0ライセンスの下で、http://vtrackit.irda.club.comで提供されている。

Artificial intelligence solutions for Autonomous Vehicles (AVs) have been developed using publicly available datasets such as Argoverse, ApolloScape, Level5, and NuScenes. One major limitation of these datasets is the absence of infrastructure and/or pooled vehicle information like lane line type, vehicle speed, traffic signs, and intersections. Such information is necessary and not complementary to eliminating high-risk edge cases. The rapid advancements in Vehicle-to-Infrastructure and Vehicle-to-Vehicle technologies show promise that infrastructure and pooled vehicle information will soon be accessible in near real-time. Taking a leap in the future, we introduce the first comprehensive synthetic dataset with intelligent infrastructure and pooled vehicle information for advancing the next generation of AVs, named VTrackIt. We also introduce the first deep learning model (InfraGAN) for trajectory predictions that considers such information. Our experiments with InfraGAN show that the comprehensive information offered by VTrackIt reduces the number of high-risk edge cases. The VTrackIt dataset is available upon request under the Creative Commons CC BY-NC-SA 4.0 license at http://vtrackit.irda.club.
翻訳日:2022-07-31 14:20:21 公開日:2022-07-15
# トラベルセールスマン問題の強化lin-kernighan-helsgaunアルゴリズム

Reinforced Lin-Kernighan-Helsgaun Algorithms for the Traveling Salesman Problems ( http://arxiv.org/abs/2207.03876v1 )

ライセンス: Link先を確認
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-Min Li(参考訳) TSPは、多くの実用的な変種を持つ古典的なNPハード組合せ最適化問題である。 LKHはTSPの最先端のローカル検索アルゴリズムの1つである。 LKH-3は、多くのTSP変異を解くことができるLKHの強力な拡張である。 LKHとLKH-3はどちらも、効率を向上させるために各都市に設定された候補を関連付け、候補を決定するために$\alpha$-measureとPOPMUSICの2つの異なる方法を持つ。 本稿では,TSPのための3つの強化学習手法(Q-learning, Sarsa, Monte Carlo)を組み込んだ可変戦略強化LKH(VSR-LKH)アルゴリズムを提案する。 さらに,時間窓付きTSP (TSPTW) や有色TSP (CTSP) を含む典型的なTSP変種に対して,可変戦略強化学習法とLKH-3を併用した VSR-LKH-3 という新しいアルゴリズムを提案する。 提案手法は,lkh と lkh-3 の非フレキシブルトラバーサル演算を置換し,強化学習により各探索ステップで選択するアルゴリズムを学習させる。 LKH と LKH-3 はともに$\alpha$-measure または POPMUSIC のどちらでも,本法により有意に改善できる。 最大85,900都市で広く利用されている236のTSPベンチマークに対する大規模な実験は、VSR-LKHの優れた性能を示している。 VSR-LKH-3は、TSPTWとCTSPの最先端のヒューリスティックよりも大幅に優れている。

TSP is a classical NP-hard combinatorial optimization problem with many practical variants. LKH is one of the state-of-the-art local search algorithms for the TSP. LKH-3 is a powerful extension of LKH that can solve many TSP variants. Both LKH and LKH-3 associate a candidate set to each city to improve the efficiency, and have two different methods, $\alpha$-measure and POPMUSIC, to decide the candidate sets. In this work, we first propose a Variable Strategy Reinforced LKH (VSR-LKH) algorithm, which incorporates three reinforcement learning methods (Q-learning, Sarsa, Monte Carlo) with LKH, for the TSP. We further propose a new algorithm called VSR-LKH-3 that combines the variable strategy reinforcement learning method with LKH-3 for typical TSP variants, including the TSP with time windows (TSPTW) and Colored TSP (CTSP). The proposed algorithms replace the inflexible traversal operations in LKH and LKH-3 and let the algorithms learn to make a choice at each search step by reinforcement learning. Both LKH and LKH-3, with either $\alpha$-measure or POPMUSIC, can be significantly improved by our methods. Extensive experiments on 236 widely-used TSP benchmarks with up to 85,900 cities demonstrate the excellent performance of VSR-LKH. VSR-LKH-3 also significantly outperforms the state-of-the-art heuristics for TSPTW and CTSP.
翻訳日:2022-07-24 11:40:50 公開日:2022-07-15
# 自然言語による業務自動化のオーサリングのためのノーコードローコードパラダイム

A No-Code Low-Code Paradigm for Authoring Business Automations Using Natural Language ( http://arxiv.org/abs/2207.10648v1 )

ライセンス: Link先を確認
Michael Desmond, Evelyn Duesterwald, Vatche Isahagian, Vinod Muthusamy(参考訳) ほとんどのビジネスプロセス自動化はまだワークフローエンジンのような従来の自動化技術を使って開発されています。 これらのシステムはビジネス知識とプログラミングスキルの両方を効果的に利用するドメイン固有言語を提供します。 そのため、ビジネスユーザーはこれらのコード指向環境を完全に活用する十分なプログラミングスキルを欠いていることが多い。 自然言語を用いたビジネスオートメーション構築のためのパラダイムを提案する。 このアプローチは、自然言語で記述されたビジネスルールと自動化を、ビジネスルールエンジンによって解釈可能なドメイン固有言語に変換するために、大きな言語モデルを適用する。 我々は,様々な対象領域における各種言語モデル構成の性能を比較し,制約付き復号法を用いて構文的に正しい出力を生成することを検討する。

Most business process automation is still developed using traditional automation technologies such as workflow engines. These systems provide domain specific languages that require both business knowledge and programming skills to effectively use. As such, business users often lack adequate programming skills to fully leverage these code oriented environments. We propose a paradigm for the construction of business automations using natural language. The approach applies a large language model to translate business rules and automations described in natural language, into a domain specific language interpretable by a business rule engine. We compare the performance of various language model configurations, across various target domains, and explore the use of constrained decoding to ensure syntactically correct generation of output.
翻訳日:2022-07-24 11:40:17 公開日:2022-07-15
# IDET:高品質変化検出のための反復差分変換器

IDET: Iterative Difference-Enhanced Transformers for High-Quality Change Detection ( http://arxiv.org/abs/2207.09240v1 )

ライセンス: Link先を確認
Rui Huang, Ruofei Wang, Qing Guo, Yuxiang Zhang, Wei Fan(参考訳) 変更検出(cd)は、異なるタイミングでキャプチャされた画像ペア内の変更領域を検出することを目的としている。 それでも既存の作業の多くは、特徴差の質の影響を無視しながら、特徴差を最終変更マップにマッピングする高度なネットワークアーキテクチャの設計に重点を置いている。 本稿では,特徴差を最適化して変化を強調し,変化領域を抑圧する方法という新しい視点からcdを考察し,反復差分強調トランスフォーマ(idet)と呼ばれる新しいモジュールを提案する。 IDETは、2つの画像の長距離情報を抽出する2つの変換器と、特徴差を増強する1つの変換器を含む。 従来の変圧器とは対照的に、第3変圧器は第1の2つの変圧器の出力を受け取り、特徴差を反復的に向上させる。 さらに,複数の特徴差分補正のために画像のマルチスケール表現を用いたマルチスケールIDETに基づく変更検出を提案し,全ての改良を組み合わせた粗大な融合戦略を提案する。 最後のCD法は, 多様なアプリケーションシナリオ下で6つの大規模データセットに対して, 特徴差の増大とIDETの有効性を示す7つの最先端手法より優れている。

Change detection (CD) aims to detect change regions within an image pair captured at different times, playing a significant role for diverse real-world applications. Nevertheless, most of existing works focus on designing advanced network architectures to map the feature difference to the final change map while ignoring the influence of the quality of the feature difference. In this paper, we study the CD from a new perspective, i.e., how to optimize the feature difference to highlight changes and suppress unchanged regions, and propose a novel module denoted as iterative difference-enhanced transformers (IDET). IDET contains three transformers: two transformers for extracting the long-range information of the two images and one transformer for enhancing the feature difference. In contrast to the previous transformers, the third transformer takes the outputs of the first two transformers to guide the enhancement of the feature difference iteratively. To achieve more effective refinement, we further propose the multi-scale IDET-based change detection that uses multi-scale representations of the images for multiple feature difference refinements and proposes a coarse-to-fine fusion strategy to combine all refinements. Our final CD method outperforms seven state-of-the-art methods on six large-scale datasets under diverse application scenarios, which demonstrates the importance of feature difference enhancements and the effectiveness of IDET.
翻訳日:2022-07-20 14:02:22 公開日:2022-07-15
# ReLUニューラルネットワークの線形領域の組合せ構造のアルゴリズムによる決定

Algorithmic Determination of the Combinatorial Structure of the Linear Regions of ReLU Neural Networks ( http://arxiv.org/abs/2207.07696v1 )

ライセンス: Link先を確認
Marissa Masden(参考訳) reluネットワークがその入力空間を分解する普遍対象である正準多面体錯体のすべての次元の領域とファセットをアルゴリズム的に決定する。 正準多面体複合体の頂点の位置とそれらの記号が層マップに対して全次元にわたってフルフェイス構造を決定することを示す。 本稿では,この完全組合せ構造を計算したアルゴリズムを提案する。この定理を用いて,正準多面体錯体に対する双対錯体は立方体であり,そのファセット構造と相反する乗法を持つ。 得られたアルゴリズムは、中間ニューロン数の多項式時間で数値的に安定であり、すべての次元にわたって正確な情報を得る。 これにより、例えば、低次元の入力を持つネットワークの決定境界の真のトポロジーを得ることができる。 初期化時にそのようなネットワーク上で経験則を実行し、幅だけは観測トポロジーを増加させるのではなく、深さの存在下で幅を増加させることを発見した。 アルゴリズムのソースコードはhttps://github.com/mmasden/canonicalpoly.comからアクセスできます。

We algorithmically determine the regions and facets of all dimensions of the canonical polyhedral complex, the universal object into which a ReLU network decomposes its input space. We show that the locations of the vertices of the canonical polyhedral complex along with their signs with respect to layer maps determine the full facet structure across all dimensions. We present an algorithm which calculates this full combinatorial structure, making use of our theorems that the dual complex to the canonical polyhedral complex is cubical and it possesses a multiplication compatible with its facet structure. The resulting algorithm is numerically stable, polynomial time in the number of intermediate neurons, and obtains accurate information across all dimensions. This permits us to obtain, for example, the true topology of the decision boundaries of networks with low-dimensional inputs. We run empirics on such networks at initialization, finding that width alone does not increase observed topology, but width in the presence of depth does. Source code for our algorithms is accessible online at https://github.com/mmasden/canonicalpoly.
翻訳日:2022-07-20 07:50:58 公開日:2022-07-15
# 画像超解法の品質評価:決定性と統計的忠実性のバランス

Quality Assessment of Image Super-Resolution: Balancing Deterministic and Statistical Fidelity ( http://arxiv.org/abs/2207.08689v1 )

ライセンス: Link先を確認
Wei Zhou and Zhou Wang(参考訳) 低解像度(LR)を高解像度画像に変換する画像超解像(SR)アルゴリズムの開発への関心が高まっているが、超解像の視覚的品質を自動評価することは難しい問題である。 本稿では、決定論的忠実度(DF)と統計的忠実度(SF)の2次元空間におけるSR画像品質評価(SR IQA)の問題を検討する。 これにより、既存のSRアルゴリズムが2次元空間(DF, SF)の異なるクラスタで画像を生成する利点とデメリットをよりよく理解することができる。 具体的には、SFをなくしながらDFを最適化する傾向にある従来のSRアルゴリズムから、対照的に高いSFを達成する上で強力な優位性を示す一方で、DFを維持する上で弱いように見えるGAN(Generative Adversarial Network)ベースのアプローチまで、興味深い傾向を観察する。 さらに,コンテンツ依存のシャープネスとテクスチャ評価に基づく不確実性重み付け方式を提案する。この2つの忠実度尺度を,対象とするデータセットでテストした場合に最先端のiqaモデルに対して優れた性能を示す,super resolution image fidelity(srif)インデックスと呼ばれる全体的な品質予測にマージする。

There has been a growing interest in developing image super-resolution (SR) algorithms that convert low-resolution (LR) to higher resolution images, but automatically evaluating the visual quality of super-resolved images remains a challenging problem. Here we look at the problem of SR image quality assessment (SR IQA) in a two-dimensional (2D) space of deterministic fidelity (DF) versus statistical fidelity (SF). This allows us to better understand the advantages and disadvantages of existing SR algorithms, which produce images at different clusters in the 2D space of (DF, SF). Specifically, we observe an interesting trend from more traditional SR algorithms that are typically inclined to optimize for DF while losing SF, to more recent generative adversarial network (GAN) based approaches that by contrast exhibit strong advantages in achieving high SF but sometimes appear weak at maintaining DF. Furthermore, we propose an uncertainty weighting scheme based on content-dependent sharpness and texture assessment that merges the two fidelity measures into an overall quality prediction named the Super Resolution Image Fidelity (SRIF) index, which demonstrates superior performance against state-of-the-art IQA models when tested on subject-rated datasets.
翻訳日:2022-07-20 07:50:24 公開日:2022-07-15
# 構造化照明顕微鏡のための無訓練物理形ニューラルネットワーク

Untrained, physics-informed neural networks for structured illumination microscopy ( http://arxiv.org/abs/2207.07705v1 )

ライセンス: Link先を確認
Zachary Burns, Zhaowei Liu(参考訳) 近年、構造的照明顕微鏡(SIM)を含む超高解像度画像再構成にディープニューラルネットワーク(DNN)を使うことに大きな関心が寄せられている。 これらの手法は非常に有望な結果を示しているが、これらは全てデータ駆動型で教師付きトレーニング戦略に依存しており、多くの基底真理画像を必要とする。 SIMイメージングには、様々な形態の構造化照明に容易に適応できるフレキシブルで汎用的でオープンソースな再構成手法が必要である。 深層ニューラルネットワークを,構造化照明プロセスの前方モデルと組み合わせることで,データをトレーニングすることなくサブディフュージョン画像を再構成できることを実証する。 結果として生じる物理インフォームドニューラルネットワーク(PINN)は、単一の回折制限されたサブイメージセットに最適化できるため、トレーニングセットは不要である。 このPINNは、損失関数で用いられる既知の照明パターンを単に変更するだけで、様々なSIM手法に適用でき、理論的な期待に合致する解像度改善が達成できることをシミュレーションおよび実験データで示す。

In recent years there has been great interest in using deep neural networks (DNN) for super-resolution image reconstruction including for structured illumination microscopy (SIM). While these methods have shown very promising results, they all rely on data-driven, supervised training strategies that need a large number of ground truth images, which is experimentally difficult to realize. For SIM imaging, there exists a need for a flexible, general, and open-source reconstruction method that can be readily adapted to different forms of structured illumination. We demonstrate that we can combine a deep neural network with the forward model of the structured illumination process to reconstruct sub-diffraction images without training data. The resulting physics-informed neural network (PINN) can be optimized on a single set of diffraction limited sub-images and thus doesn't require any training set. We show with simulated and experimental data that this PINN can be applied to a wide variety of SIM methods by simply changing the known illumination patterns used in the loss function and can achieve resolution improvements that match well with theoretical expectations.
翻訳日:2022-07-20 07:49:59 公開日:2022-07-15
# 機械学習による物質波リソグラフィーのためのリアルマスク生成

Realistic mask generation for matter-wave lithography via machine learning ( http://arxiv.org/abs/2207.08723v1 )

ライセンス: Link先を確認
Johannes Fiedler and Adri\`a Salvador Palau and Eivind Kristen Osestad and Pekka Parviainen and Bodil Holst(参考訳) ナノメートル分解能を持つ大規模パターンの高速生産は、確立された半導体産業や次世代量子デバイスの産業規模の生産を可能にするために重要である。 二次元ホログラフィーマスクを用いた準安定原子リソグラフィーは、現在の最先端技術である極紫外リソグラフィー(EUV)の高解像度/低コストの代替として提案されている。 しかし、近年、準安定原子とマスク物質(SiN)の相互作用は、従来のスカラー波に基づくマスク生成理論には含まれない、波面の強い摂動をもたらすことが示されている。 これは、1dでも逆問題(所望のパターンに基づいてマスクを作成する)は解析的に解決できないことを意味する。 ここでは,準安定原子を対象としたマスク生成のための機械学習手法を提案する。 我々のアルゴリズムは、遺伝的最適化と深層学習を組み合わせてマスクを得る。 マスクの初期近似を生成するために、新しいディープニューラルネットワークアーキテクチャを訓練する。 この近似は、任意の精度に収束できる遺伝的最適化アルゴリズムの初期集団を生成するために用いられる。 フラウンホーファー近似限界内におけるシステム次元の任意の1次元パターンの生成を示す。

Fast production of large area patterns with nanometre resolution is crucial for the established semiconductor industry and for enabling industrial-scale production of next-generation quantum devices. Metastable atom lithography with binary holography masks has been suggested as a higher resolution/low-cost alternative to the current state of the art: extreme ultraviolet (EUV) lithography. However, it was recently shown that the interaction of the metastable atoms with the mask material (SiN) leads to a strong perturbation of the wavefront, not included in existing mask generation theory, which is based on classical scalar waves. This means that the inverse problem (creating a mask based on the desired pattern) cannot be solved analytically even in 1D. Here we present a machine learning approach to mask generation targeted for metastable atoms. Our algorithm uses a combination of genetic optimisation and deep learning to obtain the mask. A novel deep neural architecture is trained to produce an initial approximation of the mask. This approximation is then used to generate the initial population of the genetic optimisation algorithm that can converge to arbitrary precision. We demonstrate the generation of arbitrary 1D patterns for system dimensions within the Fraunhofer approximation limit.
翻訳日:2022-07-20 07:48:53 公開日:2022-07-15
# ビットワイズ可逆積分器

An Exact Bitwise Reversible Integrator ( http://arxiv.org/abs/2207.07695v1 )

ライセンス: Link先を確認
Jos Stam(参考訳) 基本的なレベルでは、ほとんどの物理方程式は時間可逆である。 本稿では,この特性を離散計算レベルで保持する積分器を提案する。 シミュレーションは前後に実行でき、同じ経路を正確にビット単位で追跡できます。 固定点算術と浮動小数点算術を組み合わせて理論上可逆積分器を実装してこれを実現する。 我々の主な応用は、最適化に使用される随伴手法の逆ステップを効率的に実装することである。 我々の積分器は微分シミュレーションや機械学習(バックプロパゲーション)に応用できる。

At a fundamental level most physical equations are time reversible. In this paper we propose an integrator that preserves this property at the discrete computational level. Our simulations can be run forward and backwards and trace the same path exactly bitwise. We achieve this by implementing theoretically reversible integrators using a mix of fixed and floating point arithmetic. Our main application is in efficiently implementing the reverse step in the adjoint method used in optimization. Our integrator has applications in differential simulations and machine learning (backpropagation).
翻訳日:2022-07-20 07:44:43 公開日:2022-07-15
# バイオ音響イベント検出のためのセグメントレベルメトリック学習

Segment-level Metric Learning for Few-shot Bioacoustic Event Detection ( http://arxiv.org/abs/2207.07773v1 )

ライセンス: Link先を確認
Haohe Liu, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley(参考訳) 少数ショットのバイオ音響イベント検出は、いくつか例を挙げると、新しい音の発生時間を検出するタスクである。 従来の手法では、様々な音響クラスのラベル付き部分を持つ潜在空間を構築するためにメートル法学習を用いていた。 本研究では,モデル最適化中に正のイベントと負のイベントの両方を利用する,セグメントレベルの少数ショット学習フレームワークを提案する。 正の事象よりも体積が大きい負の事象を持つトレーニングは、モデルの一般化能力を高めることができる。 さらに,学習中の検証セットにトランスダクティブ推論を用い,新しいクラスへの適応性を向上する。 我々は,入力特徴,トレーニングデータ,ハイパーパラメータの異なる設定で,提案手法のアブレーション研究を行う。 最終システムはDCASE2022チャレンジタスク5(DCASE2022-T5)検証セット上で62.73のF測定を行い、ベースラインプロトタイプネットワーク34.02の性能を大きなマージンで上回った。 提案手法を用いて,提案方式はDCASE2022-T5で2位となった。 本論文のコードはhttps://github.com/haoheliu/DCASE_2022_Task_5で完全にオープンソース化されている。

Few-shot bioacoustic event detection is a task that detects the occurrence time of a novel sound given a few examples. Previous methods employ metric learning to build a latent space with the labeled part of different sound classes, also known as positive events. In this study, we propose a segment-level few-shot learning framework that utilizes both the positive and negative events during model optimization. Training with negative events, which are larger in volume than positive events, can increase the generalization ability of the model. In addition, we use transductive inference on the validation set during training for better adaptation to novel classes. We conduct ablation studies on our proposed method with different setups on input features, training data, and hyper-parameters. Our final system achieves an F-measure of 62.73 on the DCASE 2022 challenge task 5 (DCASE2022-T5) validation set, outperforming the performance of the baseline prototypical network 34.02 by a large margin. Using the proposed method, our submitted system ranks 2nd in DCASE2022-T5. The code of this paper is fully open-sourced at https://github.com/haoheliu/DCASE_2022_Task_5.
翻訳日:2022-07-20 07:44:35 公開日:2022-07-15
# COEM:メタセル識別のためのクロスモーダル埋め込み

COEM: Cross-Modal Embedding for MetaCell Identification ( http://arxiv.org/abs/2207.07734v1 )

ライセンス: Link先を確認
Haiyi Mao, Minxue Jia, Jason Xiaotian Dou Haotian Zhang Panayiotis V. Benos(参考訳) メタセルは単細胞プロファイルの非結合的で同質なグループであり、離散的で高い粒度の細胞状態を表す。 既存のメタセルアルゴリズムは、単一セルのマルチオミクスデータセットが同一セル内の複数の分子モダリティをプロファイルしているにもかかわらず、メタセルを推論するために1つのモダリティのみを使用する傾向がある。 ここでは, scATAC-seq と scRNA-seq の両方の情報を活用する組込み空間を利用して, 微細分解能と十分なシーケンシングカバレッジのトレードオフをバランスさせる, 組込み空間を用いた \textbf{C}ross-M\textbf{O}dal \textbf{E}mbedding for \textbf{M}etaCell Identification (COEM) を提案する。 COEMは、連続した細胞型と離散的な細胞型を持つデータセット全体にわたる正確で適切に分離されたメタセルを効率よく同定することで、最先端のSEACellよりも優れている。 さらに、COEMはピーク・ツー・ジーン関連解析を大幅に改善し、複雑な遺伝子制御推論タスクを促進する。

Metacells are disjoint and homogeneous groups of single-cell profiles, representing discrete and highly granular cell states. Existing metacell algorithms tend to use only one modality to infer metacells, even though single-cell multi-omics datasets profile multiple molecular modalities within the same cell. Here, we present \textbf{C}ross-M\textbf{O}dal \textbf{E}mbedding for \textbf{M}etaCell Identification (COEM), which utilizes an embedded space leveraging the information of both scATAC-seq and scRNA-seq to perform aggregation, balancing the trade-off between fine resolution and sufficient sequencing coverage. COEM outperforms the state-of-the-art method SEACells by efficiently identifying accurate and well-separated metacells across datasets with continuous and discrete cell types. Furthermore, COEM significantly improves peak-to-gene association analyses, and facilitates complex gene regulatory inference tasks.
翻訳日:2022-07-20 07:44:16 公開日:2022-07-15
# 近接ロボットインタラクションのための人間のキーポイント検出

Human keypoint detection for close proximity human-robot interaction ( http://arxiv.org/abs/2207.07742v1 )

ライセンス: Link先を確認
Jan Docekal, Jakub Rozlivek, Jiri Matas, and Matej Hoffmann(参考訳) 近接ロボット相互作用の文脈における最先端人間のキーポイント検出器の性能について検討した。 このシナリオにおける検出は、手や胴体のような身体の部分のサブセットだけが視野にあるという点で特有である。 特に (i)近接画像の観点から、人間のポーズアノテーションを用いた既存のデータセットを調査し、新しいHuman in Close Proximity(HiCP)データセットを作成し、公開する。 (ii)このデータセット上でヒト全身2dキーポイント検出法(openpose, mmpose, alphapose, detectron2)を定量的に定量的に比較する。 (iii)手指の正確な検出がハンドオーバの応用において重要であることから,mediapipeハンドディテクターの性能を評価する。 (iv)rgb-dカメラを頭部に装着したヒューマノイドロボットにアルゴリズムを配置し、3次元キーポイント検出の性能を評価する。 モーションキャプチャシステムは参照として使用される。 MMPoseとAlphaPoseは近接して全体キーポイント検出器を動作させたが、どちらも指検出に難しかった。 そこで本研究では,MMPose と AlphaPose と MediaPipe を組み合わせて,最も正確かつロバストな検出が可能な単一のフレームワークを提案する。 また、個々の検出器の故障モードを解析し、例えば、画像中の人の頭がないことが性能を低下させる程度に分析する。 最後に,人間と対話するヒューマノイドロボットが検出した3Dキーポイントを用いて全身回避操作を行うシナリオで,この枠組みを実証する。

We study the performance of state-of-the-art human keypoint detectors in the context of close proximity human-robot interaction. The detection in this scenario is specific in that only a subset of body parts such as hands and torso are in the field of view. In particular, (i) we survey existing datasets with human pose annotation from the perspective of close proximity images and prepare and make publicly available a new Human in Close Proximity (HiCP) dataset; (ii) we quantitatively and qualitatively compare state-of-the-art human whole-body 2D keypoint detection methods (OpenPose, MMPose, AlphaPose, Detectron2) on this dataset; (iii) since accurate detection of hands and fingers is critical in applications with handovers, we evaluate the performance of the MediaPipe hand detector; (iv) we deploy the algorithms on a humanoid robot with an RGB-D camera on its head and evaluate the performance in 3D human keypoint detection. A motion capture system is used as reference. The best performing whole-body keypoint detectors in close proximity were MMPose and AlphaPose, but both had difficulty with finger detection. Thus, we propose a combination of MMPose or AlphaPose for the body and MediaPipe for the hands in a single framework providing the most accurate and robust detection. We also analyse the failure modes of individual detectors -- for example, to what extent the absence of the head of the person in the image degrades performance. Finally, we demonstrate the framework in a scenario where a humanoid robot interacting with a person uses the detected 3D keypoints for whole-body avoidance maneuvers.
翻訳日:2022-07-20 07:38:51 公開日:2022-07-15
# 表現的類似性解析を用いたコード言語モデルにおける意味的接地の検出

Probing Semantic Grounding in Language Models of Code with Representational Similarity Analysis ( http://arxiv.org/abs/2207.07706v1 )

ライセンス: Link先を確認
Shounak Naik, Rajaswa Patil, Swati Agarwal, Veeky Baths(参考訳) 表現的類似性分析(representational similarity analysis)は認知神経科学の手法であり、2つの異なるデータソースからの表現を比較するのに役立つ。 本稿では,Representational similarity Analysisを用いて,コードの言語モデルにおけるセマンティックグラウンドディングを探索する。 我々は,IBM CodeNetデータセットのデータを用いて,意味的接地のためのCodeBERTモデルから表現を探索する。 実験により,既存の事前学習手法は,コード言語モデルのセマンティックグラウンドを誘導せず,形式に基づくパターンの最適化に重点を置いていることがわかった。 また,意味的関連タスクの微調整でも,CodeBERTのセマンティックグラウンド化が著しく増加することを示す。 CodeBERTモデルへの入力モダリティによる改善は、二モーダル入力(コードと自然言語)を単モーダル入力(コードのみ)に使用することで、セマンティック微調整時のセマンティックグラウンドディングとサンプル効率が向上することを示している。 最後に、コード中のセマンティックな摂動による実験により、CodeBERTはセマンティックな正しいコードと間違ったコードとをしっかりと区別できることがわかった。

Representational Similarity Analysis is a method from cognitive neuroscience, which helps in comparing representations from two different sources of data. In this paper, we propose using Representational Similarity Analysis to probe the semantic grounding in language models of code. We probe representations from the CodeBERT model for semantic grounding by using the data from the IBM CodeNet dataset. Through our experiments, we show that current pre-training methods do not induce semantic grounding in language models of code, and instead focus on optimizing form-based patterns. We also show that even a little amount of fine-tuning on semantically relevant tasks increases the semantic grounding in CodeBERT significantly. Our ablations with the input modality to the CodeBERT model show that using bimodal inputs (code and natural language) over unimodal inputs (only code) gives better semantic grounding and sample efficiency during semantic fine-tuning. Finally, our experiments with semantic perturbations in code reveal that CodeBERT is able to robustly distinguish between semantically correct and incorrect code.
翻訳日:2022-07-20 07:37:59 公開日:2022-07-15
# モノのインターネットへのフェデレーション学習の導入 -予備的考察-

Introducing Federated Learning into Internet of Things ecosystems -- preliminary considerations ( http://arxiv.org/abs/2207.07700v1 )

ライセンス: Link先を確認
Karolina Bogacka, Katarzyna Wasielewska-Michniewska, Marcin Paprzycki, Maria Ganzha, Anastasiya Danilenka, Lambis Tassakos, Eduardo Garro(参考訳) 分散環境におけるモデルのトレーニングを容易にするために,フェデレートラーニング(FL)を提案する。 これは(ローカル)データのプライバシ保護をサポートし、モデルのトレーニングにローカルリソースを使用する。 これまでは、マシンラーニングアルゴリズムのflへの適応、データのプライバシ保護、あるいはクライアント間の不均一なデータ分散の影響に対処するなど、“コア問題”に多くの研究が費やされてきた。 このコントリビューションは,実際にIoTエコシステム内にデプロイされるFLという,実践的なユースケースに固定されている。 したがって、文献に見られる一般的な考察以外にも、考慮すべきいくつかの異なる課題が特定される。 さらに、フレキシブルで適応可能なFLソリューションの構築を可能にするアーキテクチャも導入されている。

Federated learning (FL) was proposed to facilitate the training of models in a distributed environment. It supports the protection of (local) data privacy and uses local resources for model training. Until now, the majority of research has been devoted to "core issues", such as adaptation of machine learning algorithms to FL, data privacy protection, or dealing with the effects of uneven data distribution between clients. This contribution is anchored in a practical use case, where FL is to be actually deployed within an Internet of Things ecosystem. Hence, somewhat different issues that need to be considered, beyond popular considerations found in the literature, are identified. Moreover, an architecture that enables the building of flexible, and adaptable, FL solutions is introduced.
翻訳日:2022-07-20 07:31:01 公開日:2022-07-15
# FLOWGEN: 高速で遅いグラフ生成

FLOWGEN: Fast and slow graph generation ( http://arxiv.org/abs/2207.07656v1 )

ライセンス: Link先を確認
Aman Madaan, Yiming Yang(参考訳) 本稿では、大きなグラフを漸進的に生成する心の二重過程理論に着想を得たグラフ生成モデルFLOWGENを提案する。 現在のステップでのグラフの完成の困難さに応じて、グラフ生成はfast~(weaker)かlow~(strong)モデルのいずれかにルーティングされる。 高速で遅いモデルは、同じアーキテクチャを持つが、パラメータの数と結果として強度が異なる。 実世界のグラフの実験では、一つの大きなモデルが生成したグラフと同様のグラフを短時間で生成できることが示されている。

We present FLOWGEN, a graph-generation model inspired by the dual-process theory of mind that generates large graphs incrementally. Depending on the difficulty of completing the graph at the current step, graph generation is routed to either a fast~(weaker) or a slow~(stronger) model. fast and slow models have identical architectures, but vary in the number of parameters and consequently the strength. Experiments on real-world graphs show that ours can successfully generate graphs similar to those generated by a single large model in a fraction of time.
翻訳日:2022-07-20 07:21:37 公開日:2022-07-15
# 相手の頭蓋骨の喪失:識別器に難しい例を尋ねる

Adversarial Focal Loss: Asking Your Discriminator for Hard Examples ( http://arxiv.org/abs/2207.07739v1 )

ライセンス: Link先を確認
Chen Liu, Xiaomeng Dong, Michael Potter, Hsi-Ming Chang, Ravi Soni(参考訳) Focal Lossは、単純なテクニックを使って、難しい例を特定し、利用して、分類におけるより良いパフォーマンスを実現しているため、驚くほど人気がある。 しかし,この手法はキーポイント検出などの分類タスク以外では容易に一般化できない。 本稿では,AFL(Adversarial Focal Loss)と呼ばれるキーポイント検出タスクに対して,新しいFocal Lossを提案する。 AFLは、意味的にFocal Losと類似しているだけでなく、任意の損失関数のプラグイン・アンド・チャグアップグレードとしても機能する。 Focal Lossは分類器からの出力を必要とするが、AFLは個別の敵ネットワークを活用して各入力の難易度スコアを生成する。 この難易度スコアは、たとえ分類器がなくても、ハードサンプルの学習を動的に優先順位付けするために使うことができる。 そこで本研究では,キーポイント検出における既存手法の強化にaflの有効性を示し,難易度を基準として実例の再現性を検証する。

Focal Loss has reached incredible popularity as it uses a simple technique to identify and utilize hard examples to achieve better performance on classification. However, this method does not easily generalize outside of classification tasks, such as in keypoint detection. In this paper, we propose a novel adaptation of Focal Loss for keypoint detection tasks, called Adversarial Focal Loss (AFL). AFL not only is semantically analogous to Focal loss, but also works as a plug-and-chug upgrade for arbitrary loss functions. While Focal Loss requires output from a classifier, AFL leverages a separate adversarial network to produce a difficulty score for each input. This difficulty score can then be used to dynamically prioritize learning on hard examples, even in absence of a classifier. In this work, we show AFL's effectiveness in enhancing existing methods in keypoint detection and verify its capability to re-weigh examples based on difficulty.
翻訳日:2022-07-20 07:19:49 公開日:2022-07-15
# POET:再物質化とページングを統合したティニーデバイス上でのニューラルネットワークのトレーニング

POET: Training Neural Networks on Tiny Devices with Integrated Rematerialization and Paging ( http://arxiv.org/abs/2207.07697v1 )

ライセンス: Link先を確認
Shishir G. Patil, Paras Jain, Prabal Dutta, Ion Stoica, Joseph E. Gonzalez(参考訳) 携帯電話のようなエッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。 しかし、エッジトレーニングはメモリとエネルギーの両方が集中しているため、従来は単純なアーキテクチャを持つ比較的小さなモデルに限られていた。 バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。 POETは、バックプロパゲーションのメモリ消費を減らすための2つのアルゴリズムである、再物質化とページングの統合検索空間を共同で最適化する。 メモリ予算と実行時の制約を考慮し、エネルギー最適トレーニングのための混合整数線形プログラム(MILP)を定式化する。 提案手法は,バックプロパゲーションの数学的正しさを変更せず,エネルギー消費を低減しながら,組み込みデバイス上で大幅に大きなモデルのトレーニングを可能にする。 我々は,Cortex-Mクラス組み込みデバイスのメモリ制約内でResNet-18とBERTの両方を微調整することが可能であり,エネルギー効率において現在のエッジトレーニング手法より優れていることを示す。 POETは、https://github.com/ShishirPatil/poetで入手できるオープンソースプロジェクトである。

Fine-tuning models on edge devices like mobile phones would enable privacy-preserving personalization over sensitive data. However, edge training has historically been limited to relatively small models with simple architectures because training is both memory and energy intensive. We present POET, an algorithm to enable training large neural networks on memory-scarce battery-operated edge devices. POET jointly optimizes the integrated search search spaces of rematerialization and paging, two algorithms to reduce the memory consumption of backpropagation. Given a memory budget and a run-time constraint, we formulate a mixed-integer linear program (MILP) for energy-optimal training. Our approach enables training significantly larger models on embedded devices while reducing energy consumption while not modifying mathematical correctness of backpropagation. We demonstrate that it is possible to fine-tune both ResNet-18 and BERT within the memory constraints of a Cortex-M class embedded device while outperforming current edge training methods in energy efficiency. POET is an open-source project available at https://github.com/ShishirPatil/poet
翻訳日:2022-07-20 07:14:23 公開日:2022-07-15
# 機構空間による部分的絡み合い

Partial Disentanglement via Mechanism Sparsity ( http://arxiv.org/abs/2207.07732v1 )

ライセンス: Link先を確認
S\'ebastien Lachapelle and Simon Lacoste-Julien(参考訳) 因果グラフが疎度である場合, あるいは, 動作が観察され, 影響が軽度である場合に, 監視なしで潜伏因子を抽出する原理的手法として, 機構の疎度による絡み合いを導入した。 しかし、この理論は特定の基準を満たす接地グラフのみに適用される。 本研究では、この理論の一般化を導入し、一貫性と呼ばれるモデルに対する新しい同値関係を通じて、学習された表現がどの程度不整合であるかを定性的に特定する。 この同値性は、どの因子が絡み合うことが期待され、その因子は接地木グラフの特定の形式に基づいていない。 我々はこの弱い形の識別可能性の部分的乱れと呼ぶ。 初期の研究で提案された完全非絡み合いを許容するグラフィカルな基準は、我々の理論の特別な場合として導出することができる。 最後に,制約付き最適化でグラフの空間性を強制し,シミュレーションで理論とアルゴリズムを説明する。

Disentanglement via mechanism sparsity was introduced recently as a principled approach to extract latent factors without supervision when the causal graph relating them in time is sparse, and/or when actions are observed and affect them sparsely. However, this theory applies only to ground-truth graphs satisfying a specific criterion. In this work, we introduce a generalization of this theory which applies to any ground-truth graph and specifies qualitatively how disentangled the learned representation is expected to be, via a new equivalence relation over models we call consistency. This equivalence captures which factors are expected to remain entangled and which are not based on the specific form of the ground-truth graph. We call this weaker form of identifiability partial disentanglement. The graphical criterion that allows complete disentanglement, proposed in an earlier work, can be derived as a special case of our theory. Finally, we enforce graph sparsity with constrained optimization and illustrate our theory and algorithm in simulations.
翻訳日:2022-07-20 07:13:58 公開日:2022-07-15
# 深層強化学習における一般化のためのスタイル転送を用いたブートストラップ状態表現

Bootstrap State Representation using Style Transfer for Better Generalization in Deep Reinforcement Learning ( http://arxiv.org/abs/2207.07749v1 )

ライセンス: Link先を確認
Md Masudur Rahman and Yexiang Xue(参考訳) 深層強化学習(Deep Reinforcement Learning, RL)エージェントは、しばしばトレーニング環境に適合し、一般化性能が低下する。 本稿では,教師なしの方法で観測した特徴の逆効果を除去するブートストラップ手法であるThinkerを提案し,RLエージェントの一般化を改善する。 thinker firstクラスタは、複数のクラスタにトラジェクタを経験する。 これらのトラジェクトリは、あるクラスタのスタイルから別のクラスタへのトラジェクトリを変換するスタイル転送ジェネレータを適用して、観察内容を維持しながらブートストラップされる。 ブートストラップされた軌道はポリシー学習に使用される。 Thinkerは多くのRL設定に幅広い適用性がある。 実験結果から,Thinkerはベースアルゴリズムやデータ拡張技術と比較して,Procgenベンチマーク環境での一般化能力の向上につながることがわかった。

Deep Reinforcement Learning (RL) agents often overfit the training environment, leading to poor generalization performance. In this paper, we propose Thinker, a bootstrapping method to remove adversarial effects of confounding features from the observation in an unsupervised way, and thus, it improves RL agents' generalization. Thinker first clusters experience trajectories into several clusters. These trajectories are then bootstrapped by applying a style transfer generator, which translates the trajectories from one cluster's style to another while maintaining the content of the observations. The bootstrapped trajectories are then used for policy learning. Thinker has wide applicability among many RL settings. Experimental results reveal that Thinker leads to better generalization capability in the Procgen benchmark environments compared to base algorithms and several data augmentation techniques.
翻訳日:2022-07-20 07:13:02 公開日:2022-07-15
# 課題の生涯における知識の再利用と構成方法:連続学習と機能構成に関する調査

How to Reuse and Compose Knowledge for a Lifetime of Tasks: A Survey on Continual Learning and Functional Composition ( http://arxiv.org/abs/2207.07730v1 )

ライセンス: Link先を確認
Jorge A. Mendez and Eric Eaton(参考訳) 人工知能(AI)の主な目標は、世界の一般的な理解を得ることができるエージェントを作ることである。 そのようなエージェントは、新しい経験に遭遇すると、その知識を継続的に蓄積し、構築する能力を必要とします。 生涯的あるいは継続的な学習はこの設定に対処し、エージェントは継続的な問題の流れに直面し、遭遇する各新しいタスクの解決に必要な知識を捉えなければならない。 エージェントが何らかの構成表現の形で知識を蓄積できるならば、関連する知識を選択的に再利用し、組み合わせて新しいソリューションを構築することができる。 この単純なアイデアの直感的な魅力にもかかわらず、生涯学習と作曲学習に関する文学はほとんど別々に進んできた。 本稿は,両分野間の橋渡しの進展を促進するため,それぞれの研究景観を調査し,その現状と今後の関係について考察する。

A major goal of artificial intelligence (AI) is to create an agent capable of acquiring a general understanding of the world. Such an agent would require the ability to continually accumulate and build upon its knowledge as it encounters new experiences. Lifelong or continual learning addresses this setting, whereby an agent faces a continual stream of problems and must strive to capture the knowledge necessary for solving each new task it encounters. If the agent is capable of accumulating knowledge in some form of compositional representation, it could then selectively reuse and combine relevant pieces of knowledge to construct novel solutions. Despite the intuitive appeal of this simple idea, the literatures on lifelong learning and compositional learning have proceeded largely separately. In an effort to promote developments that bridge between the two fields, this article surveys their respective research landscapes and discusses existing and future connections between them.
翻訳日:2022-07-20 07:12:48 公開日:2022-07-15
# 拡張動的モード分解の予測精度を計測する時間的前方後方整合性

Temporal Forward-Backward Consistency, Not Residual Error, Measures the Prediction Accuracy of Extended Dynamic Mode Decomposition ( http://arxiv.org/abs/2207.07719v1 )

ライセンス: Link先を確認
Masih Haseli, Jorge Cort\'es(参考訳) 拡張動的モード分解(EDMD)は、関数の辞書で区切られた線形関数空間上のクープマン作用素の作用を近似する一般的なデータ駆動手法である。 EDMDモデルの精度は、特定の辞書のスパンの品質、特にクープマン作用素の下で不変であることの近さに大きく依存する。 EDMDの残差誤差が典型的には辞書学習に使われ、関数空間の質を符号化せず、基底の選択に敏感であるという観察により、一貫性指数という新しい概念が導入された。 本手法は,EDMDを前後に使用することにより,動的システムのデータ駆動モデリングに適した多くの望ましい特性を享受できることを示す。すなわち,関数空間の質を測定し,基本条件の下で不変であり,データからクローズドな形式で計算可能であり,辞書全体の関数予測の相対根平均二乗誤差に対して厳密な上限を提供する。

Extended Dynamic Mode Decomposition (EDMD) is a popular data-driven method to approximate the action of the Koopman operator on a linear function space spanned by a dictionary of functions. The accuracy of EDMD model critically depends on the quality of the particular dictionary's span, specifically on how close it is to being invariant under the Koopman operator. Motivated by the observation that the residual error of EDMD, typically used for dictionary learning, does not encode the quality of the function space and is sensitive to the choice of basis, we introduce the novel concept of consistency index. We show that this measure, based on using EDMD forward and backward in time, enjoys a number of desirable qualities that make it suitable for data-driven modeling of dynamical systems: it measures the quality of the function space, it is invariant under the choice of basis, can be computed in closed form from the data, and provides a tight upper-bound for the relative root mean square error of all function predictions on the entire span of the dictionary.
翻訳日:2022-07-19 19:13:48 公開日:2022-07-15
# 大規模ネットワーク型散逸システムのためのニューラルリアプノフ関数の分散学習

Distributed Learning of Neural Lyapunov Functions for Large-Scale Networked Dissipative Systems ( http://arxiv.org/abs/2207.07731v1 )

ライセンス: Link先を確認
Amit Jena, Tong Huang, S. Sivaranjani, Dileep Kalathil, Le Xie(参考訳) 本稿では,分散計算可能な方法で分散非線形サブシステムからなる大規模ネットワークシステムの安定性領域を特徴付ける問題を考察する。 一般非線形系の安定性領域を推定するための標準的なアプローチは、まず系のリャプノフ函数を見つけ、そのアトラクション領域を安定性領域として特徴づけることである。 しかし、二乗法や二次近似のような古典的アプローチは、リアプノフ函数を大系にスケールしないか、安定性領域の非常に保守的な推定を与える。 そこで本研究では,サブシステムの分散構造を利用した新しい分散学習手法を提案する。 第1部はサブシステムのストレージ機能(lyapunov関数に似ている)を学習するための分散アプローチであり,第2部はサブシステムの学習したストレージ機能を使用してネットワークシステムのためのlyapunov関数を見つけるための分散最適化アプローチである。 マイクログリッドネットワークにおけるケーススタディを通じて,提案手法の優れた性能を示す。

This paper considers the problem of characterizing the stability region of a large-scale networked system comprised of dissipative nonlinear subsystems, in a distributed and computationally tractable way. One standard approach to estimate the stability region of a general nonlinear system is to first find a Lyapunov function for the system and characterize its region of attraction as the stability region. However, classical approaches, such as sum-of-squares methods and quadratic approximation, for finding a Lyapunov function either do not scale to large systems or give very conservative estimates for the stability region. In this context, we propose a new distributed learning based approach by exploiting the dissipativity structure of the subsystems. Our approach has two parts: the first part is a distributed approach to learn the storage functions (similar to the Lyapunov functions) for all the subsystems, and the second part is a distributed optimization approach to find the Lyapunov function for the networked system using the learned storage functions of the subsystems. We demonstrate the superior performance of our proposed approach through extensive case studies in microgrid networks.
翻訳日:2022-07-19 19:13:27 公開日:2022-07-15
# ハードマージン損失を伴うベクトルマシンのサポート:コンビネーションベンダーによる最適トレーニング

Support Vector Machines with the Hard-Margin Loss: Optimal Training via Combinatorial Benders' Cuts ( http://arxiv.org/abs/2207.07690v1 )

ライセンス: Link先を確認
\'Italo Santana, Breno Serrano, Maximilian Schiffer, Thibaut Vidal(参考訳) 古典的ヒンジロス支持ベクトルマシン(SVM)モデルは、損失関数の非有界性に起因する外乱観測に敏感である。 この問題を回避するために、近年の研究は、不等級または中等級のサンプルに一定のペナルティを関連付けるハードマージン損失のような非凸損失関数に焦点を当てている。 この損失関数を適用することは、重要なアプリケーションにとって非常に必要なロバスト性をもたらすが、現在の厳密な最適化アルゴリズムはスケーラビリティに乏しいが、ヒューリスティックスは一貫して高品質なソリューションを見つけることができないため、トレーニングを難しくするnpハードモデルにつながる。 このような背景から,我々はSVMモデルをグローバルな最適性にトレーニングする能力を大幅に向上させる新しい整数プログラミング戦略を提案する。 本稿では,より小さなサブプロブレムを用いてBendersの切断を分離する反復サンプリングと分解手法を提案する。 これらのカットは分岐とカットのアルゴリズムで使われ、グローバルな最適化に向けてより迅速に収束することができる。 従来のベンチマークデータセットに対する広範囲な数値解析により,本アルゴリズムは117個の新しいデータセットを初めて最適に解き,ベンチマークの最も難しいデータセットの平均最適ギャップを50%削減した。

The classical hinge-loss support vector machines (SVMs) model is sensitive to outlier observations due to the unboundedness of its loss function. To circumvent this issue, recent studies have focused on non-convex loss functions, such as the hard-margin loss, which associates a constant penalty to any misclassified or within-margin sample. Applying this loss function yields much-needed robustness for critical applications but it also leads to an NP-hard model that makes training difficult, since current exact optimization algorithms show limited scalability, whereas heuristics are not able to find high-quality solutions consistently. Against this background, we propose new integer programming strategies that significantly improve our ability to train the hard-margin SVM model to global optimality. We introduce an iterative sampling and decomposition approach, in which smaller subproblems are used to separate combinatorial Benders' cuts. Those cuts, used within a branch-and-cut algorithm, permit to converge much more quickly towards a global optimum. Through extensive numerical analyses on classical benchmark data sets, our solution algorithm solves, for the first time, 117 new data sets to optimality and achieves a reduction of 50% in the average optimality gap for the hardest datasets of the benchmark.
翻訳日:2022-07-19 18:40:15 公開日:2022-07-15
# 局所近似・実補間・機械学習

Local Approximations, Real Interpolation and Machine Learning ( http://arxiv.org/abs/2207.07720v1 )

ライセンス: Link先を確認
Eric Setterqvist, Natan Kruglyak, Robert Forchheimer(参考訳) 本稿では,局所近似に基づく新しい分類アルゴリズムを提案し,ニューラルネットワーク (anns) と近辺の分類器との接続について説明する。 手書き数字の画像のデータセット MNIST と EMNIST について説明する。 我々はデータセットMNISTを用いてアルゴリズムのパラメータを見つけ、これらのパラメータを挑戦的なEMNISTデータセットに適用する。 このアルゴリズムはEMNISTの画像の0.42%を誤って分類し、したがって人間による予測と1.3%以上の誤差を持つ浅い人工ニューラルネットワーク(ANN)の予測を著しく上回ることを示した。

We suggest a novel classification algorithm that is based on local approximations and explain its connections with Artificial Neural Networks (ANNs) and Nearest Neighbour classifiers. We illustrate it on the datasets MNIST and EMNIST of images of handwritten digits. We use the dataset MNIST to find parameters of our algorithm and apply it with these parameters to the challenging EMNIST dataset. It is demonstrated that the algorithm misclassifies 0.42% of the images of EMNIST and therefore significantly outperforms predictions by humans and shallow artificial neural networks (ANNs with few hidden layers) that both have more than 1.3% of errors
翻訳日:2022-07-19 18:39:52 公開日:2022-07-15
# より多くのデータが私たちを驚かせる - ラベルバイアスの存在下でのアクティブデータ取得

More Data Can Lead Us Astray: Active Data Acquisition in the Presence of Label Bias ( http://arxiv.org/abs/2207.07723v1 )

ライセンス: Link先を確認
Yunyi Li, Maria De-Arteaga, Maytal Saar-Tsechansky(参考訳) アルゴリズムバイアスのリスクに対する認識が高まり、バイアス緩和戦略に関する取り組みが急増している。 提案手法の大部分は,(1)予測モデルにアルゴリズム的公正性制約を課すこと,(2)追加のトレーニングサンプルの収集という2つのカテゴリに分類される。 近年,これら2つのカテゴリの交点において,公平性制約の下でアクティブラーニングを提案する手法が開発されている。 しかし、提案されたバイアス緩和戦略は一般に観測されたラベルに示されるバイアスを見落としている。 本研究では,ラベルバイアスの存在下でのアクティブデータ収集戦略の公平性を考察する。 まず,教師付き学習システムの文脈において,異なる種類のラベルバイアスについて概観する。 次に,ラベルバイアスを克服すると,より多くのデータ収集がバイアスを悪化させ,データ収集プロセスで観測されたラベルに依存する公正な制約が問題に対処できないことを実証的に示す。 提案手法は,1種類のバイアスを軽減し,他のバイアスを無視し,フェアネス認識アルゴリズムが対処しようとするバイアスの種類を明示的に区別することの重要性を強調し,データ収集中にラベルバイアスを無視するリスクを強調する。

An increased awareness concerning risks of algorithmic bias has driven a surge of efforts around bias mitigation strategies. A vast majority of the proposed approaches fall under one of two categories: (1) imposing algorithmic fairness constraints on predictive models, and (2) collecting additional training samples. Most recently and at the intersection of these two categories, methods that propose active learning under fairness constraints have been developed. However, proposed bias mitigation strategies typically overlook the bias presented in the observed labels. In this work, we study fairness considerations of active data collection strategies in the presence of label bias. We first present an overview of different types of label bias in the context of supervised learning systems. We then empirically show that, when overlooking label bias, collecting more data can aggravate bias, and imposing fairness constraints that rely on the observed labels in the data collection process may not address the problem. Our results illustrate the unintended consequences of deploying a model that attempts to mitigate a single type of bias while neglecting others, emphasizing the importance of explicitly differentiating between the types of bias that fairness-aware algorithms aim to address, and highlighting the risks of neglecting label bias during data collection.
翻訳日:2022-07-19 18:39:41 公開日:2022-07-15
# Greykite: LinkedInのスケールでフレキシブルな予測をデプロイ

Greykite: Deploying Flexible Forecasting at Scale at LinkedIn ( http://arxiv.org/abs/2207.07788v1 )

ライセンス: Link先を確認
Reza Hosseini, Albert Chen, Kaixu Yang, Sayan Patra, Yi Su, Saad Eddin Al Orjany, Sishi Tang, Parvez Ahammad(参考訳) 予測は、企業がリソースを割り当て、目的を達成するのに役立つ。 LinkedInでは、プロダクトオーナが予測を使用してビジネス目標を設定し、見通しを追跡し、健康状態を監視する。 エンジニアはハードウェアの効率的なプロビジョニングに予測を使用する。 これらのニーズを満たす予測ソリューションを開発するには、時間単位から四半期単位までの様々な時系列の正確かつ解釈可能な予測が必要である。 我々は、LinkedInで20以上のユースケースにデプロイされた予測のためのオープンソースのPythonライブラリであるGreykiteを紹介する。 その旗艦アルゴリズムであるSilverkiteは、解釈可能で、高速で、非常に柔軟な単変量予測を提供し、時間的変化や季節性、自己相関、休日、回帰者などの効果を捉えている。 このライブラリは、データ探索、モデル構成、実行、解釈を容易にすることで、セルフサービス精度と信頼を可能にする。 ベンチマークの結果,様々な領域のデータセットに対して,アウト・オブ・ボックスの速度と精度が良好であった。 過去2年間で、greykiteの予測は財務、エンジニアリング、プロダクトチームによって、リソース計画と割り当て、目標設定と進捗追跡、異常検出、根本原因分析のために信頼されている。 greykiteは、人間の活動に関連する時系列に共通する複雑なダイナミクスを捉えた、正確で解釈可能な予測を必要とする類似のアプリケーションで、実践者を予測するのに役立つと期待しています。

Forecasts help businesses allocate resources and achieve objectives. At LinkedIn, product owners use forecasts to set business targets, track outlook, and monitor health. Engineers use forecasts to efficiently provision hardware. Developing a forecasting solution to meet these needs requires accurate and interpretable forecasts on diverse time series with sub-hourly to quarterly frequencies. We present Greykite, an open-source Python library for forecasting that has been deployed on over twenty use cases at LinkedIn. Its flagship algorithm, Silverkite, provides interpretable, fast, and highly flexible univariate forecasts that capture effects such as time-varying growth and seasonality, autocorrelation, holidays, and regressors. The library enables self-serve accuracy and trust by facilitating data exploration, model configuration, execution, and interpretation. Our benchmark results show excellent out-of-the-box speed and accuracy on datasets from a variety of domains. Over the past two years, Greykite forecasts have been trusted by Finance, Engineering, and Product teams for resource planning and allocation, target setting and progress tracking, anomaly detection and root cause analysis. We expect Greykite to be useful to forecast practitioners with similar applications who need accurate, interpretable forecasts that capture complex dynamics common to time series related to human activity.
翻訳日:2022-07-19 18:39:22 公開日:2022-07-15
# ESFPNet:自動蛍光ビデオにおけるリアルタイム病変分割のための効率的なディープラーニングアーキテクチャ

ESFPNet: efficient deep learning architecture for real-time lesion segmentation in autofluorescence bronchoscopic video ( http://arxiv.org/abs/2207.07759v1 )

ライセンス: Link先を確認
Qi Chang, Danish Ahmad, Jennifer Toth, Rebecca Bascom, William E. Higgins(参考訳) 肺癌は進行段階において発見される傾向にあり、患者の死亡率が高い。 そのため、近年の研究は早期疾患検出に重点を置いている。 一般的に肺がんは気道壁の気管支上皮内に発生する病変として現れる。 気管支鏡は非侵襲的気管支病変検出に有効な方法である。 特に、afb(autofluorescence bronchoscopy)は正常組織と疾患組織の自己蛍光特性を判別し、adbビデオフレームでは病変が赤褐色に見え、正常組織は緑色に見える。 最近の研究では、AFBの高病変感受性能力が示されているため、早期肺癌検出のための標準的な気管支鏡検査において、これは潜在的に重要な方法となっている。 残念なことに、AFBビデオの手動検査は極めて面倒でエラーを起こしやすいが、より堅牢な自動AFB病変検出とセグメンテーションに向けては、限られた努力が費やされている。 AFBビデオストリームからの気管支病変の堅牢な検出とセグメンテーションのためのリアルタイムディープラーニングアーキテクチャESFPNetを提案する。 このアーキテクチャは、プリトレーニングされたmix transformer(mit)エンコーダを利用するエンコーダ構造と、ステージワイズ機能ピラミッド(esfp)デコーダ構造を備えている。 肺がん患者の気道検査から得られたadbビデオから得られた結果から,平均ダイス指数は0.782,iou値は0.658であり,処理スループットは27フレーム/秒であった。 これらの値は、Mix変換器やCNNベースのエンコーダを使用する他の競合アーキテクチャによる結果よりも優れている。 さらにETIS-LaribPolypDBデータセットの優れたパフォーマンスは、他のドメインへの適用可能性を示している。

Lung cancer tends to be detected at an advanced stage, resulting in a high patient mortality rate. Thus, recent research has focused on early disease detection. Lung cancer generally first appears as lesions developing within the bronchial epithelium of the airway walls. Bronchoscopy is the procedure of choice for effective noninvasive bronchial lesion detection. In particular, autofluorescence bronchoscopy (AFB) discriminates the autofluorescence properties of normal and diseased tissue, whereby lesions appear reddish brown in AFB video frames, while normal tissue appears green. Because recent studies show AFB's ability for high lesion sensitivity, it has become a potentially pivotal method during the standard bronchoscopic airway exam for early-stage lung cancer detection. Unfortunately, manual inspection of AFB video is extremely tedious and error-prone, while limited effort has been expended toward potentially more robust automatic AFB lesion detection and segmentation. We propose a real-time deep learning architecture ESFPNet for robust detection and segmentation of bronchial lesions from an AFB video stream. The architecture features an encoder structure that exploits pretrained Mix Transformer (MiT) encoders and a stage-wise feature pyramid (ESFP) decoder structure. Results from AFB videos derived from lung cancer patient airway exams indicate that our approach gives mean Dice index and IOU values of 0.782 and 0.658, respectively, while having a processing throughput of 27 frames/sec. These values are superior to results achieved by other competing architectures that use Mix transformers or CNN-based encoders. Moreover, the superior performance on the ETIS-LaribPolypDB dataset demonstrates its potential applicability to other domains.
翻訳日:2022-07-19 18:17:00 公開日:2022-07-15
# 深層強化学習におけるデータ収集の最適化

Optimizing Data Collection in Deep Reinforcement Learning ( http://arxiv.org/abs/2207.07736v1 )

ライセンス: Link先を確認
James Gleeson, Daniel Snider, Yvonne Yang, Moshe Gabel, Eyal de Lara, Gennady Pekhimenko(参考訳) 強化学習(RL)ワークロードは、シミュレータから実行時に収集された大量のサンプルのために、トレーニングに非常に長い時間を要する。 残念ながら、クラスタのスケールアップアプローチは高価であり、一般的に使用されるシミュレータのCPU実装は、GPU計算の切り替え時に高いオーバーヘッドを引き起こす。 1gpuベクトル化:ハードウェア並列性を向上させるためにgpu上での並列化シミュレーション、2)シミュレータカーネルフュージョン:単一のgpuカーネルで実行するために複数のシミュレーションステップを使用することで、グローバルメモリ帯域幅の要求を低減する。 GPUベクトル化は、一般的なCPUシミュレータよりも最大1024\times$のスピードアップを実現することができる。 我々は、異なる実装のパフォーマンスをプロファイルし、GPUベクタライゼーションのMLコンパイラ実装(XLA)が、繰り返しPythonからDLバックエンドAPI呼び出しへのCPUオーバーヘッドを減らすことで、DNNフレームワーク(PyTorch)を13.4\times$で上回ることを示す。 単純なシミュレータによるシミュレータカーネルの核融合速度は1.3\times$であり、メモリ帯域幅の要求によりシミュレータの複雑さが増加すると最大1024\times$となる。 シミュレーションカーネルの核融合による高速化は直交し,GPUベクトル化と結合可能であることを示す。

Reinforcement learning (RL) workloads take a notoriously long time to train due to the large number of samples collected at run-time from simulators. Unfortunately, cluster scale-up approaches remain expensive, and commonly used CPU implementations of simulators induce high overhead when switching back and forth between GPU computations. We explore two optimizations that increase RL data collection efficiency by increasing GPU utilization: (1) GPU vectorization: parallelizing simulation on the GPU for increased hardware parallelism, and (2) simulator kernel fusion: fusing multiple simulation steps to run in a single GPU kernel launch to reduce global memory bandwidth requirements. We find that GPU vectorization can achieve up to $1024\times$ speedup over commonly used CPU simulators. We profile the performance of different implementations and show that for a simple simulator, ML compiler implementations (XLA) of GPU vectorization outperform a DNN framework (PyTorch) by $13.4\times$ by reducing CPU overhead from repeated Python to DL backend API calls. We show that simulator kernel fusion speedups with a simple simulator are $11.3\times$ and increase by up to $1024\times$ as simulator complexity increases in terms of memory bandwidth requirements. We show that the speedups from simulator kernel fusion are orthogonal and combinable with GPU vectorization, leading to a multiplicative speedup.
翻訳日:2022-07-19 17:53:43 公開日:2022-07-15
# 非構造データのサブグループ発見

Subgroup Discovery in Unstructured Data ( http://arxiv.org/abs/2207.07781v1 )

ライセンス: Link先を確認
Ali Arab, Dev Arora, Jialin Lu, Martin Ester(参考訳) サブグループ発見(サブグループえい、英: subgroup discovery)は、興味のある個体群を識別する説明的かつ探索的なデータマイニング手法である。 サブグループ発見は知識発見や仮説生成に多くの応用があるが、画像のような非構造化の高次元データには適用できない。 これは、部分群発見アルゴリズムが(属性、値)ペアに基づいた記述規則の定義に依存しているためであるが、非構造化データでは属性が適切に定義されていないためである。 属性の概念がデータの中に直感的に存在する場合、例えば画像のピクセルのように、データの高次元性のためでも、これらの属性はルールで使われるのに十分な情報にならない。 本稿では,非構造化データの表現を学習し,高品質なサブグループへと導く,新しい変分オートエンコーダである subgroup-aware variational autoencoder を提案する。 本研究は,概念の解釈可能性を維持しつつ,高品質なサブグループ学習における手法の有効性を実証する。

Subgroup discovery is a descriptive and exploratory data mining technique to identify subgroups in a population that exhibit interesting behavior with respect to a variable of interest. Subgroup discovery has numerous applications in knowledge discovery and hypothesis generation, yet it remains inapplicable for unstructured, high-dimensional data such as images. This is because subgroup discovery algorithms rely on defining descriptive rules based on (attribute, value) pairs, however, in unstructured data, an attribute is not well defined. Even in cases where the notion of attribute intuitively exists in the data, such as a pixel in an image, due to the high dimensionality of the data, these attributes are not informative enough to be used in a rule. In this paper, we introduce the subgroup-aware variational autoencoder, a novel variational autoencoder that learns a representation of unstructured data which leads to subgroups with higher quality. Our experimental results demonstrate the effectiveness of the method at learning subgroups with high quality while supporting the interpretability of the concepts.
翻訳日:2022-07-19 17:51:31 公開日:2022-07-15
# デジタル農業における知識表現 : 標準化モデルに向けて

Knowledge Representation in Digital Agriculture: A Step Towards Standardised Model ( http://arxiv.org/abs/2207.07740v1 )

ライセンス: Link先を確認
Quoc Hung Ngo, Tahar Kechadi, Nhien-An Le-Khac(参考訳) 近年、データサイエンスは大幅に進化している。 データ分析とマイニングプロセスは、データセットが利用可能な経済のあらゆる分野においてルーチンになる。 膨大なデータリポジトリが収集され、キュレートされ、保存され、知識の抽出に使用される。 そして、これが一般的になりつつある。 その後、データから直接、あるいは所定のドメインの専門家を通して、大量の知識を抽出します。 問題は、これまで効率的な意思決定プロセスで知られていた膨大な知識をいかに活用するかだ。 近年まで、長年の研究によって得られた知識の多くは静的な知識ベースやオントロジーに保存されているが、データマイニング研究から得られたより多様でダイナミックな知識は集中的かつ一貫して管理されていない。 本研究では,農耕におけるデータマイニングの結果(知識)を表現・保存し,知識発見のプロセスを構築し,維持し,強化する,オントロジベースの知識マップという新しいモデルを提案する。 提案したモデルは、概念、属性、関係、変換、インスタンス、状態の6つの主要な集合で構成されている。 このモデルは動的であり、いつでも知識へのアクセス、更新、活用を容易にする。 本稿では,この知識モデルを扱うアーキテクチャを提案する。 システムアーキテクチャには、知識モデリング、抽出、評価、公開、活用が含まれる。 このシステムは農業における作物管理やモニタリングに利用されてきた。 他の領域への拡張が非常に効果的で有望であることが証明されている。

In recent years, data science has evolved significantly. Data analysis and mining processes become routines in all sectors of the economy where datasets are available. Vast data repositories have been collected, curated, stored, and used for extracting knowledge. And this is becoming commonplace. Subsequently, we extract a large amount of knowledge, either directly from the data or through experts in the given domain. The challenge now is how to exploit all this large amount of knowledge that is previously known for efficient decision-making processes. Until recently, much of the knowledge gained through a number of years of research is stored in static knowledge bases or ontologies, while more diverse and dynamic knowledge acquired from data mining studies is not centrally and consistently managed. In this research, we propose a novel model called ontology-based knowledge map to represent and store the results (knowledge) of data mining in crop farming to build, maintain, and enrich the process of knowledge discovery. The proposed model consists of six main sets: concepts, attributes, relations, transformations, instances, and states. This model is dynamic and facilitates the access, updates, and exploitation of the knowledge at any time. This paper also proposes an architecture for handling this knowledge-based model. The system architecture includes knowledge modelling, extraction, assessment, publishing, and exploitation. This system has been implemented and used in agriculture for crop management and monitoring. It is proven to be very effective and promising for its extension to other domains.
翻訳日:2022-07-19 16:15:21 公開日:2022-07-15
# アクティブ話者検出のための長期空間時間グラフの学習

Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection ( http://arxiv.org/abs/2207.07783v1 )

ライセンス: Link先を確認
Kyle Min, Sourya Roy, Subarna Tripathi, Tanaya Guha, Somdeb Majumdar(参考訳) 複数の話者を持つビデオにおけるアクティブ話者検出(ASD)は、長時間の時間的窓越しに効果的な聴覚的特徴と空間的相関を学習する必要があるため、難しい課題である。 本稿では,ASDのような複雑なタスクを解くことのできる空間時空間グラフ学習フレームワークであるSPELLを提案する。 この目的のために、まず、ビデオフレーム内の各人が、そのフレームのユニークなノードにエンコードされる。 フレームにまたがる1人の人に対応するノードが接続され、その時間的ダイナミクスをエンコードする。 フレーム内のノードは、対人関係をエンコードするためにも接続される。 これにより、ノード分類タスクにasdを還元する。 重要なことに、s spellは計算コストの高い完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長い時間的コンテキストを推論できる。 AVA-ActiveSpeakerデータセットの広範な実験を通じて、グラフに基づく表現の学習は、その空間的および時間的構造からアクティブな話者検出性能を著しく向上させることができることを示した。 SPELLは、メモリと計算資源を大幅に減らしながら、これまでの最先端のアプローチよりも優れている。 私たちのコードはhttps://github.com/SRA2/SPELLで公開されています。

Active speaker detection (ASD) in videos with multiple speakers is a challenging task as it requires learning effective audiovisual features and spatial-temporal correlations over long temporal windows. In this paper, we present SPELL, a novel spatial-temporal graph learning framework that can solve complex tasks such as ASD. To this end, each person in a video frame is first encoded in a unique node for that frame. Nodes corresponding to a single person across frames are connected to encode their temporal dynamics. Nodes within a frame are also connected to encode inter-person relationships. Thus, SPELL reduces ASD to a node classification task. Importantly, SPELL is able to reason over long temporal contexts for all nodes without relying on computationally expensive fully connected graph neural networks. Through extensive experiments on the AVA-ActiveSpeaker dataset, we demonstrate that learning graph-based representations can significantly improve the active speaker detection performance owing to its explicit spatial and temporal structure. SPELL outperforms all previous state-of-the-art approaches while requiring significantly lower memory and computational resources. Our code is publicly available at https://github.com/SRA2/SPELL
翻訳日:2022-07-19 16:12:35 公開日:2022-07-15
# 損失勾配に基づく解法における異常挙動

Anomalous behaviour in loss-gradient based interpretability methods ( http://arxiv.org/abs/2207.07769v1 )

ライセンス: Link先を確認
Vinod Subramanian, Siddharth Gururani, Emmanouil Benetos, Mark Sandler(参考訳) ロスグラディエントは、ディープラーニングモデルの意思決定プロセスの解釈に使用される。 そこで本研究では,入力部をoccludingし,そのoccluded入力の性能を元の入力と比較することにより,損失勾配に基づく帰属法を評価する。 閉鎖された入力は、特定の条件下でテストデータセットのオリジナルよりも優れた性能を示す。 同様の行動は、音響および画像認識タスクで観察される。 咬合時の性能改善現象を説明するために, 異なる損失勾配帰属法, 咬合レベル, 置換値について検討した。

Loss-gradients are used to interpret the decision making process of deep learning models. In this work, we evaluate loss-gradient based attribution methods by occluding parts of the input and comparing the performance of the occluded input to the original input. We observe that the occluded input has better performance than the original across the test dataset under certain conditions. Similar behaviour is observed in sound and image recognition tasks. We explore different loss-gradient attribution methods, occlusion levels and replacement values to explain the phenomenon of performance improvement under occlusion.
翻訳日:2022-07-19 15:44:38 公開日:2022-07-15
# 音声・機械インタラクションにおけるコミュニケーション障害下の混乱と感情状態の理解に向けて

Towards Understanding Confusion and Affective States Under Communication Failures in Voice-Based Human-Machine Interaction ( http://arxiv.org/abs/2207.07693v1 )

ライセンス: Link先を確認
Sujeong Kim, Abhinav Garlapati, Jonah Lubin, Amir Tamrakar, Ajay Divakaran(参考訳) 本稿では,音声に基づく人間と機械のインタラクションにおけるユーザの感情状態を理解するための2つの研究について述べる。 コミュニケーションエラーや障害のケースに重点が置かれている。 特に「融合」を他の情緒的状態と関連づけて理解することに関心がある。 本研究は,(1)音声ベースの仮想エージェントとのコミュニケーションに関連する2つのタスク : 機械に話し,機械が何を言っているのか理解すること,(2) 参加者がパズルや謎を解きながら,その答えを口頭で説明することを求める非コミュニケーション的問題解決タスク,の2つからなる。 参加者の情緒状態の視聴覚データと自己報告を収集した。 収集したデータの2つの研究結果と分析結果を報告する。 第1の研究では注釈者の観察に基づいて分析され,第2の研究では自己報告に基づいて分析された。

We present a series of two studies conducted to understand user's affective states during voice-based human-machine interactions. Emphasis is placed on the cases of communication errors or failures. In particular, we are interested in understanding "confusion" in relation with other affective states. The studies consist of two types of tasks: (1) related to communication with a voice-based virtual agent: speaking to the machine and understanding what the machine says, (2) non-communication related, problem-solving tasks where the participants solve puzzles and riddles but are asked to verbally explain the answers to the machine. We collected audio-visual data and self-reports of affective states of the participants. We report results of two studies and analysis of the collected data. The first study was analyzed based on the annotator's observation, and the second study was analyzed based on the self-report.
翻訳日:2022-07-19 15:16:44 公開日:2022-07-15
# Covid-19予測のための厳密なベースラインと米国とロシアのML視点

Strict baselines for Covid-19 forecasting and ML perspective for USA and Russia ( http://arxiv.org/abs/2207.07689v1 )

ライセンス: Link先を確認
Alexander G. Sboev, Nikolay A. Kudryshov, Ivan A. Moloshnikov, Saveliy V. Zavertyaev, Aleksandr V. Naumov and Roman B. Rybka(参考訳) 現在、Covid-19の進化により、研究者は2年間にわたって蓄積されたデータセットを収集し、予測分析に使用することができる。 これにより、予測の地平線が異なるニューラルネットワークを含む、より複雑な予測モデルの効率性を評価することが可能になる。 本稿では、米国とロシアの2カ国の地域データに基づいて、Covid-19の拡散のダイナミクスを予測するための様々な種類の方法に関する一貫した研究結果を示す。 私たちは、よく知られた統計手法(例:Exponential Smoothing)、"tomorrow-as-day"アプローチ、および個々のリージョンのデータに基づいてトレーニングされた古典的な機械学習モデルのセットを使用しました。 それらとともに、長期短期記憶(lstm)層に基づくニューラルネットワークモデルが検討され、そのトレーニングサンプルが米国とロシアという2つの国のすべての地域から収集されたデータを集約した。 MAPE測定値に従ってクロスバリデーションを用いて効率評価を行った。 その結果,1日当たりの感染者数の増加を特徴とする複雑な期間において,各地域を訓練したlstmモデルにより,ロシアでは18%,30%,37%,ロシアでは31%,41%,米国では14日,28日,42日の平均絶対パーセンテージ誤差(mape)が,それぞれ51%,41%,50%の予測値を示した。

Currently, the evolution of Covid-19 allows researchers to gather the datasets accumulated over 2 years and to use them in predictive analysis. In turn, this makes it possible to assess the efficiency potential of more complex predictive models, including neural networks with different forecast horizons. In this paper, we present the results of a consistent comparative study of different types of methods for predicting the dynamics of the spread of Covid-19 based on regional data for two countries: the United States and Russia. We used well-known statistical methods (e.g., Exponential Smoothing), a "tomorrow-as-today" approach, as well as a set of classic machine learning models trained on data from individual regions. Along with them, a neural network model based on Long short-term memory (LSTM) layers was considered, the training samples of which aggregate data from all regions of two countries: the United States and Russia. Efficiency evaluation was carried out using cross-validation according to the MAPE metric. It is shown that for complicated periods characterized by a large increase in the number of confirmed daily cases, the best results are shown by the LSTM model trained on all regions of both countries, showing an average Mean Absolute Percentage Error (MAPE) of 18%, 30%, 37% for Russia and 31%, 41%, 50% for US for predictions at forecast horizons of 14, 28, and 42 days, respectively.
翻訳日:2022-07-19 15:07:13 公開日:2022-07-15
# 共同学習型潜在空間からの強化学習エージェントの出力誘導対策

Outcome-Guided Counterfactuals for Reinforcement Learning Agents from a Jointly Trained Generative Latent Space ( http://arxiv.org/abs/2207.07710v1 )

ライセンス: Link先を確認
Eric Yeh, Pedro Sequeira, Jesse Hostetler, Melinda Gervasio(参考訳) 本稿では,エージェントの振る舞いを特徴付ける結果変数に基づく強化学習 (rl) エージェントの非知覚的かつ妥当な反事実例を生成する新しい生成法を提案する。 提案手法は,エージェントの行動に関連する観測値と結果変数に関する情報を共同でエンコードする潜在空間を学習するために変分オートエンコーダを用いる。 この潜在空間のトラバーサル、勾配駆動更新、サンプルプールから引き出されたケースに対する潜時補間によって、カウンターファクトが生成される。 これには、生成されたサンプルの可能性を高める更新が含まれている。 3つのRL環境における実験から、これらの手法は、純粋に結果駆動あるいはケースベースベースラインと比較して、クエリに対してより妥当で近似的な反ファクトアルを生成することを示す。 最後に,入力観測値と行動結果変数の両方を再構成するために共同で訓練された潜伏者が,観測入力を再構築するために訓練された潜伏者に対して高い品質の反事実を生じさせることを示した。

We present a novel generative method for producing unseen and plausible counterfactual examples for reinforcement learning (RL) agents based upon outcome variables that characterize agent behavior. Our approach uses a variational autoencoder to train a latent space that jointly encodes information about the observations and outcome variables pertaining to an agent's behavior. Counterfactuals are generated using traversals in this latent space, via gradient-driven updates as well as latent interpolations against cases drawn from a pool of examples. These include updates to raise the likelihood of generated examples, which improves the plausibility of generated counterfactuals. From experiments in three RL environments, we show that these methods produce counterfactuals that are more plausible and proximal to their queries compared to purely outcome-driven or case-based baselines. Finally, we show that a latent jointly trained to reconstruct both the input observations and behavioral outcome variables produces higher-quality counterfactuals over latents trained solely to reconstruct the observation inputs.
翻訳日:2022-07-19 15:05:30 公開日:2022-07-15
# HOME: 表現学習のための高次混合モーメント型埋め込み

HOME: High-Order Mixed-Moment-based Embedding for Representation Learning ( http://arxiv.org/abs/2207.07743v1 )

ライセンス: Link先を確認
Chuang Niu and Ge Wang(参考訳) 潜在空間への埋め込みの異なる要素間の最小冗長性は、内在的な情報構造を捉えるために表現学習において基本的な要件または主要な選好である。 現在の自己教師付き学習手法は、ペアワイズ共分散行列を最小化し、特徴冗長性を低減し、有望な結果をもたらす。 しかし、このような多重変数の表現特徴は、ペアワイズ正規化によって最小化できない2つ以上の特徴変数の冗長性を含むことがある。 本稿では,任意の特徴変数のセット間の冗長性を低減するための高階混合モーメントに基づく埋め込み(home)戦略を提案する。 多変量相互情報が最小であることと、複数の変数が相互独立であることは、複数の変数間の分解混合モーメントの必要条件を示唆する。 これらの統計的および情報理論の原則に基づき,自己指導型表現学習のための一般HOMEフレームワークを提案する。 最初の実験では、3階のHOMEスキームの単純なバージョンは、表現特徴の線形評価において、現在の2階のベースライン法(Barlow Twins)よりもかなり優れていることを示した。

Minimum redundancy among different elements of an embedding in a latent space is a fundamental requirement or major preference in representation learning to capture intrinsic informational structures. Current self-supervised learning methods minimize a pair-wise covariance matrix to reduce the feature redundancy and produce promising results. However, such representation features of multiple variables may contain the redundancy among more than two feature variables that cannot be minimized via the pairwise regularization. Here we propose the High-Order Mixed-Moment-based Embedding (HOME) strategy to reduce the redundancy between any sets of feature variables, which is to our best knowledge the first attempt to utilize high-order statistics/information in this context. Multivariate mutual information is minimum if and only if multiple variables are mutually independent, which suggests the necessary conditions of factorized mixed moments among multiple variables. Based on these statistical and information theoretic principles, our general HOME framework is presented for self-supervised representation learning. Our initial experiments show that a simple version in the form of a three-order HOME scheme already significantly outperforms the current two-order baseline method (i.e., Barlow Twins) in terms of the linear evaluation on representation features.
翻訳日:2022-07-19 14:13:39 公開日:2022-07-15
# 線形モデル上では眠らない: 簡易かつ解釈可能な深層学習法

Do Not Sleep on Linear Models: Simple and Interpretable Techniques Outperform Deep Learning for Sleep Scoring ( http://arxiv.org/abs/2207.07753v1 )

ライセンス: Link先を確認
Jeroen Van Der Donckt, Jonas Van Der Donckt, Emiel Deprost, Michael Rademaker, Gilles Vandewiele, Sofie Van Hoecke(参考訳) 過去数年間、自動睡眠スコアリングの研究は、より複雑なディープラーニングアーキテクチャの開発に重点を置いてきた。 しかし、最近これらのアプローチは限界的な改善しか達成せず、多くの場合、より多くのデータとより高価な訓練手順を必要とした。 これらの努力と十分な性能にもかかわらず、自動睡眠ステージングソリューションはまだ臨床環境では広く採用されていない。 睡眠スコアリングのためのディープラーニングソリューションのほとんどは、トレーニング、デプロイ、再現が難しいため、実際の適用性に制限がある、と私たちは主張する。 さらに、これらのソリューションには解釈可能性や透明性が欠如しています。 本研究では,従来の機械学習を用いた睡眠ステージ分類の問題を再考する。 その結果、前処理、特徴抽出、単純な機械学習モデルからなる従来の機械学習パイプラインによって、最先端のパフォーマンスを達成できることがわかった。 特に線形モデルと非線形(漸進的なブースティング)モデルの性能を解析する。 当社のアプローチは,Sleep-EDF SC-20 (MF1 0.810) とSleep-EDF ST (MF1 0.795) の2つの公開データセット上での最先端(同じデータを使用する)を越えつつ,Sleep-EDF SC-78 (MF1 0.775) とMASS SS3 (MF1 0.817) の競合結果を達成している。 睡眠ステージスコアリングタスクでは,設計された特徴ベクトルの表現性は,ディープラーニングモデルの内部学習表現と同等であることが示されている。 この観察は、典型的な機能ベクターとして、従来の機械学習モデルの解釈可能性と成功実績の両方を活用できるため、臨床採用への扉を開く。

Over the last few years, research in automatic sleep scoring has mainly focused on developing increasingly complex deep learning architectures. However, recently these approaches achieved only marginal improvements, often at the expense of requiring more data and more expensive training procedures. Despite all these efforts and their satisfactory performance, automatic sleep staging solutions are not widely adopted in a clinical context yet. We argue that most deep learning solutions for sleep scoring are limited in their real-world applicability as they are hard to train, deploy, and reproduce. Moreover, these solutions lack interpretability and transparency, which are often key to increase adoption rates. In this work, we revisit the problem of sleep stage classification using classical machine learning. Results show that state-of-the-art performance can be achieved with a conventional machine learning pipeline consisting of preprocessing, feature extraction, and a simple machine learning model. In particular, we analyze the performance of a linear model and a non-linear (gradient boosting) model. Our approach surpasses state-of-the-art (that uses the same data) on two public datasets: Sleep-EDF SC-20 (MF1 0.810) and Sleep-EDF ST (MF1 0.795), while achieving competitive results on Sleep-EDF SC-78 (MF1 0.775) and MASS SS3 (MF1 0.817). We show that, for the sleep stage scoring task, the expressiveness of an engineered feature vector is on par with the internally learned representations of deep learning models. This observation opens the door to clinical adoption, as a representative feature vector allows to leverage both the interpretability and successful track record of traditional machine learning models.
翻訳日:2022-07-19 14:06:23 公開日:2022-07-15
# (参考訳) 非協調対話のモデル化:理論的および実証的考察

Modeling Non-Cooperative Dialogue: Theoretical and Empirical Insights ( http://arxiv.org/abs/2207.07255v1 )

ライセンス: CC BY 4.0
Anthony Sicilia, Tristan Maidment, Pat Healy, and Malihe Alikhani(参考訳) 対話の実用性の研究において,対話者の協力性を検討することが中心である。 協調エージェントのみを仮定する会話モデルは、戦略的な会話のダイナミクスを説明できない。 そこで本研究では,視覚対話タスクの完了時に非協調的インターロケータを識別するエージェントについて検討する。 本稿では,このマルチタスク目標を達成するためのコミュニケーション戦略の最適性について検討する。 学習理論のツールを用いて,非協力的対話者同定のための理論モデルを構築し,この理論を異なるコミュニケーション戦略に応用する。 また,画像に関する非協力的な会話のコーパスについても紹介する。 De Vriesらによって提案されたデータセット(2017年)。 我々は強化学習を用いて、この文脈で複数のコミュニケーション戦略を実装し、実験結果から理論を検証する。

Investigating cooperativity of interlocutors is central in studying pragmatics of dialogue. Models of conversation that only assume cooperative agents fail to explain the dynamics of strategic conversations. Thus, we investigate the ability of agents to identify non-cooperative interlocutors while completing a concurrent visual-dialogue task. Within this novel setting, we study the optimality of communication strategies for achieving this multi-task objective. We use the tools of learning theory to develop a theoretical model for identifying non-cooperative interlocutors and apply this theory to analyze different communication strategies. We also introduce a corpus of non-cooperative conversations about images in the GuessWhat?! dataset proposed by De Vries et al. (2017). We use reinforcement learning to implement multiple communication strategies in this context and find empirical results validate our theory.
翻訳日:2022-07-18 22:32:43 公開日:2022-07-15
# (参考訳) 時間変動スカラーアンサンブルのための深層学習による確率的マーチングキューブの高速化

Accelerated Probabilistic Marching Cubes by Deep Learning for Time-Varying Scalar Ensembles ( http://arxiv.org/abs/2207.07260v1 )

ライセンス: CC BY 4.0
Mengjiao Han, Tushar M. Athawale, David Pugmire, and Chris R. Johnson(参考訳) アンサンブルシミュレーションの不確かさの可視化は、アンサンブルデータセットの大きさと多変量、時間的特徴のため困難である。 アンサンブルの不確実性を研究する一般的なアプローチは、レベル集合の位置的不確実性を分析することである。 確率的マーチングキューブ(probabilistic marching cubes)は、レベル集合の位置不確実性可視化のための多変量ガウス雑音分布のモンテカルロサンプリングを行う手法である。 しかし、この技術は高い計算時間に悩まされ、インタラクティブな可視化と分析が不可能になる。 本稿では,多変量ガウス雑音を仮定した2次元アンサンブルデータのレベルセット不確かさを学習するためのディープラーニング手法を提案する。 ワークフロー内の時間変動アンサンブルデータから、最初の数ステップでモデルをトレーニングします。 トレーニングしたモデルでは,新しい時間ステップのレベルセットの不確かさを正確に推測し,シリアル計算による元の確率モデルよりも最大170倍,元の並列計算よりも10倍高速であることを示す。

Visualizing the uncertainty of ensemble simulations is challenging due to the large size and multivariate and temporal features of ensemble data sets. One popular approach to studying the uncertainty of ensembles is analyzing the positional uncertainty of the level sets. Probabilistic marching cubes is a technique that performs Monte Carlo sampling of multivariate Gaussian noise distributions for positional uncertainty visualization of level sets. However, the technique suffers from high computational time, making interactive visualization and analysis impossible to achieve. This paper introduces a deep-learning-based approach to learning the level-set uncertainty for two-dimensional ensemble data with a multivariate Gaussian noise assumption. We train the model using the first few time steps from time-varying ensemble data in our workflow. We demonstrate that our trained model accurately infers uncertainty in level sets for new time steps and is up to 170X faster than that of the original probabilistic model with serial computation and 10X faster than that of the original parallel computation.
翻訳日:2022-07-18 22:04:28 公開日:2022-07-15
# (参考訳) ScaleNet: スケールするモデルを検索する

ScaleNet: Searching for the Model to Scale ( http://arxiv.org/abs/2207.07267v1 )

ライセンス: CC BY 4.0
Jiyang Xie and Xiu Su and Shan You and Zhanyu Ma and Fei Wang and Chen Qian(参考訳) 近年,モデルスケールに対するコミュニティの注目が高まり,幅広いスケールのモデルファミリの開発に寄与している。 現在の手法は、単に単発NAS方式で非構造的かつ非スケーリング可能なモデルファミリを構築するか、あるいは必要のない最高のベースモデルをスケールするために手動で固定されたスケーリング戦略に依存する。 本稿では,2つのコンポーネントをブリッジし,スケールネットを用いてベースモデルとスケーリング戦略を共同で探索し,スケールした大規模モデルによりより有望な性能を実現することを提案する。 具体的には、異なる大きさのモデル(FLOPなど)を具現化するスーパーネットを設計する。 次に、スケーリング戦略をマルコフ連鎖に基づく進化アルゴリズムを通じてベースモデルと対話的に学習し、さらに大きなモデルを開発するために一般化することができる。 適切なスーパーネットを得るために,トレーニングの充実と障害軽減のために階層的なサンプリング戦略を設計する。 実験の結果,大規模ネットワークは様々なFLOPに対して,少なくとも2.53倍のコストで性能上の優位性が得られた。 コードはhttps://github.com/luminolx/scalenetで入手できる。

Recently, community has paid increasing attention on model scaling and contributed to developing a model family with a wide spectrum of scales. Current methods either simply resort to a one-shot NAS manner to construct a non-structural and non-scalable model family or rely on a manual yet fixed scaling strategy to scale an unnecessarily best base model. In this paper, we bridge both two components and propose ScaleNet to jointly search base model and scaling strategy so that the scaled large model can have more promising performance. Concretely, we design a super-supernet to embody models with different spectrum of sizes (e.g., FLOPs). Then, the scaling strategy can be learned interactively with the base model via a Markov chain-based evolution algorithm and generalized to develop even larger models. To obtain a decent super-supernet, we design a hierarchical sampling strategy to enhance its training sufficiency and alleviate the disturbance. Experimental results show our scaled networks enjoy significant performance superiority on various FLOPs, but with at least 2.53x reduction on search cost. Codes are available at https://github.com/luminolx/ScaleNet.
翻訳日:2022-07-18 21:52:16 公開日:2022-07-15
# (参考訳) WaveGAN:高精細画像生成のための周波数対応GAN

WaveGAN: Frequency-aware GAN for High-Fidelity Few-shot Image Generation ( http://arxiv.org/abs/2207.07288v1 )

ライセンス: CC BY 4.0
Mengping Yang, Zhe Wang, Ziqiu Chi, Wenyi Feng(参考訳) 既存の少数の画像生成アプローチでは、通常、新しい画像を生成するために、画像または特徴レベルの融合ベースの戦略を用いる。 しかし、従来の手法では高周波信号の微細な合成に苦慮し、合成品質を低下させた。 そこで我々は,数ショット画像生成のための周波数認識モデルWaveGANを提案する。 具体的には、符号化された特徴を複数の周波数成分に分解し、低周波スキップ接続を行い、アウトラインと構造情報を保存する。 そして、高周波スキップ接続を用いて細部を合成する際の発電機の苦労を軽減し、発電機に情報伝達周波数情報を提供する。 また、生成画像及び実画像の周波数l1ロスを利用して、さらに周波数情報損失を阻害する。 3つのデータセットに対して,本手法の有効性と進歩を示す実験を行った。 FID 42.17, LPIPS 0.3868, FID 30.35, LPIPS 0.5076, FID 4.96, LPIPS 0.3822をそれぞれ花、動物顔、VGGFaceで実現した。 GitHub:https://github.com/kobeshegu/ECCV2022_WaveGAN

Existing few-shot image generation approaches typically employ fusion-based strategies, either on the image or the feature level, to produce new images. However, previous approaches struggle to synthesize high-frequency signals with fine details, deteriorating the synthesis quality. To address this, we propose WaveGAN, a frequency-aware model for few-shot image generation. Concretely, we disentangle encoded features into multiple frequency components and perform low-frequency skip connections to preserve outline and structural information. Then we alleviate the generator's struggles of synthesizing fine details by employing high-frequency skip connections, thus providing informative frequency information to the generator. Moreover, we utilize a frequency L1-loss on the generated and real images to further impede frequency information loss. Extensive experiments demonstrate the effectiveness and advancement of our method on three datasets. Noticeably, we achieve new state-of-the-art with FID 42.17, LPIPS 0.3868, FID 30.35, LPIPS 0.5076, and FID 4.96, LPIPS 0.3822 respectively on Flower, Animal Faces, and VGGFace. GitHub: https://github.com/kobeshegu/ECCV2022_WaveGAN
翻訳日:2022-07-18 21:51:12 公開日:2022-07-15
# (参考訳) CC-Fuzz: ストレステスト渋滞制御アルゴリズムのための遺伝的アルゴリズムベースのファジング

CC-Fuzz: Genetic algorithm-based fuzzing for stress testing congestion control algorithms ( http://arxiv.org/abs/2207.07300v1 )

ライセンス: CC BY 4.0
Devdeep Ray and Srinivasan Seshan(参考訳) 渋滞制御の研究はここ数年で大きな関心を集めており、特定のアプリケーションのニーズを念頭に設計されたアルゴリズムが数多く存在する。 これらのアルゴリズムは、インターネットにデプロイする前に限定的なテストを行い、他の渋滞制御アルゴリズムと相互作用し、様々なネットワーク条件で実行される。 これはアルゴリズム上の不備や実装上のバグのため、予期せぬパフォーマンス問題を引き起こすことが少なく、パケットトレースが利用できないため、これらの問題は識別が難しいことが多い。 本稿では,遺伝的探索アルゴリズムを用いて,逆ネットワークトレースとトラヒックパターンを生成し,渋滞制御アルゴリズムを強調する自動渋滞制御テストフレームワークであるcc-fuzzを提案する。 cc-fuzzは自動的にbbrのバグを発見し、それを永久に停止させ、よく知られた低レートtcp攻撃を自動的に発見することができる。

Congestion control research has experienced a significant increase in interest in the past few years, with many purpose-built algorithms being designed with the needs of specific applications in mind. These algorithms undergo limited testing before being deployed on the Internet, where they interact with other congestion control algorithms and run across a variety of network conditions. This often results in unforeseen performance issues in the wild due to algorithmic inadequacies or implementation bugs, and these issues are often hard to identify since packet traces are not available. In this paper, we present CC-Fuzz, an automated congestion control testing framework that uses a genetic search algorithm in order to stress test congestion control algorithms by generating adversarial network traces and traffic patterns. Initial results using this approach are promising - CC-Fuzz automatically found a bug in BBR that causes it to stall permanently, and is able to automatically discover the well-known low-rate TCP attack, among other things.
翻訳日:2022-07-18 21:36:12 公開日:2022-07-15
# (参考訳) Bitcoinブロックチェーンにおけるマネーフローのパターン解析

Pattern Analysis of Money Flow in the Bitcoin Blockchain ( http://arxiv.org/abs/2207.07315v1 )

ライセンス: CC BY 4.0
Natkamon Tovanich, R\'emy Cazabet(参考訳) bitcoinは、ブロックチェーンと呼ばれる公開分散台帳にトランザクションを格納する最初の、そして最も価値の高い暗号通貨である。 Bitcoinアクターの活動と振る舞いを理解することは、トランザクションネットワークで匿名であることから、重要な研究トピックである。 本稿では,初期源から他のアクターに転送されるBitcoinのシーケンスを表す動的ネットワークを,崩壊するまでのテントフローを抽出するためのテント解析に基づく手法を提案する。 次に,グラフ埋め込み法を適用し,テイントフローを特徴付ける。 本手法は,トップマイニングプールからのtaint流を用いた埋込み手法を評価し,高精度にマイニングプールを分類できることを示す。 また,同時期のtaint流は類似度が高いことがわかった。 我々の研究は、マネーフローの追跡がソースアクターを分類し、異なるマネーフローパターンを特徴付けるための有望なアプローチであることを証明している。

Bitcoin is the first and highest valued cryptocurrency that stores transactions in a publicly distributed ledger called the blockchain. Understanding the activity and behavior of Bitcoin actors is a crucial research topic as they are pseudonymous in the transaction network. In this article, we propose a method based on taint analysis to extract taint flows --dynamic networks representing the sequence of Bitcoins transferred from an initial source to other actors until dissolution. Then, we apply graph embedding methods to characterize taint flows. We evaluate our embedding method with taint flows from top mining pools and show that it can classify mining pools with high accuracy. We also found that taint flows from the same period show high similarity. Our work proves that tracing the money flows can be a promising approach to classifying source actors and characterizing different money flow patterns
翻訳日:2022-07-18 21:24:35 公開日:2022-07-15
# (参考訳) 周波数領域における学習可能なプライバシー予算を用いたプライバシー保全型顔認識

Privacy-Preserving Face Recognition with Learnable Privacy Budgets in Frequency Domain ( http://arxiv.org/abs/2207.07316v1 )

ライセンス: CC BY 4.0
Jiazhen Ji, Huan Wang, Yuge Huang, Jiaxiang Wu, Xingkun Xu, Shouhong Ding, ShengChuan Zhang, Liujuan Cao, Rongrong Ji(参考訳) 顔認識技術は、モバイルデバイスのアンロック、コミュニティアクセス制御システム、都市監視など、高い認識精度のために、多くの分野で使用されている。 現在の高い精度は、非常に深いネットワーク構造によって保証されているため、推論のために高い計算能力を持つサードパーティサーバーに顔画像を送信する必要がある。 しかし、顔画像はユーザーの身元情報を視覚的に明らかにする。 このプロセスでは、信頼できないサービスプロバイダと悪意のあるユーザの両方が、個人のプライバシー侵害のリスクを著しく増加させます。 顔認識に対する現在のプライバシー保護アプローチには、推論時間の大幅な増加や認識精度の低下など、多くの副作用が伴うことが多い。 本稿では,周波数領域における差分プライバシーを用いた顔認識手法を提案する。 差分プライバシーの利用により、理論上はプライバシーの保証を提供する。 一方、精度の低下はごくわずかである。 この方法はまず、元の画像を周波数領域に変換し、直流と呼ばれる直接成分を除去する。 そして、差分プライバシーフレームワーク内のバックエンド顔認識ネットワークの損失に基づいて、プライバシ予算割当方法を学習することができる。 最後に、周波数領域の特徴に対応するノイズを追加する。 提案手法は,複数の古典的顔認証テストセットにおいて,広範囲な実験により非常によく機能する。

Face recognition technology has been used in many fields due to its high recognition accuracy, including the face unlocking of mobile devices, community access control systems, and city surveillance. As the current high accuracy is guaranteed by very deep network structures, facial images often need to be transmitted to third-party servers with high computational power for inference. However, facial images visually reveal the user's identity information. In this process, both untrusted service providers and malicious users can significantly increase the risk of a personal privacy breach. Current privacy-preserving approaches to face recognition are often accompanied by many side effects, such as a significant increase in inference time or a noticeable decrease in recognition accuracy. This paper proposes a privacy-preserving face recognition method using differential privacy in the frequency domain. Due to the utilization of differential privacy, it offers a guarantee of privacy in theory. Meanwhile, the loss of accuracy is very slight. This method first converts the original image to the frequency domain and removes the direct component termed DC. Then a privacy budget allocation method can be learned based on the loss of the back-end face recognition network within the differential privacy framework. Finally, it adds the corresponding noise to the frequency domain features. Our method performs very well with several classical face recognition test sets according to the extensive experiments.
翻訳日:2022-07-18 21:14:33 公開日:2022-07-15
# (参考訳) 畳み込みニューラルネットワークを用いたNEXRAD測定によるSARによる雨量推定

Rain Rate Estimation with SAR using NEXRAD measurements with Convolutional Neural Networks ( http://arxiv.org/abs/2207.07333v1 )

ライセンス: CC BY 4.0
Aur\'elien Colin (1 and 2) and Pierre Tandeo (1) and Charles Peureux (2) and Romain Husson (2) and Nicolas Longepe (3) and Ronan Fablet (1) ((1) IMT Atlantique, Lab-STICC, UMR CNRS, France, (2) Collecte Localisation Satellites, Brest, France, (3) \Phi-lab Explore Office, ESRIN, European Space Agency (ESA), Frascati, Italy)(参考訳) 降雨イベントのリモートセンシングは、例えば天気予報、極端な洪水緩和、水循環モニタリングなど、運用と科学の両方のニーズに対して重要である。 NOAAの次世代レーダー(NEXRAD)のような地上の気象レーダーは、降雨イベントの反射率と降水量の測定を提供する。 しかし、これらのレーダーの観測範囲は数百kmに制限されており、特に陸地レーダーで覆われていない広大な地域を表わす開海での他のリモートセンシング手法の探査が進められている。 何十年もの間、センチネル1のようなCバンドSAR画像は、海面に降雨の兆候を示すことが知られている。 しかし, SAR由来の降雨製品の開発は依然として課題である。 本稿では,SAR画像から降雨情報を抽出する深層学習手法を提案する。 u-net のような畳み込みニューラルネットワークが,先行処理された sentinel-1/nexrad データセット上でトレーニングされることが,最先端のフィルタリングスキームを明らかに上回っていることを実証する。 その結果,セグメンテーション降水量は,1,3,10mm/hの閾値で,高い性能を示した。 コッホフィルタを用いて2値の降雨マップを描画する現在の手法と比較して、これらのマルチスレッド学習ベースのモデルは、より高い風速で降雨推定を行うことができるため、データ同化天気予報やSAR由来の風速データの性能向上に大きな関心を持つ可能性がある。

Remote sensing of rainfall events is critical for both operational and scientific needs, including for example weather forecasting, extreme flood mitigation, water cycle monitoring, etc. Ground-based weather radars, such as NOAA's Next-Generation Radar (NEXRAD), provide reflectivity and precipitation measurements of rainfall events. However, the observation range of such radars is limited to a few hundred kilometers, prompting the exploration of other remote sensing methods, paricularly over the open ocean, that represents large areas not covered by land-based radars. For a number of decades, C-band SAR imagery such a such as Sentinel-1 imagery has been known to exhibit rainfall signatures over the sea surface. However, the development of SAR-derived rainfall products remains a challenge. Here we propose a deep learning approach to extract rainfall information from SAR imagery. We demonstrate that a convolutional neural network, such as U-Net, trained on a colocated and preprocessed Sentinel-1/NEXRAD dataset clearly outperforms state-of-the-art filtering schemes. Our results indicate high performance in segmenting precipitation regimes, delineated by thresholds at 1, 3, and 10 mm/h. Compared to current methods that rely on Koch filters to draw binary rainfall maps, these multi-threshold learning-based models can provide rainfall estimation for higher wind speeds and thus may be of great interest for data assimilation weather forecasting or for improving the qualification of SAR-derived wind field data.
翻訳日:2022-07-18 21:02:22 公開日:2022-07-15
# (参考訳) ステレオ画像jpegアーティファクト除去のための学習パララックストランスフォーマネットワーク

Learning Parallax Transformer Network for Stereo Image JPEG Artifacts Removal ( http://arxiv.org/abs/2207.07335v1 )

ライセンス: CC BY 4.0
Xuhao Jiang, Weimin Tan, Ri Cheng, Shili Zhou and Bo Yan(参考訳) ステレオ設定では、第2ビューが提供する追加情報を活用することにより、画像JPEGアーティファクト削除のパフォーマンスをさらに向上することができる。 しかし、この情報をステレオ画像JPEGアーティファクトに組み込むことは、既存の圧縮アーティファクトがピクセルレベルのビューアライメントを困難にしているため、大きな課題である。 本稿では,ステレオ画像JPEGアーティファクト除去のためのステレオ画像ペアからの情報を統合するための新しいパララックストランスフォーマーネットワーク(PTNet)を提案する。 具体的には、よく設計された対称双方向パララックストランスモジュールが、画素レベルの表示アライメントではなく、異なるビュー間の類似したテクスチャに適合するように提案されている。 咬合と境界の問題から,両ビューのクロスビュー機能に信頼度マップを重み付けて機能融合を実現するために,信頼度ベースのクロスビュー融合モジュールが提案されている。 特に、クロスビューインタラクションに粗大な設計を採用することで、パフォーマンスが向上する。 総合的な実験結果から,ptnetは圧縮アーティファクトを効果的に除去し,他のテスト手法よりも優れた性能を得ることができた。

Under stereo settings, the performance of image JPEG artifacts removal can be further improved by exploiting the additional information provided by a second view. However, incorporating this information for stereo image JPEG artifacts removal is a huge challenge, since the existing compression artifacts make pixel-level view alignment difficult. In this paper, we propose a novel parallax transformer network (PTNet) to integrate the information from stereo image pairs for stereo image JPEG artifacts removal. Specifically, a well-designed symmetric bi-directional parallax transformer module is proposed to match features with similar textures between different views instead of pixel-level view alignment. Due to the issues of occlusions and boundaries, a confidence-based cross-view fusion module is proposed to achieve better feature fusion for both views, where the cross-view features are weighted with confidence maps. Especially, we adopt a coarse-to-fine design for the cross-view interaction, leading to better performance. Comprehensive experimental results demonstrate that our PTNet can effectively remove compression artifacts and achieves superior performance than other testing state-of-the-art methods.
翻訳日:2022-07-18 20:45:53 公開日:2022-07-15
# (参考訳) duetface: 周波数領域におけるチャネル分割によるプライバシー保護型顔認識

DuetFace: Collaborative Privacy-Preserving Face Recognition via Channel Splitting in the Frequency Domain ( http://arxiv.org/abs/2207.07340v1 )

ライセンス: CC BY 4.0
Yuxi Mi, Yuge Huang, Jiazhen Ji, Hongquan Liu, Xingkun Xu, Shouhong Ding, Shuigeng Zhou(参考訳) 顔認識システムの広範な応用により、オリジナルの顔画像が悪意のある意図に晒され、個人のプライバシー侵害を引き起こす可能性があるという懸念が高まっている。 本稿では,周波数領域における協調推論を利用した新しいプライバシー保護顔認識手法であるDuetFaceを提案する。 視覚的に識別不能な高周波チャネルのみを用いて、顔認識が驚くほど優れた性能を達成できるという反直感的な発見から始まり、この方法では、可視化の重要さによって周波数チャネルの信頼性の高い分割を設計し、非クラシカルチャネル上でサーバサイドモデルを操作する。 しかし、このモデルは視覚情報の欠如により顔の特徴に注意を向けない。 補うために、特徴マスクを作成してクライアント側から注意を移すことができるプラグインインタラクティブブロックを導入する。 顔の利害領域(roi)を導出し、重ね合わせることにより、マスクをさらに洗練する。 複数のデータセットに対する広範囲な実験は、高いタスク可用性と性能を維持しながら、望ましくない視覚検査、再構築、識別から顔画像を保護するための提案手法の有効性を検証する。 その結果,提案手法は保護されていないarcfaceと同等の認識精度と計算コストを達成し,最先端のプライバシ保存手法よりも優れていることがわかった。 ソースコードはhttps://github.com/tencent/tface/tree/master/recognition/tasks/duetfaceで入手できる。

With the wide application of face recognition systems, there is rising concern that original face images could be exposed to malicious intents and consequently cause personal privacy breaches. This paper presents DuetFace, a novel privacy-preserving face recognition method that employs collaborative inference in the frequency domain. Starting from a counterintuitive discovery that face recognition can achieve surprisingly good performance with only visually indistinguishable high-frequency channels, this method designs a credible split of frequency channels by their cruciality for visualization and operates the server-side model on non-crucial channels. However, the model degrades in its attention to facial features due to the missing visual information. To compensate, the method introduces a plug-in interactive block to allow attention transfer from the client-side by producing a feature mask. The mask is further refined by deriving and overlaying a facial region of interest (ROI). Extensive experiments on multiple datasets validate the effectiveness of the proposed method in protecting face images from undesired visual inspection, reconstruction, and identification while maintaining high task availability and performance. Results show that the proposed method achieves a comparable recognition accuracy and computation cost to the unprotected ArcFace and outperforms the state-of-the-art privacy-preserving methods. The source code is available at https://github.com/Tencent/TFace/tree/master/recognition/tasks/duetface.
翻訳日:2022-07-18 20:29:07 公開日:2022-07-15
# (参考訳) 補助空間からのガムベルソフトマックスサンプリングによる多様な人間の運動予測

Diverse Human Motion Prediction via Gumbel-Softmax Sampling from an Auxiliary Space ( http://arxiv.org/abs/2207.07351v1 )

ライセンス: CC BY 4.0
Lingwei Dang, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li(参考訳) 多様な人間の動き予測は、観測されたポーズのシーケンスから複数の将来のポーズシーケンスを予測することを目的としている。 従来のアプローチでは、データの状態分布をモデル化するためにディープジェネレーティブネットワークを使用し、その分布からランダムに結果をサンプリングする。 異なる結果が得られるが、通常は十分に多様性がない最も可能性の高い結果である。 最近の研究では、決定論的ネットワークを介して条件分布の複数のモードを明示的に学習しているが、限られた範囲で一定の数のモードしかカバーできない。 本稿では,深部生成モデルによって学習される不均衡マルチモーダル分布から非常に多様な結果を抽出するための新しいサンプリング戦略を提案する。 本手法では,補助空間を生成し,対象分布からの多様なサンプリングに相当する補助空間からランダムにサンプリングする。 ガムベル・ソフトマックス係数行列サンプリング法とヒンジ損失関数を促進する積極的な多様性を組み込んだ,この新しいサンプリング戦略を実装した,単純かつ効果的なネットワークアーキテクチャを提案する。 広範な実験により,従来のサンプリング手法と比較して,サンプリングの多様性と精度が著しく向上することが示された。 コードと事前学習されたモデルはhttps://github.com/droliven/diverse_sampling.comで利用可能である。

Diverse human motion prediction aims at predicting multiple possible future pose sequences from a sequence of observed poses. Previous approaches usually employ deep generative networks to model the conditional distribution of data, and then randomly sample outcomes from the distribution. While different results can be obtained, they are usually the most likely ones which are not diverse enough. Recent work explicitly learns multiple modes of the conditional distribution via a deterministic network, which however can only cover a fixed number of modes within a limited range. In this paper, we propose a novel sampling strategy for sampling very diverse results from an imbalanced multimodal distribution learned by a deep generative model. Our method works by generating an auxiliary space and smartly making randomly sampling from the auxiliary space equivalent to the diverse sampling from the target distribution. We propose a simple yet effective network architecture that implements this novel sampling strategy, which incorporates a Gumbel-Softmax coefficient matrix sampling method and an aggressive diversity promoting hinge loss function. Extensive experiments demonstrate that our method significantly improves both the diversity and accuracy of the samplings compared with previous state-of-the-art sampling approaches. Code and pre-trained models are available at https://github.com/Droliven/diverse_sampling.
翻訳日:2022-07-18 20:08:10 公開日:2022-07-15
# (参考訳) 低線量CTの予測安定性向上のためのトレーニング可能な両側フィルタ

Trainable Joint Bilateral Filters for Enhanced Prediction Stability in Low-dose CT ( http://arxiv.org/abs/2207.07368v1 )

ライセンス: CC BY 4.0
Fabian Wagner and Mareike Thies and Felix Denzinger and Mingxuan Gu and Mayank Patwari and Stefan Ploner and Noah Maul and Laura Pfaff and Yixing Huang and Andreas Maier(参考訳) 低線量CT(Low-Dose Computed Tomography)デノケーションアルゴリズムは,高画質を維持しつつ,日常的なCT取得において患者線量を減らすことを目的としている。 近年,Deep Learning~(DL)ベースの手法が導入された。 しかし, DLをベースとした認知症から臨床実践への移行には, これらのデータ駆動型アプローチは, トレーニングデータ以上の強固に一般化する必要がある。 そこで本研究では,訓練可能な連立フィルタ(JBF)と畳み込み型DLベースデノナイジングネットワークを組み合わせたハイブリッドデノナイジング手法を提案する。 提案手法では,dlに基づく特徴抽出により実現される高モデル容量と従来のjbfの信頼性を両立する。 パイプラインの一般化能力は、金属インプラントを使わずに腹部CTスキャンを訓練し、金属インプラントと頭部CTデータを用いて腹部CTを検査することで実証される。 我々のパイプラインに2つの確立されたDLベースのデノワ (RED-CNN/QAE) を埋め込むと、各バニラモデルと比較して10,\%$/$82\,\%$ (RMSE) と3,\%$/$81\,\%$ (PSNR) が金属を含む領域に6,\%$/$78\,\%$ (RMSE) と2,\%$/$4\,\%$ (PSNR) が改善される。 学習可能なjbfは、低線量ctパイプラインにおけるdlベースのデノイザの適用性を高めるために、ディープニューラルネットワークのエラーバウンドを制限する。

Low-dose computed tomography (CT) denoising algorithms aim to enable reduced patient dose in routine CT acquisitions while maintaining high image quality. Recently, deep learning~(DL)-based methods were introduced, outperforming conventional denoising algorithms on this task due to their high model capacity. However, for the transition of DL-based denoising to clinical practice, these data-driven approaches must generalize robustly beyond the seen training data. We, therefore, propose a hybrid denoising approach consisting of a set of trainable joint bilateral filters (JBFs) combined with a convolutional DL-based denoising network to predict the guidance image. Our proposed denoising pipeline combines the high model capacity enabled by DL-based feature extraction with the reliability of the conventional JBF. The pipeline's ability to generalize is demonstrated by training on abdomen CT scans without metal implants and testing on abdomen scans with metal implants as well as on head CT data. When embedding two well-established DL-based denoisers (RED-CNN/QAE) in our pipeline, the denoising performance is improved by $10\,\%$/$82\,\%$ (RMSE) and $3\,\%$/$81\,\%$ (PSNR) in regions containing metal and by $6\,\%$/$78\,\%$ (RMSE) and $2\,\%$/$4\,\%$ (PSNR) on head CT data, compared to the respective vanilla model. Concluding, the proposed trainable JBFs limit the error bound of deep neural networks to facilitate the applicability of DL-based denoisers in low-dose CT pipelines.
翻訳日:2022-07-18 19:45:31 公開日:2022-07-15
# (参考訳) ckd-transbts : 脳腫瘍分節に対するモダリティ相関交叉を用いた臨床知識駆動ハイブリッドトランスフォーマー

CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation ( http://arxiv.org/abs/2207.07370v1 )

ライセンス: CC BY 4.0
Jianwei Lin, Jiatai Lin, Cheng Lu, Hao Chen, Huan Lin, Bingchao Zhao, Zhenwei Shi, Bingjiang Qiu, Xipeng Pan, Zeyan Xu, Biao Huang, Changhong Liang, Guoqiang Han, Zaiyi Liu, Chu Han(参考訳) 磁気共鳴画像(MRI)における脳腫瘍セグメンテーション(BTS)は、脳腫瘍の診断、癌管理、研究目的に不可欠である。 10年間のBraTS課題の成功とCNNとTransformerアルゴリズムの進歩により、様々な技術的側面においてBTSの難しさに取り組むために多くの優れたBTSモデルが提案されている。 しかし、既存の研究では、マルチモダリティ画像を合理的に融合する方法はほとんど考慮されていない。 本稿では,複数のmri画像から脳腫瘍の診断方法についての臨床知識を活用し,ckd-transbtsと呼ばれる臨床知識駆動脳腫瘍分割モデルを提案する。 モーダルを全て直接結合する代わりに、MRIの画像原理に従って2つのグループに分割することで入力モーダルを再構成する。 マルチモダリティ画像の特徴を抽出するために,MCCA (Modality-correlated cross-attention block) を用いたデュアルブランチハイブリッドエンコーダを設計した。 提案モデルでは,3次元ボリューム画像の高精度な病変境界と長距離特徴抽出のための局所特徴表現機能を備えたTransformerとCNNの長所を継承する。 トランスフォーマーとCNNの特徴のギャップを埋めるために,デコーダにトランス&CNN特徴キャリブレーションブロック(TCFC)を提案する。 提案モデルは,brats 2021チャレンジデータセット上の5つのcnnモデルと6つのトランスフォーマーモデルと比較した。 大規模実験により, 提案モデルにより, 全競合他社と比較して最先端の脳腫瘍セグメンテーション性能が得られた。

Brain tumor segmentation (BTS) in magnetic resonance image (MRI) is crucial for brain tumor diagnosis, cancer management and research purposes. With the great success of the ten-year BraTS challenges as well as the advances of CNN and Transformer algorithms, a lot of outstanding BTS models have been proposed to tackle the difficulties of BTS in different technical aspects. However, existing studies hardly consider how to fuse the multi-modality images in a reasonable manner. In this paper, we leverage the clinical knowledge of how radiologists diagnose brain tumors from multiple MRI modalities and propose a clinical knowledge-driven brain tumor segmentation model, called CKD-TransBTS. Instead of directly concatenating all the modalities, we re-organize the input modalities by separating them into two groups according to the imaging principle of MRI. A dual-branch hybrid encoder with the proposed modality-correlated cross-attention block (MCCA) is designed to extract the multi-modality image features. The proposed model inherits the strengths from both Transformer and CNN with the local feature representation ability for precise lesion boundaries and long-range feature extraction for 3D volumetric images. To bridge the gap between Transformer and CNN features, we propose a Trans&CNN Feature Calibration block (TCFC) in the decoder. We compare the proposed model with five CNN-based models and six transformer-based models on the BraTS 2021 challenge dataset. Extensive experiments demonstrate that the proposed model achieves state-of-the-art brain tumor segmentation performance compared with all the competitors.
翻訳日:2022-07-18 19:40:20 公開日:2022-07-15
# (参考訳) Plex: 事前訓練された大規模モデル拡張による信頼性向上

Plex: Towards Reliability using Pretrained Large Model Extensions ( http://arxiv.org/abs/2207.07411v1 )

ライセンス: CC BY 4.0
Dustin Tran, Jeremiah Liu, Michael W. Dusenberry, Du Phan, Mark Collier, Jie Ren, Kehang Han, Zi Wang, Zelda Mariet, Huiyi Hu, Neil Band, Tim G. J. Rudner, Karan Singhal, Zachary Nado, Joost van Amersfoort, Andreas Kirsch, Rodolphe Jenatton, Nithum Thain, Honglin Yuan, Kelly Buchanan, Kevin Murphy, D. Sculley, Yarin Gal, Zoubin Ghahramani, Jasper Snoek, Balaji Lakshminarayanan(参考訳) 最近の人工知能のトレンドは、言語や視覚タスクに事前訓練されたモデルを使用することである。 したがって、様々な方法でこれらのモデルの能力を見つけることは、この分野にとって重要である。 本稿では,信頼度の高いモデルを,強い予測性能を達成するだけでなく,不確実性(例えば選択予測,オープンセット認識),堅牢な一般化(例えば,内分布や外分布データセットにおけるログの類似性などの精度と適度なスコアリングルール),適応性(例えば,アクティブラーニング,マイショット不確実性)を含む多くの意思決定タスクに対して,一貫して実行するモデルと定義する。 視覚領域と言語領域の両方で信頼性の異なる側面を評価するために,40以上のデータセットに対して10種類のタスクを考案した。 信頼性を向上させるため,視力と言語モダリティを事前訓練したViT-PlexとT5-Plexを開発した。 plexは信頼性タスク全体の最先端を大幅に改善し、アウトオブボックスのパフォーマンスを改善し、各タスクのスコアの設計やモデルのチューニングを必要とせず、従来のプロトコルを単純化する。 最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。 また,ゼロショットオープンセット認識,アクティブラーニング,会話言語理解の不確実性といった課題に対して,plexの能力を示す。

A recent trend in artificial intelligence is the use of pretrained models for language and vision tasks, which have achieved extraordinary performance but also puzzling failures. Probing these models' abilities in diverse ways is therefore critical to the field. In this paper, we explore the reliability of models, where we define a reliable model as one that not only achieves strong predictive performance but also performs well consistently over many decision-making tasks involving uncertainty (e.g., selective prediction, open set recognition), robust generalization (e.g., accuracy and proper scoring rules such as log-likelihood on in- and out-of-distribution datasets), and adaptation (e.g., active learning, few-shot uncertainty). We devise 10 types of tasks over 40 datasets in order to evaluate different aspects of reliability on both vision and language domains. To improve reliability, we developed ViT-Plex and T5-Plex, pretrained large model extensions for vision and language modalities, respectively. Plex greatly improves the state-of-the-art across reliability tasks, and simplifies the traditional protocol as it improves the out-of-the-box performance and does not require designing scores or tuning the model for each task. We demonstrate scaling effects over model sizes up to 1B parameters and pretraining dataset sizes up to 4B examples. We also demonstrate Plex's capabilities on challenging tasks including zero-shot open set recognition, active learning, and uncertainty in conversational language understanding.
翻訳日:2022-07-18 19:16:56 公開日:2022-07-15
# (参考訳) 深部ニューラルネットワークを用いた宇宙ベース重力波信号の検出と抽出

Space-based gravitational wave signal detection and extraction with deep neural network ( http://arxiv.org/abs/2207.07414v1 )

ライセンス: CC BY 4.0
Tianyu Zhao, Ruoxi Lyu, Zhixiang Ren, He Wang, Zhoujian Cao(参考訳) 重力波(gw)検出器は、現在の地上検出ではほとんど不可能に近い源からの信号を観測することができる。 したがって、適切に確立された信号検出手法であるマッチングフィルタリングは複雑なテンプレートバンクを必要とするため、実際には高価すぎる計算コストにつながる。 本稿では,空間型gw源の高精度gw信号検出・抽出法を開発した。 概念実証として、科学駆動で均一な多段階深層ニューラルネットワークはガウス雑音に沈み込む合成信号を特定することができることを示す。 提案手法は,各音源の信号検出に99%以上精度があり,目標信号と比較して95%以上の類似性が得られる。 さらに、いくつかの拡張シナリオに対する解釈可能性および強い一般化挙動を示す。

Space-based gravitational wave (GW) detectors will be able to observe signals from sources that are otherwise nearly impossible from current ground-based detection. Consequently, the well established signal detection method, matched filtering, will require a complex template bank, leading to a computational cost that is too expensive in practice. Here, we develop a high-accuracy GW signal detection and extraction method for all space-based GW sources. As a proof of concept, we show that a science-driven and uniform multi-stage deep neural network can identify synthetic signals that are submerged in Gaussian noise. Our method has more than 99% accuracy for signal detection of various sources while obtaining at least 95% similarity compared with target signals. We further demonstrate the interpretability and strong generalization behavior for several extended scenarios.
翻訳日:2022-07-18 19:15:30 公開日:2022-07-15
# (参考訳) 一般テンソルネットワークに対する低ランク近似

Low Rank Approximation for General Tensor Networks ( http://arxiv.org/abs/2207.07417v1 )

ライセンス: CC BY 4.0
Arvind V. Mahankali, David P. Woodruff, Ziyu Zhang(参考訳) 我々は、与えられたテンソルを$q$モードで近似する問題を、$A \in \mathbb{R}^{n \times \ldots \times n}$と、ランク$k$の任意のテンソルネットワーク、すなわちグラフ$G = (V, E)$と、$|V| = q$と、$G$で指定された方法で契約されたテンソル$\{U_v \mid v \in V\}$の集合とで研究する。 エッジインシデントに対応する $u_v$ の各モードに対して、その次元は $k$ であり、$t$ と $a$ の間のフロベニウスノルム距離が最小となるような $u_v$ を求める。 これにより、テンソルトレイン、テンソル環、タッカー、ペップ分解など、多くのよく知られたテンソルネットワーク分解が一般化される。 ここで$d$は最大値が$g$、$t$はそのツリー幅であり、$\|a - t'\|_f^2 \leq (1 + \varepsilon) \|a - t\|_f^2 \leq (1 + \varepsilon) \|a - t\|_f^2$である。 アルゴリズムの実行時間は$O(q \cdot \text{nnz}(A)) + n \cdot \text{poly}(k^{dt}q/\varepsilon)$, ここで$\text{nnz}(A)$は$A$のゼロでないエントリの数である。 このアルゴリズムはテンソル分解のための新しい次元縮小手法に基づいており、これは独立な関心を持つかもしれない。 また、テンソルトレインとタッカー分解のための固定パラメータトラクタブル$(1 + \varepsilon)$-approximationアルゴリズムを開発し、Song, Woodruff and Zhong (SODA, 2019) の実行時間を改善し、汎用多項式システムソルバの使用を避ける。 我々のアルゴリズムは、1/\varepsilon$にほぼ最適依存しており、ブルートフォースよりも動作時間が良い2〜4ドルのノルムに対してo(1)$近似アルゴリズムが存在しないことを仮定している。 最後に,ロバストな損失関数を持つタッカー分解と固定パラメータのcp分解について追加の結果を示す。

We study the problem of approximating a given tensor with $q$ modes $A \in \mathbb{R}^{n \times \ldots \times n}$ with an arbitrary tensor network of rank $k$ -- that is, a graph $G = (V, E)$, where $|V| = q$, together with a collection of tensors $\{U_v \mid v \in V\}$ which are contracted in the manner specified by $G$ to obtain a tensor $T$. For each mode of $U_v$ corresponding to an edge incident to $v$, the dimension is $k$, and we wish to find $U_v$ such that the Frobenius norm distance between $T$ and $A$ is minimized. This generalizes a number of well-known tensor network decompositions, such as the Tensor Train, Tensor Ring, Tucker, and PEPS decompositions. We approximate $A$ by a binary tree network $T'$ with $O(q)$ cores, such that the dimension on each edge of this network is at most $\widetilde{O}(k^{O(dt)} \cdot q/\varepsilon)$, where $d$ is the maximum degree of $G$ and $t$ is its treewidth, such that $\|A - T'\|_F^2 \leq (1 + \varepsilon) \|A - T\|_F^2$. The running time of our algorithm is $O(q \cdot \text{nnz}(A)) + n \cdot \text{poly}(k^{dt}q/\varepsilon)$, where $\text{nnz}(A)$ is the number of nonzero entries of $A$. Our algorithm is based on a new dimensionality reduction technique for tensor decomposition which may be of independent interest. We also develop fixed-parameter tractable $(1 + \varepsilon)$-approximation algorithms for Tensor Train and Tucker decompositions, improving the running time of Song, Woodruff and Zhong (SODA, 2019) and avoiding the use of generic polynomial system solvers. We show that our algorithms have a nearly optimal dependence on $1/\varepsilon$ assuming that there is no $O(1)$-approximation algorithm for the $2 \to 4$ norm with better running time than brute force. Finally, we give additional results for Tucker decomposition with robust loss functions, and fixed-parameter tractable CP decomposition.
翻訳日:2022-07-18 18:58:22 公開日:2022-07-15
# (参考訳) ニューラルメッセージパッシングによるマルチオブジェクト追跡とセグメンテーション

Multi-Object Tracking and Segmentation via Neural Message Passing ( http://arxiv.org/abs/2207.07454v1 )

ライセンス: CC BY 4.0
Guillem Braso, Orcun Cetintas, Laura Leal-Taixe(参考訳) グラフは、トラッキング・バイ・検出パラダイムの中で、MOT(Multiple Object Tracking)とMOTS(Multiple Object Tracking and Segmentation)を定式化する自然な方法を提供する。 しかし、そのような構造化ドメイン上で動作可能なモデルを定義することは自明ではないため、学習方法に対する大きなチャレンジも導入している。 本研究では、モットの古典的なネットワークフロー定式化を利用して、メッセージパッシングネットワーク(mpns)に基づく完全微分可能なフレームワークを定義する。 グラフドメイン上で直接操作することで、検出の集合全体にわたってグローバルに推論し、コンテキスト的特徴を活用することができる。 そして、2つのタスク間の相乗効果を利用して、データアソシエーション問題の最終解とシーン内のすべてのオブジェクトのセグメンテーションマスクの両方を共同で予測する。 いくつかの公開データセットにおけるトラッキングとセグメンテーションの両面での最先端の結果が得られます。 私たちのコードはgithub.com/ocetintas/MPNTrackSegで利用可能です。

Graphs offer a natural way to formulate Multiple Object Tracking (MOT) and Multiple Object Tracking and Segmentation (MOTS) within the tracking-by-detection paradigm. However, they also introduce a major challenge for learning methods, as defining a model that can operate on such structured domain is not trivial. In this work, we exploit the classical network flow formulation of MOT to define a fully differentiable framework based on Message Passing Networks (MPNs). By operating directly on the graph domain, our method can reason globally over an entire set of detections and exploit contextual features. It then jointly predicts both final solutions for the data association problem and segmentation masks for all objects in the scene while exploiting synergies between the two tasks. We achieve state-of-the-art results for both tracking and segmentation in several publicly available datasets. Our code is available at github.com/ocetintas/MPNTrackSeg.
翻訳日:2022-07-18 18:56:37 公開日:2022-07-15
# (参考訳) 自己組織化マップを用いた説明可能な侵入検知システムの構築

Creating an Explainable Intrusion Detection System Using Self Organizing Maps ( http://arxiv.org/abs/2207.07465v1 )

ライセンス: CC BY 4.0
Jesse Ables and Thomas Kirby and William Anderson and Sudip Mittal and Shahram Rahimi and Ioana Banicescu and Maria Seale(参考訳) 現代の人工知能(AI)による侵入検知システム(IDS)は複雑なブラックボックスである。 つまり、セキュリティアナリストは、IDSモデルが特定の予測を行った理由の説明や明確化をほとんど、あるいは全く行わない。 この問題の潜在的な解決策は、説明可能な人工知能(XAI)の現在の能力に基づいて、説明可能な侵入検知システム(X-IDS)の研究と開発である。 本稿では,説明的視覚化が可能な自己組織化マップ(SOM)ベースのX-IDSシステムを構築する。 我々はSOMの説明可能性を活用し、グローバルな説明とローカルな説明の両方を作成する。 アナリストは、グローバル説明を使用して、特定のidモデルがどのように予測を計算するかの一般的な考えを得ることができます。 特定の予測値が計算された理由を説明するために、個々のデータポイントに対して局所的な説明が生成される。 さらに,NSL-KDDとCIC-IDS-2017データセットを用いて,説明生成と従来の精度試験の両面からSOMベースのX-IDSを評価した。

Modern Artificial Intelligence (AI) enabled Intrusion Detection Systems (IDS) are complex black boxes. This means that a security analyst will have little to no explanation or clarification on why an IDS model made a particular prediction. A potential solution to this problem is to research and develop Explainable Intrusion Detection Systems (X-IDS) based on current capabilities in Explainable Artificial Intelligence (XAI). In this paper, we create a Self Organizing Maps (SOMs) based X-IDS system that is capable of producing explanatory visualizations. We leverage SOM's explainability to create both global and local explanations. An analyst can use global explanations to get a general idea of how a particular IDS model computes predictions. Local explanations are generated for individual datapoints to explain why a certain prediction value was computed. Furthermore, our SOM based X-IDS was evaluated on both explanation generation and traditional accuracy tests using the NSL-KDD and the CIC-IDS-2017 datasets.
翻訳日:2022-07-18 18:18:35 公開日:2022-07-15
# (参考訳) DeepSolar Tracker:ディープラーニングに基づく分散PVマッピングの精度のオープンソースデータによる教師なし評価に向けて

DeepSolar tracker: towards unsupervised assessment with open-source data of the accuracy of deep learning-based distributed PV mapping ( http://arxiv.org/abs/2207.07466v1 )

ライセンス: CC BY 4.0
Gabriel Kasmi, Laurent Dubus, Philippe Blanc, Yves-Marie Saint-Drenan(参考訳) 太陽光発電(PV)エネルギーは、現在のエネルギー危機を緩和する鍵となる。 しかし、PV発電の半分を占める分散PV発電は、送電系統のオペレーター(TSO)が負荷と供給のバランスをとるのが難しくなり、グリッドの混雑を避けることが難しくなる。 実際、測定がない場合、分散PV生成を推定するのは困難である。 近年、分散pvインストールをマップするリモートセンシングベースの手法が数多く提案されている。 しかし、産業環境に適用するには、配置領域全体にわたるマッピングの精度を評価する必要がある。 既存の作業に基づいて、自動PVレジストリパイプラインを提案します。 このパイプラインは、すべての分散PVインストールの位置、エリア、インストール容量、傾き角を記録するデータセットを自動的に生成する。 航空画像とトポロジカルデータしか必要とせず、どちらもオンラインで自由にアクセスできる。 レジストリの精度を評価するために,共同レベルで集約された個々のPVシステムをすべて集中化して,実践者がレジストリの精度を評価し,最終的にはアウトラヤを除去する,RNI( {\it Registre national d'installation)に基づく教師なしの手法を提案する。 私たちはモデルを5万平方キロメートル以上をカバーする9つのフランス語のd\'epartementsに展開し、このレベルの詳細を持つ分散pvパネルの最大のマッピングを提供します。 次に,教師なしの精度評価手法を用いて,アウトプットの精度を評価する方法を示す。 特に,検出における異常値の識別が容易であることを示す。 全体として、当社のアプローチは、リモートPVマッピングのためのディープラーニングベースのパイプラインのより安全な統合の道を開くものです。 コードは {\tt https://github.com/gabrielkasmi/dsfrance}で入手できる。

Photovoltaic (PV) energy is key to mitigating the current energy crisis. However, distributed PV generation, which amounts to half of the PV energy generation, makes it increasingly difficult for transmission system operators (TSOs) to balance the load and supply and avoid grid congestions. Indeed, in the absence of measurements, estimating the distributed PV generation is tough. In recent years, many remote sensing-based approaches have been proposed to map distributed PV installations. However, to be applicable in industrial settings, one needs to assess the accuracy of the mapping over the whole deployment area. We build on existing work to propose an automated PV registry pipeline. This pipeline automatically generates a dataset recording all distributed PV installations' location, area, installed capacity, and tilt angle. It only requires aerial orthoimagery and topological data, both of which are freely accessible online. In order to assess the accuracy of the registry, we propose an unsupervised method based on the {\it Registre national d'installation} (RNI), that centralizes all individual PV systems aggregated at communal level, enabling practitioners to assess the accuracy of the registry and eventually remove outliers. We deploy our model on 9 French {\it d\'epartements} covering more than 50 000 square kilometers, providing the largest mapping of distributed PV panels with this level of detail to date. We then demonstrate how practitioners can use our unsupervised accuracy assessment method to assess the accuracy of the outputs. In particular, we show how it can easily identify outliers in the detections. Overall, our approach paves the way for a safer integration of deep learning-based pipelines for remote PV mapping. Code is available at {\tt https://github.com/gabrielkasmi/dsfrance}.
翻訳日:2022-07-18 18:06:28 公開日:2022-07-15
# (参考訳) USegScene: セマンティックガイダンスと結合ネットワークによる奥行き・光フロー・エゴ運動の教師なし学習

USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion with Semantic Guidance and Coupled Networks ( http://arxiv.org/abs/2207.07469v1 )

ライセンス: CC BY 4.0
Johan Vertens, Wolfram Burgard(参考訳) 本稿では,畳み込みニューラルネットワークを用いたステレオカメラ画像の奥行き,光学的流れ,エゴモーション推定を意味的に指導するフレームワークであるUSegSceneを提案する。 本フレームワークは, 動的剛体運動を独立SE(3)変換として考慮し, 深度と光学フローマップの正規化, マルチモーダル融合, 閉塞充填の改善に意味情報を活用する。 さらに、純光度マッチングと相補的に、連続画像間のセマンティック特徴、画素ワイドクラス、オブジェクトインスタンス境界のマッチングを提案する。 従来の手法とは対照的に,共有エンコーダを用いた全出力を共同で予測し,タスク領域間の情報伝達を可能にするネットワークアーキテクチャを提案する。 さらに,ネットワーク内における深度と光学的流れの排除マップを明示的に学習し,その領域の予測を改善するために活用する。 一般的なKITTIデータセットを用いて,提案手法が他の手法よりも優れていることを示す。

In this paper we propose USegScene, a framework for semantically guided unsupervised learning of depth, optical flow and ego-motion estimation for stereo camera images using convolutional neural networks. Our framework leverages semantic information for improved regularization of depth and optical flow maps, multimodal fusion and occlusion filling considering dynamic rigid object motions as independent SE(3) transformations. Furthermore, complementary to pure photo-metric matching, we propose matching of semantic features, pixel-wise classes and object instance borders between the consecutive images. In contrast to previous methods, we propose a network architecture that jointly predicts all outputs using shared encoders and allows passing information across the task-domains, e.g., the prediction of optical flow can benefit from the prediction of the depth. Furthermore, we explicitly learn the depth and optical flow occlusion maps inside the network, which are leveraged in order to improve the predictions in therespective regions. We present results on the popular KITTI dataset and show that our approach outperforms other methods by a large margin.
翻訳日:2022-07-18 17:58:02 公開日:2022-07-15
# (参考訳) BERT4Recのシーケンシャルレコメンデーションにおけるシステムレビューと再現性の検討

A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation ( http://arxiv.org/abs/2207.07483v1 )

ライセンス: CC BY 4.0
Aleksandr Petrov and Craig Macdonald(参考訳) BERT4RecはTransformerアーキテクチャに基づいたシーケンシャルなレコメンデーションのための効果的なモデルである。 オリジナルの出版物では、BERT4Recは他の利用可能なシーケンシャルレコメンデーションアプローチ(SASRecなど)よりも優れていると主張しており、現在ではシーケンシャルレコメンデーションのための最先端のベースラインとして頻繁に使用されている。 しかし、その後の全ての出版物がこの結果を確認し、BERT4Recを効果的に上回ることを示す他のモデルを提案したわけではない。 本稿では,BERT4Recと他の人気のあるトランスフォーマーベースモデルであるSASRecを比較したすべての出版物を体系的にレビューし,BERT4Recの結果がこれらの出版物の中で一致していないことを示す。 この矛盾の原因を理解するために、BERT4Recの利用可能な実装を分析し、デフォルトの設定パラメータを使用すると、元のBERT4Recパブリッシュの結果を再現できないことを示す。 しかし、デフォルトの設定よりもずっと長い時間(最大30倍)のトレーニングをすれば、報告された結果を元のコードで再現することができます。 また,Hugging Face TransformersライブラリをベースとしたBERT4Recの実装も提案しています。 全体として、体系的なレビューと詳細な実験から、bert4recは逐次レコメンデーションに最先端の有効性を示すが、十分な時間しか訓練されないと結論づけた。 さらに、Hugging Face Transformersライブラリで利用可能な他のTransformerアーキテクチャ(例えば、DeBERTaやALBERTよりも大きな隠蔽層サイズで)を適用することで、我々の実装がさらに恩恵を受けることを示す。

BERT4Rec is an effective model for sequential recommendation based on the Transformer architecture. In the original publication, BERT4Rec claimed superiority over other available sequential recommendation approaches (e.g. SASRec), and it is now frequently being used as a state-of-the art baseline for sequential recommendations. However, not all subsequent publications confirmed this result and proposed other models that were shown to outperform BERT4Rec in effectiveness. In this paper we systematically review all publications that compare BERT4Rec with another popular Transformer-based model, namely SASRec, and show that BERT4Rec results are not consistent within these publications. To understand the reasons behind this inconsistency, we analyse the available implementations of BERT4Rec and show that we fail to reproduce results of the original BERT4Rec publication when using their default configuration parameters. However, we are able to replicate the reported results with the original code if training for a much longer amount of time (up to 30x) compared to the default configuration. We also propose our own implementation of BERT4Rec based on the Hugging Face Transformers library, which we demonstrate replicates the originally reported results on 3 out 4 datasets, while requiring up to 95% less training time to converge. Overall, from our systematic review and detailed experiments, we conclude that BERT4Rec does indeed exhibit state-of-the-art effectiveness for sequential recommendation, but only when trained for a sufficient amount of time. Additionally, we show that our implementation can further benefit from adapting other Transformer architectures that are available in the Hugging Face Transformers library (e.g. using disentangled attention, as provided by DeBERTa, or larger hidden layer size cf. ALBERT).
翻訳日:2022-07-18 17:36:15 公開日:2022-07-15
# (参考訳) リダイレクト歩行によるフル没入型マルチユーザーvrの短期軌道予測

Short-Term Trajectory Prediction for Full-Immersive Multiuser Virtual Reality with Redirected Walking ( http://arxiv.org/abs/2207.07520v1 )

ライセンス: CC BY 4.0
Filip Lemic, Jakob Struye, Jeroen Famaey(参考訳) フル没入型マルチユーザーバーチャルリアリティ(vr)は、仮想世界におけるユーザの拘束力のない移動をサポートすると同時に、リダイレクトウォーキングによるvrセットアップ内での物理的な動きを制限することを想定している。 データレートの高いビデオコンテンツをリアルタイムに配信できるようにするため、サポート対象の無線ネットワークは高指向性通信リンクを活用し、ユーザを"追跡"し、視線(los)接続を維持する。 recurrent neural networks (rnns) と特にlong short-term memory (lstm) ネットワークは、自然移動のための短期移動軌道予測に適した候補であり、近年では、リダイレクトウォーキングの制約下でのvrユーザの移動予測にも応用されている。 そこで本研究では,RNN ファミリーの別の候補である Gated Recurrent Unit (GRU) ネットワークが,従来の LSTM よりも優れていることを示す。 第2に,仮想世界からのコンテキストは,VR利用者の歴史的身体運動のみの従来的利用と比較して,追加入力機能として使用する場合の予測精度を高めることができることを示す。 最後に,既存のvrユーザの静的数で学習した予測システムが,精度の低下を伴わずにマルチユーザシステムに拡張可能であることを示す。

Full-immersive multiuser Virtual Reality (VR) envisions supporting unconstrained mobility of the users in the virtual worlds, while at the same time constraining their physical movements inside VR setups through redirected walking. For enabling delivery of high data rate video content in real-time, the supporting wireless networks will leverage highly directional communication links that will "track" the users for maintaining the Line-of-Sight (LoS) connectivity. Recurrent Neural Networks (RNNs) and in particular Long Short-Term Memory (LSTM) networks have historically presented themselves as a suitable candidate for near-term movement trajectory prediction for natural human mobility, and have also recently been shown as applicable in predicting VR users' mobility under the constraints of redirected walking. In this work, we extend these initial findings by showing that Gated Recurrent Unit (GRU) networks, another candidate from the RNN family, generally outperform the traditionally utilized LSTMs. Second, we show that context from a virtual world can enhance the accuracy of the prediction if used as an additional input feature in comparison to the more traditional utilization of solely the historical physical movements of the VR users. Finally, we show that the prediction system trained on a static number of coexisting VR users be scaled to a multi-user system without significant accuracy degradation.
翻訳日:2022-07-18 17:15:41 公開日:2022-07-15
# (参考訳) 確率環境における力制御型ロボット探索戦略のヒューリスティックフリー最適化

Heuristic-free Optimization of Force-Controlled Robot Search Strategies in Stochastic Environments ( http://arxiv.org/abs/2207.07524v1 )

ライセンス: CC BY 4.0
Benjamin Alt, Darko Katic, Rainer J\"akel and Michael Beetz(参考訳) 産業とサービスの両方において、ロボットの使用の主な利点は、反復的なタスクを迅速かつ確実に実行できることである。 しかし、比較的単純なペグ・イン・ホールのタスクは、通常、確率的な変化を伴い、穴のような関連する特徴を見つけるために探索運動を必要とする。 より徹底的な検索は、与えられたタスクを正常に実行する確率を最大化するが、ダウンストリームタスクを著しく遅らせる。 このトレードオフは通常、単純なヒューリスティックスによって人間の専門家によって解決される。 本稿では,ロボット検索戦略を最適化するための,自動的,データ駆動型,ヒューリスティックなアプローチを提案する。 シミュレーションされた確率環境上で探索戦略のニューラルモデルをトレーニングし、実世界の例をほとんど残さず、モデルを逆転させることにより、基礎となる確率分布の時間変化特性に適応する探索戦略を推測できるが、実世界の測定は極めて少ない。 tht電子部品のスパイラルおよびプローブ探索の文脈における2つの異なる産業用ロボットのアプローチを評価した。

In both industrial and service domains, a central benefit of the use of robots is their ability to quickly and reliably execute repetitive tasks. However, even relatively simple peg-in-hole tasks are typically subject to stochastic variations, requiring search motions to find relevant features such as holes. While search improves robustness, it comes at the cost of increased runtime: More exhaustive search will maximize the probability of successfully executing a given task, but will significantly delay any downstream tasks. This trade-off is typically resolved by human experts according to simple heuristics, which are rarely optimal. This paper introduces an automatic, data-driven and heuristic-free approach to optimize robot search strategies. By training a neural model of the search strategy on a large set of simulated stochastic environments, conditioning it on few real-world examples and inverting the model, we can infer search strategies which adapt to the time-variant characteristics of the underlying probability distributions, while requiring very few real-world measurements. We evaluate our approach on two different industrial robots in the context of spiral and probe search for THT electronics assembly.
翻訳日:2022-07-18 17:05:38 公開日:2022-07-15
# (参考訳) 拡張特徴モデルによる品質と機械学習パイプラインのモデリング

Modeling Quality and Machine Learning Pipelines through Extended Feature Models ( http://arxiv.org/abs/2207.07528v1 )

ライセンス: CC BY 4.0
Giordano d'Aloisio, Antinisca Di Marco and Giovanni Stilo (University of L'Aquila)(参考訳) 近年、機械学習(ml)手法の複雑さが高まり、研究プロセスと産業開発プロセスの両方を軽量化する必要性が高まった。 MLパイプラインは、多くのドメイン、データサイエンティスト、研究者の専門家にとって不可欠なツールとなり、生のデータセットから始まる完全な分析プロセスをカバーするために、いくつかのMLモデルを簡単に組み立てることが可能になった。 長年にわたり、MLパイプラインの構築を自動化するいくつかのソリューションが提案され、その多くは入力データセットのセマンティックな側面と特性に焦点を当てている。 しかし、MLシステムに必要な新しい品質上の懸念(公平性、解釈可能性、プライバシなど)を考慮しているアプローチはまだ欠けている。 本稿では,文献からMLシステムのキー品質特性を最初に同定する。 さらに,機能モデルメタモデルを適切に拡張した品質MLパイプラインの新たなエンジニアリング手法を提案する。 提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。 最後に,分類問題を考慮したモデルの表現性を示す。

The recently increased complexity of Machine Learning (ML) methods, led to the necessity to lighten both the research and industry development processes. ML pipelines have become an essential tool for experts of many domains, data scientists and researchers, allowing them to easily put together several ML models to cover the full analytic process starting from raw datasets. Over the years, several solutions have been proposed to automate the building of ML pipelines, most of them focused on semantic aspects and characteristics of the input dataset. However, an approach taking into account the new quality concerns needed by ML systems (like fairness, interpretability, privacy, etc.) is still missing. In this paper, we first identify, from the literature, key quality attributes of ML systems. Further, we propose a new engineering approach for quality ML pipeline by properly extending the Feature Models meta-model. The presented approach allows to model ML pipelines, their quality requirements (on the whole pipeline and on single phases), and quality characteristics of algorithms used to implement each pipeline phase. Finally, we demonstrate the expressiveness of our model considering the classification problem.
翻訳日:2022-07-18 16:50:11 公開日:2022-07-15
# (参考訳) 最も可能性の高いベストの選択

Selection of the Most Probable Best ( http://arxiv.org/abs/2207.07533v1 )

ライセンス: CC BY 4.0
Taeho Kim, Kyoung-kuk Kim, Eunhye Song(参考訳) 我々は、すべてのk解のシミュレーション出力が共通の不確実な入力モデルに依存する期待値ランキングと選択問題を考える。 入力モデルの不確実性が有限なサポート上の確率単純性によって捉えられることを考慮し、最適である確率が最大となる解として最も確率の高いベスト(MPB)を定義する。 効率的なサンプリングアルゴリズムを考案するために、まず、MPBを誤って選択する確率の大きな偏差率に下限を導出し、次に最適計算予算割当(OCBA)問題を定式化し、下限を最大化する解-入出力モデルペアに対して最適な静的サンプリング比を求める。 本研究では, 解釈可能かつ計算効率の良いサンプリング規則を適用した逐次アルゴリズムを考案し, シミュレーション予算の増大に伴い, ocba問題の最適条件が達成されることを示す。 アルゴリズムは,コンテキストのランク付けと選択問題用に設計された最先端の逐次サンプリングアルゴリズムに対してベンチマークを行い,mpbの探索において優れた経験的性能を示すことを示した。

We consider an expected-value ranking and selection problem where all k solutions' simulation outputs depend on a common uncertain input model. Given that the uncertainty of the input model is captured by a probability simplex on a finite support, we define the most probable best (MPB) to be the solution whose probability of being optimal is the largest. To devise an efficient sampling algorithm to find the MPB, we first derive a lower bound to the large deviation rate of the probability of falsely selecting the MPB, then formulate an optimal computing budget allocation (OCBA) problem to find the optimal static sampling ratios for all solution-input model pairs that maximize the lower bound. We devise a series of sequential algorithms that apply interpretable and computationally efficient sampling rules and prove their sampling ratios achieve the optimality conditions for the OCBA problem as the simulation budget increases. The algorithms are benchmarked against a state-of-the-art sequential sampling algorithm designed for contextual ranking and selection problems and demonstrated to have superior empirical performances at finding the MPB.
翻訳日:2022-07-18 16:31:36 公開日:2022-07-15
# (参考訳) Pick your Nebor: 高速非同期分散最適化のためのローカルガウス・サウスウェルルール

Pick your Neighbor: Local Gauss-Southwell Rule for Fast Asynchronous Decentralized Optimization ( http://arxiv.org/abs/2207.07543v1 )

ライセンス: CC BY 4.0
Marina Costantini, Nikolaos Liakopoulos, Panayotis Mertikopoulos, Thrasyvoulos Spyropoulos(参考訳) 分散最適化環境では、n$最適化ノードのネットワーク内の各エージェント $i$ はプライベート関数 $f_i$ を持ち、ノードは隣人と通信し、集約対象 $\sum_{i=1}^n f_i$ を協調的に最小化する。 この設定では、ノードの更新の同期は重要な通信オーバーヘッドと計算コストを伴い、近年の文献の多くは、エージェントが任意のタイミングで起動し通信する非同期最適化アルゴリズムの分析と設計に焦点をあてている。 それでも、このトピックに関するほとんどの作業において、アクティブなノードは、アクティベーション時点の最適化のランドスケープを無視する選択肢である固定確率(例えば、ランダムにランダムに)に基づいて、隣人を選択する。 代わりに、我々は、最も高い双対コスト改善(目の前の問題のコンセンサスに基づく双対化に関連する量)で隣人を選択する最適化対応の選択ルールを導入する。 この方式は座標降下法(CD)とガウス・サウスウェル法(GS)による座標更新と関係があるが、我々の設定では、座標のサブセットは各繰り返しでのみアクセス可能である(各ノードが直接隣人としか通信できないため)ため、GS法に関する既存の文献は適用されない。 この難しさを克服するために、我々は、セットワイズcdアルゴリズムのクラス(分散化されたシナリオに直接適用されるが、それらに限定されないクラス)をカバーする、滑らかで強凸な$f_i$のための新しい分析フレームワークを開発し、提案されたセットワイズgsルールが、ネットワークの最大次数(高連結グラフでは$\theta(n)$のオーダー)の倍のスピードアップを達成することを示す。 理論解析によって予測される高速化は、合成データを用いた数値実験で検証される。

In decentralized optimization environments, each agent $i$ in a network of $n$ optimization nodes possesses a private function $f_i$, and nodes communicate with their neighbors to cooperatively minimize the aggregate objective $\sum_{i=1}^n f_i$. In this setting, synchronizing the nodes' updates incurs significant communication overhead and computational costs, so much of the recent literature has focused on the analysis and design of asynchronous optimization algorithms where agents activate and communicate at arbitrary times, without requiring a global synchronization enforcer. Nonetheless, in most of the work on the topic, active nodes select a neighbor to contact based on a fixed probability (e.g., uniformly at random), a choice that ignores the optimization landscape at the moment of activation. Instead, in this work we introduce an optimization-aware selection rule that chooses the neighbor with the highest dual cost improvement (a quantity related to a consensus-based dualization of the problem at hand). This scheme is related to the coordinate descent (CD) method with a Gauss-Southwell (GS) rule for coordinate updates; in our setting however, only a subset of coordinates is accessible at each iteration (because each node is constrained to communicate only with its direct neighbors), so the existing literature on GS methods does not apply. To overcome this difficulty, we develop a new analytical framework for smooth and strongly convex $f_i$ that covers the class of set-wise CD algorithms -- a class that directly applies to decentralized scenarios, but is not limited to them -- and we show that the proposed set-wise GS rule achieves a speedup by a factor of up to the maximum degree in the network (which is of the order of $\Theta(n)$ in highly connected graphs). The speedup predicted by our theoretical analysis is subsequently validated in numerical experiments with synthetic data.
翻訳日:2022-07-18 16:30:23 公開日:2022-07-15
# (参考訳) スタイルによるCheXplaining:StyleGANを用いた胸部X線の解析

CheXplaining in Style: Counterfactual Explanations for Chest X-rays using StyleGAN ( http://arxiv.org/abs/2207.07553v1 )

ライセンス: CC BY 4.0
Matan Atad, Vitalii Dmytrenko, Yitong Li, Xinyue Zhang, Matthias Keicher, Jan Kirschke, Bene Wiestler, Ashkan Khakzar, Nassir Navab(参考訳) 医用画像解析に使用される深層学習モデルは、ブラックボックスの性質から信頼性を高める傾向にある。 これらのブラックボックスモデルに光を当てるために、以前の研究は主に、入力特徴の診断への寄与、すなわち特徴の帰属を識別することに焦点を当てている。 本研究では, モデルが診断に依存するパターンを特定するために, 対物的説明について検討する。 具体的には,胸部X線における特徴変化が分類器の出力に及ぼす影響について検討し,その決定機構を解明する。 StyleGANベースのアプローチ(StyleEx)を利用して,胸部X線に対して,潜伏空間内の特定の潜伏方向を操作することで,反実的な説明を行う。 さらに,生成した説明の計算時間を大幅に短縮するEigenFindを提案する。 我々は, 放射線技師の助けを借りて, 副作用説明の妥当性を臨床的に評価した。 私たちのコードは公開されています。

Deep learning models used in medical image analysis are prone to raising reliability concerns due to their black-box nature. To shed light on these black-box models, previous works predominantly focus on identifying the contribution of input features to the diagnosis, i.e., feature attribution. In this work, we explore counterfactual explanations to identify what patterns the models rely on for diagnosis. Specifically, we investigate the effect of changing features within chest X-rays on the classifier's output to understand its decision mechanism. We leverage a StyleGAN-based approach (StyleEx) to create counterfactual explanations for chest X-rays by manipulating specific latent directions in their latent space. In addition, we propose EigenFind to significantly reduce the computation time of generated explanations. We clinically evaluate the relevancy of our counterfactual explanations with the help of radiologists. Our code is publicly available.
翻訳日:2022-07-18 16:04:08 公開日:2022-07-15
# (参考訳) 畳み込みニューラルネットワークと計算負荷の低い独自の後処理技術を用いたグリオーマ分節の脳MRIによる研究

Brain MRI study for glioma segmentation using convolutional neural networks and original post-processing techniques with low computational demand ( http://arxiv.org/abs/2207.07622v1 )

ライセンス: CC BY-SA 4.0
Jos\'e Gerardo Su\'arez-Garc\'ia Javier Miguel Hern\'andez-L\'opez, Eduardo Moreno-Barbosa, and Benito de Celis-Alonso(参考訳) グリオーマは、高度に異質な組織学的サブリージョンからなる脳腫瘍である。 関連腫瘍のサブ構造を特定する画像解析技術は、患者の診断、治療、予後を改善する可能性が高い。 しかし、グリオーマの多様性が高いため、現在医学画像解析の分野ではセグメンテーション作業が大きな課題となっている。 本研究は、グリオーマのマルチモーダルMRIスキャンからなるBrain tumor Segmentation (BraTS) Challenge 2018のデータベースについて検討した。 畳み込みニューラルネットワーク(CNN)の設計と応用に基づくセグメンテーション手法と,計算負荷の低い元の後処理技術を組み合わせたセグメンテーション手法を提案する。 後処理技術は、セグメンテーションで得られた結果に主要な責任を負った。 区分けされた領域は, 腫瘍全体, 腫瘍コア, 造影腫瘍コアであり, 平均Dice係数は0.8934, 0.8376, 0.8113であった。 これらの結果は、挑戦の勝者によって決定されたグリオーマセグメンテーションにおける芸術の状態に到達した。

Gliomas are brain tumors composed of different highly heterogeneous histological subregions. Image analysis techniques to identify relevant tumor substructures have high potential for improving patient diagnosis, treatment and prognosis. However, due to the high heterogeneity of gliomas, the segmentation task is currently a major challenge in the field of medical image analysis. In the present work, the database of the Brain Tumor Segmentation (BraTS) Challenge 2018, composed of multimodal MRI scans of gliomas, was studied. A segmentation methodology based on the design and application of convolutional neural networks (CNNs) combined with original post-processing techniques with low computational demand was proposed. The post-processing techniques were the main responsible for the results obtained in the segmentations. The segmented regions were the whole tumor, the tumor core, and the enhancing tumor core, obtaining averaged Dice coefficients equal to 0.8934, 0.8376, and 0.8113, respectively. These results reached the state of the art in glioma segmentation determined by the winners of the challenge.
翻訳日:2022-07-18 15:56:30 公開日:2022-07-15
# (参考訳) Ia型超新星スペクトル時系列の確率的オートエンコーダ

A Probabilistic Autoencoder for Type Ia Supernovae Spectral Time Series ( http://arxiv.org/abs/2207.07645v1 )

ライセンス: CC BY 4.0
George Stein, Uros Seljak, Vanessa Bohm, G. Aldering, P. Antilogus, C. Aragon, S. Bailey, C. Baltay, S. Bongard, K. Boone, C. Buton, Y. Copin, S. Dixon, D. Fouchez, E. Gangler, R. Gupta, B. Hayden, W. Hillebrandt, M. Karmen, A. G. Kim, M. Kowalski, D. Kusters, P. F. Leget, F. Mondon, J. Nordin, R. Pain, E. Pecontal, R. Pereira, S. Perlmutter, K. A. Ponder, D. Rabinowitz, M. Rigault, D. Rubin, K. Runge, C. Saunders, G. Smadja, N. Suzuki, C. Tao, R. C. Thomas, M. Vincenzi(参考訳) 我々は、スペクトル時系列のスパース集合からia型超新星(sne ia)の本質的多様性を学ぶために、物理的にパラメータ化された確率的オートエンコーダ(pae)を構築する。 PAEは2段階生成モデルであり、正規化フロー(NF)を用いたトレーニング後に確率論的に解釈されるオートエンコーダ(AE)で構成されている。 PAEが低次元の潜伏空間を学習し、人口内に存在する非線形な特徴の範囲を捉え、SNe Iaのスペクトル進化を、データから直接、全波長および観測時間にわたって正確にモデル化できることを実証する。 物理的にパラメータ化されたネットワークと並行して相関ペナルティの項と多段階トレーニングのセットアップを導入することで、トレーニング中に内在的および外在的な可変性のモードを分離できることを示した。 次に、sne iaの下流タスクでpaeを使い、sn外れ値の自動検出、データ分布と一致したサンプルの生成、ノイズと不完全なデータの存在下での逆問題による宇宙距離測定の制約など、より精密な宇宙論的解析を行う。 その結果, 固有モデルパラメータの最適数は, 従来の研究と一致し, sne ia のテストサンプルを 0.091 \pm 0.010$ mag の rms で標準化でき, 特異な速度寄与を除去すれば $0.074 \pm 0.010$ mag となることがわかった。 トレーニングされたモデルとコードは \href{https://github.com/georgestein/suPAErnova}{github.com/georgestein/suPAErnova} でリリースされる。

We construct a physically-parameterized probabilistic autoencoder (PAE) to learn the intrinsic diversity of type Ia supernovae (SNe Ia) from a sparse set of spectral time series. The PAE is a two-stage generative model, composed of an Auto-Encoder (AE) which is interpreted probabilistically after training using a Normalizing Flow (NF). We demonstrate that the PAE learns a low-dimensional latent space that captures the nonlinear range of features that exists within the population, and can accurately model the spectral evolution of SNe Ia across the full range of wavelength and observation times directly from the data. By introducing a correlation penalty term and multi-stage training setup alongside our physically-parameterized network we show that intrinsic and extrinsic modes of variability can be separated during training, removing the need for the additional models to perform magnitude standardization. We then use our PAE in a number of downstream tasks on SNe Ia for increasingly precise cosmological analyses, including automatic detection of SN outliers, the generation of samples consistent with the data distribution, and solving the inverse problem in the presence of noisy and incomplete data to constrain cosmological distance measurements. We find that the optimal number of intrinsic model parameters appears to be three, in line with previous studies, and show that we can standardize our test sample of SNe Ia with an RMS of $0.091 \pm 0.010$ mag, which corresponds to $0.074 \pm 0.010$ mag if peculiar velocity contributions are removed. Trained models and codes are released at \href{https://github.com/georgestein/suPAErnova}{github.com/georgestein/suPAErnova}
翻訳日:2022-07-18 15:55:31 公開日:2022-07-15
# 非対称相似性に基づく有向複素ネットワークにおけるリンク予測の一手法

An Approach for Link Prediction in Directed Complex Networks based on Asymmetric Similarity-Popularity ( http://arxiv.org/abs/2207.07399v1 )

ライセンス: Link先を確認
Hafida Benhidour, Lama Almeshkhas, Said Kerrache(参考訳) 複素ネットワークは、純粋に正規あるいは完全にランダムなグラフには見つからないユニークな特徴を示す実生活システムを表すグラフである。 このようなシステムの研究は不可欠だが、基礎となるプロセスの複雑さのために難しい。 それでもこの作業は、大量のネットワークデータの可用性によって、ここ数十年で容易になっています。 複雑なネットワークにおけるリンク予測は、2つのノード間のリンクがネットワークから欠落している可能性を推定することを目的としている。 データコレクションの不完全性や、単に表示されていないため、リンクが欠落する可能性がある。 ネットワークデータ内の実体間の新たな関係の発見は、社会学、計算機科学、物理学、生物学など様々な分野の研究者の注目を集めている。 既存の研究のほとんどは、無向複雑ネットワークにおけるリンク予測に焦点を当てている。 しかし、現実のシステムは全て無向ネットワークとして忠実に表現できるわけではない。 この単純な仮定はリンク予測アルゴリズムを使用する場合にしばしばなされるが、必然的にノード間の関係に関する情報の喪失と予測性能の低下をもたらす。 本稿では,有向ネットワークを対象としたリンク予測手法を提案する。 これは、最近無方向性ネットワークで成功した類似性-人気パラダイムに基づいている。 提示されたアルゴリズムはノード関係の非対称性を類似性と人気の非対称性としてモデル化する。 観測されたネットワークトポロジから、アルゴリズムは隠れた類似性を最短経路距離として近似し、リンクの非対称性とノードの人気を捉える。 提案手法は実生活ネットワーク上で評価され,ネットワーク化されたデータの種類や大きさの広い範囲にわたるリンク不足を予測できることを示す実験結果が得られた。

Complex networks are graphs representing real-life systems that exhibit unique characteristics not found in purely regular or completely random graphs. The study of such systems is vital but challenging due to the complexity of the underlying processes. This task has nevertheless been made easier in recent decades thanks to the availability of large amounts of networked data. Link prediction in complex networks aims to estimate the likelihood that a link between two nodes is missing from the network. Links can be missing due to imperfections in data collection or simply because they are yet to appear. Discovering new relationships between entities in networked data has attracted researchers' attention in various domains such as sociology, computer science, physics, and biology. Most existing research focuses on link prediction in undirected complex networks. However, not all real-life systems can be faithfully represented as undirected networks. This simplifying assumption is often made when using link prediction algorithms but inevitably leads to loss of information about relations among nodes and degradation in prediction performance. This paper introduces a link prediction method designed explicitly for directed networks. It is based on the similarity-popularity paradigm, which has recently proven successful in undirected networks. The presented algorithms handle the asymmetry in node relationships by modeling it as asymmetry in similarity and popularity. Given the observed network topology, the algorithms approximate the hidden similarities as shortest path distances using edge weights that capture and factor out the links' asymmetry and nodes' popularity. The proposed approach is evaluated on real-life networks, and the experimental results demonstrate its effectiveness in predicting missing links across a broad spectrum of networked data types and sizes.
翻訳日:2022-07-18 15:02:30 公開日:2022-07-15
# 非IIDデータを用いたフェデレーション学習の性能向上のためのコミュニケーション効率の良い拡散戦略

Communication-Efficient Diffusion Strategy for Performance Improvement of Federated Learning with Non-IID Data ( http://arxiv.org/abs/2207.07493v1 )

ライセンス: Link先を確認
Seyoung Ahn, Soohyeong Kim, Yongseok Kwon, Joohan Park, Jiseung Youn and Sunghyun Cho(参考訳) フェデレートラーニング(FL)は、集中学習におけるプライバシー漏洩問題に対処する新しい学習パラダイムである。 しかしながら、flでは、非独立かつ同一の分散(非iid)特性を持つユーザは、グローバルモデルのパフォーマンスを低下させる可能性がある。 特に、グローバルモデルは、非IIDデータによる重量分散の課題に悩まされている。 この課題に対処するために,機械学習モデル(FedDif)の新たな拡散戦略を提案し,非IIDデータを用いたFL性能を最大化する。 FedDifでは、ユーザーはD2D通信を介して近隣のユーザーにローカルモデルを広める。 FedDifはパラメータアグリゲーションの前にローカルモデルが異なる分布を経験することを可能にする。 さらに,feeddifが重量分散を回避できることを理論的に証明する。 そこで本研究では,学習性能と通信コストのトレードオフをオークション理論に基づいて決定できるmlモデルのコミュニケーション効率の高い拡散戦略を提案する。 性能評価の結果,feeddifは,非iid設定のベースラインflと比較して,グローバルモデルのテスト精度を11%向上させた。 さらに、feddifは、送信されたサブフレーム数とモデルの2.77倍の通信効率を最新の方法よりも向上させる。

Federated learning (FL) is a novel learning paradigm that addresses the privacy leakage challenge of centralized learning. However, in FL, users with non-independent and identically distributed (non-IID) characteristics can deteriorate the performance of the global model. Specifically, the global model suffers from the weight divergence challenge owing to non-IID data. To address the aforementioned challenge, we propose a novel diffusion strategy of the machine learning (ML) model (FedDif) to maximize the FL performance with non-IID data. In FedDif, users spread local models to neighboring users over D2D communications. FedDif enables the local model to experience different distributions before parameter aggregation. Furthermore, we theoretically demonstrate that FedDif can circumvent the weight divergence challenge. On the theoretical basis, we propose the communication-efficient diffusion strategy of the ML model, which can determine the trade-off between the learning performance and communication cost based on auction theory. The performance evaluation results show that FedDif improves the test accuracy of the global model by 11% compared to the baseline FL with non-IID settings. Moreover, FedDif improves communication efficiency in perspective of the number of transmitted sub-frames and models by 2.77 folds than the latest methods
翻訳日:2022-07-18 15:02:03 公開日:2022-07-15
# Shapley値の特徴属性を推定するアルゴリズム

Algorithms to estimate Shapley value feature attributions ( http://arxiv.org/abs/2207.07605v1 )

ライセンス: Link先を確認
Hugh Chen and Ian C. Covert and Scott M. Lundberg and Su-In Lee(参考訳) シェープリー値に基づく特徴属性は、機械学習モデルを説明するのに人気があるが、その推定は理論的および計算的両面から複雑である。 この複雑さを,(1) - 特徴情報の除去アプローチ,(2) - 抽出可能な推定戦略の2つの要因に分解する。 これらの2つの因子は、24の異なるアルゴリズムをよりよく理解し比較できる自然なレンズを提供する。 様々な特徴除去手法に基づき,複数の種類のシェープリー値特徴量分布と各特徴量を計算する手法について述べる。 そして, 抽出可能な推定手法に基づいて, モデル非依存とモデル固有近似の2つの異なるアプローチを特徴付ける。 モデルに依存しない近似では、幅広い種類の推定手法をベンチマークし、シェープリー値の代替的かつ等価な特徴付けに結びつける。 モデル固有近似について,線形,木,深部モデルに対する各手法のトラクタビリティに不可欠な仮定を明らかにする。 最後に,文献のギャップを特定し,今後の研究の方向性を期待する。

Feature attributions based on the Shapley value are popular for explaining machine learning models; however, their estimation is complex from both a theoretical and computational standpoint. We disentangle this complexity into two factors: (1)~the approach to removing feature information, and (2)~the tractable estimation strategy. These two factors provide a natural lens through which we can better understand and compare 24 distinct algorithms. Based on the various feature removal approaches, we describe the multiple types of Shapley value feature attributions and methods to calculate each one. Then, based on the tractable estimation strategies, we characterize two distinct families of approaches: model-agnostic and model-specific approximations. For the model-agnostic approximations, we benchmark a wide class of estimation approaches and tie them to alternative yet equivalent characterizations of the Shapley value. For the model-specific approximations, we clarify the assumptions crucial to each method's tractability for linear, tree, and deep models. Finally, we identify gaps in the literature and promising future research directions.
翻訳日:2022-07-18 15:01:48 公開日:2022-07-15
# 安全臨界システムのための計算メモリ内ニューラルネットワーク加速器:小型デバイスの変動は破滅的か?

Computing-In-Memory Neural Network Accelerators for Safety-Critical Systems: Can Small Device Variations Be Disastrous? ( http://arxiv.org/abs/2207.07626v1 )

ライセンス: Link先を確認
Zheyu Yan, Xiaobo Sharon Hu, Yiyu Shi(参考訳) 新たな非揮発性メモリ(NVM)デバイスに基づくコンピューティング・イン・メモリ(CiM)アーキテクチャは、その高エネルギー効率により、ディープニューラルネットワーク(DNN)アクセラレーションに大きな可能性を示している。 しかし、NVMデバイスは様々な非理想性、特に製造欠陥によるデバイス間変異や、デバイスの確率的挙動によるサイクル間変動に悩まされている。 したがって、実際にNVMデバイスにマッピングされたDNN重みは、期待値から大きく逸脱し、パフォーマンスが大幅に低下する可能性がある。 この問題に対処するため、既存の作業の多くは、デバイスの違いによる平均パフォーマンスの最大化に重点を置いている。 この目的は汎用シナリオでうまく機能する。 しかし、安全クリティカルなアプリケーションの場合、最悪の場合のパフォーマンスも考慮する必要があります。 残念ながら、この研究は文献ではほとんど行われていない。 本研究では,CiM DNNアクセラレータの最悪の性能をデバイス変動の影響下で決定する問題を定式化する。 さらに,高次元空間におけるデバイス変動の具体的組み合わせを効果的に見つけ出す手法を提案する。 非常に小さなデバイスバリエーションであっても、DNNの精度が大幅に低下し、安全クリティカルなアプリケーションにCiMアクセラレータをデプロイする際の懸念が生じます。 最後に、CiMアクセラレーターにおける平均DNN性能を高めるために使用されている既存の手法は、最悪の場合の性能を高めるために拡張した場合に非常に効果的であることを示す。

Computing-in-Memory (CiM) architectures based on emerging non-volatile memory (NVM) devices have demonstrated great potential for deep neural network (DNN) acceleration thanks to their high energy efficiency. However, NVM devices suffer from various non-idealities, especially device-to-device variations due to fabrication defects and cycle-to-cycle variations due to the stochastic behavior of devices. As such, the DNN weights actually mapped to NVM devices could deviate significantly from the expected values, leading to large performance degradation. To address this issue, most existing works focus on maximizing average performance under device variations. This objective would work well for general-purpose scenarios. But for safety-critical applications, the worst-case performance must also be considered. Unfortunately, this has been rarely explored in the literature. In this work, we formulate the problem of determining the worst-case performance of CiM DNN accelerators under the impact of device variations. We further propose a method to effectively find the specific combination of device variation in the high-dimensional space that leads to the worst-case performance. We find that even with very small device variations, the accuracy of a DNN can drop drastically, causing concerns when deploying CiM accelerators in safety-critical applications. Finally, we show that surprisingly none of the existing methods used to enhance average DNN performance in CiM accelerators are very effective when extended to enhance the worst-case performance, and further research down the road is needed to address this problem.
翻訳日:2022-07-18 15:01:33 公開日:2022-07-15
# トランスを用いた移動体ケストロークバイオメトリックス

Mobile Keystroke Biometrics Using Transformers ( http://arxiv.org/abs/2207.07596v1 )

ライセンス: Link先を確認
Giuseppe Stragapede and Paula Delgado-Santos and Ruben Tolosana and Ruben Vera-Rodriguez and Richard Guest and Aythami Morales(参考訳) 行動バイオメトリックスは、ユーザフレンドリーな認証方法であると同時に、アイデンティティ盗難に対して有効であることが証明されている。 この文学で最も人気のある特徴の1つは、我々の社会にコンピュータとモバイルデバイスが大量に配備されていることによるキーストロークダイナミクスである。 本稿では,自由テキストシナリオにおけるキーストロークバイオメトリックシステムの改善に着目する。 このシナリオは、制御されていないテキスト条件、ユーザの感情的および身体的状態の影響、使用中のアプリケーションによって非常に困難である。 これらの欠点を克服するために,畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク(RNN)といったディープラーニングに基づく手法が文献で提案され,従来の機械学習手法よりも優れている。 しかし、これらのアーキテクチャには、レビューと改善が必要な側面が残っている。 私たちの知る限りでは、これはトランスフォーマーに基づいたキーストロークバイオメトリックシステムを提案する最初の研究です。 提案したTransformerアーキテクチャは、Aaltoモバイルキーストロークデータベースで5つのエンローメントセッションのみを使用して、EER(Equal Error Rate)の3.84%の値を達成した。

Behavioural biometrics have proven to be effective against identity theft as well as be considered user-friendly authentication methods. One of the most popular traits in the literature is keystroke dynamics due to the large deployment of computers and mobile devices in our society. This paper focuses on improving keystroke biometric systems on the free-text scenario. This scenario is characterised as very challenging due to the uncontrolled text conditions, the influential of the user's emotional and physical state, and the in-use application. To overcome these drawbacks, methods based on deep learning such as Convolutional Neural Networks (CNNs) and Recurrent Neural Networks (RNNs) have been proposed in the literature, outperforming traditional machine learning methods. However, these architectures still have aspects that need to be reviewed and improved. To the best of our knowledge, this is the first study that proposes keystroke biometric systems based on Transformers. The proposed Transformer architecture has achieved Equal Error Rate (EER) values of 3.84% in the popular Aalto mobile keystroke database using only 5 enrolment sessions, outperforming in large margin other state-of-the-art approaches in the literature.
翻訳日:2022-07-18 15:00:46 公開日:2022-07-15
# 実多人数会話環境におけるニューラル音声強調と認識の方向認識協調適応

Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments ( http://arxiv.org/abs/2207.07273v1 )

ライセンス: Link先を確認
Yicheng Du, Aditya Arie Nugraha, Kouhei Sekiguchi, Yoshiaki Bando, Mathieu Fontaine, Kazuyoshi Yoshii(参考訳) 本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。 シミュレーション環境で活発に研究されている主要なアプローチは、教師付き方法で訓練されたディープニューラルネットワーク(DNN)に基づいて、音声強調と自動音声認識(ASR)を順次実行することである。 しかし,本課題では,トレーニング条件とテスト条件のミスマッチとユーザの頭部動作のミスマッチにより,事前学習したシステムが動作しない。 対象話者の発話のみを強化するため,頭部相対方向に対応する音声成分を適応的に抽出できるDNNベースの音声マスク推定器を用いてビームフォーミングを行う。 本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。 最先端の遠隔音声認識システムを用いた比較実験により,提案手法がasr性能を著しく向上することを示す。

This paper describes noisy speech recognition for an augmented reality headset that helps verbal communication within real multiparty conversational environments. A major approach that has actively been studied in simulated environments is to sequentially perform speech enhancement and automatic speech recognition (ASR) based on deep neural networks (DNNs) trained in a supervised manner. In our task, however, such a pretrained system fails to work due to the mismatch between the training and test conditions and the head movements of the user. To enhance only the utterances of a target speaker, we use beamforming based on a DNN-based speech mask estimator that can adaptively extract the speech components corresponding to a head-relative particular direction. We propose a semi-supervised adaptation method that jointly updates the mask estimator and the ASR model at run-time using clean speech signals with ground-truth transcriptions and noisy speech signals with highly-confident estimated transcriptions. Comparative experiments using the state-of-the-art distant speech recognition system show that the proposed method significantly improves the ASR performance.
翻訳日:2022-07-18 14:58:27 公開日:2022-07-15
# 実雑音環境における拡張現実ヘッドセットを用いた指向性適応型オンラインニューラル音声強調

Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments ( http://arxiv.org/abs/2207.07296v1 )

ライセンス: Link先を確認
Kouhei Sekiguchi, Aditya Arie Nugraha, Yicheng Du, Yoshiaki Bando, Mathieu Fontaine, Kazuyoshi Yoshii(参考訳) 本稿では,現実の騒々しいエコー環境(例えばカクテルパーティー)における会話の理解を支援する拡張現実(AR)ヘッドセットにおける,オンライン音声強調の実用的応答・性能認識開発について述べる。 高速マルチチャネル非負行列分解 (FastMNMF) と呼ばれる最先端のブラインドソース分離法は、教師なしの性質のおかげで様々な環境でうまく機能する。 しかし、その計算コストは、リアルタイム処理への応用を妨げている。 対照的に、音声と雑音の空間情報を推定するためにディープニューラルネットワーク(DNN)を用いる教師ありビームフォーミング法は、リアルタイム処理に容易に適合するが、ミスマッチした条件下での劇的な性能劣化に悩まされる。 そこで,このような相補的特徴から,高速mnmf適応によるdnnベースビームフォーミングに基づく2プロセスロバストオンライン音声強調手法を提案する。 fastmnmf(back end)をミニバッチ方式で実行し、元の並列訓練データと共に雑音および拡張された音声ペアを用いて、計算可能間隔でバックプロパゲーションにより方向認識dnn(front end)を更新する。 本発明の方法は、話者のうるさい残響音声を、ビデオから検出したり、ユーザの手の動きや目視で選択されたものをストリーミングで検出し、AR技術で空間的に転写する、重み付き予測誤差(WPE)と呼ばれるブラインド除去法で用いられる。 実験の結果, 単語の誤り率を10点以上改善し, 実行時適応をわずか12分で行うことができた。

This paper describes the practical response- and performance-aware development of online speech enhancement for an augmented reality (AR) headset that helps a user understand conversations made in real noisy echoic environments (e.g., cocktail party). One may use a state-of-the-art blind source separation method called fast multichannel nonnegative matrix factorization (FastMNMF) that works well in various environments thanks to its unsupervised nature. Its heavy computational cost, however, prevents its application to real-time processing. In contrast, a supervised beamforming method that uses a deep neural network (DNN) for estimating spatial information of speech and noise readily fits real-time processing, but suffers from drastic performance degradation in mismatched conditions. Given such complementary characteristics, we propose a dual-process robust online speech enhancement method based on DNN-based beamforming with FastMNMF-guided adaptation. FastMNMF (back end) is performed in a mini-batch style and the noisy and enhanced speech pairs are used together with the original parallel training data for updating the direction-aware DNN (front end) with backpropagation at a computationally-allowable interval. This method is used with a blind dereverberation method called weighted prediction error (WPE) for transcribing the noisy reverberant speech of a speaker, which can be detected from video or selected by a user's hand gesture or eye gaze, in a streaming manner and spatially showing the transcriptions with an AR technique. Our experiment showed that the word error rate was improved by more than 10 points with the run-time adaptation using only twelve minutes of observation.
翻訳日:2022-07-18 14:58:08 公開日:2022-07-15
# MIMO-DoAnet:未知音源数を持つマルチチャネル入力と複数出力DoAネットワーク

MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources ( http://arxiv.org/abs/2207.07307v1 )

ライセンス: Link先を確認
Haoran Yin, Meng Ge, Yanjie Fu, Gaoyan Zhang, Longbiao Wang, Lei Zhang, Lin Qiu and Jianwu Dang(参考訳) 近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。 これらのアルゴリズムは通常、マルチチャネルオーディオ入力を単一の出力(すなわち、すべてのソースの全体的な空間的擬似スペクトラム(sps))にマッピングすることで実現される。 しかし、そのようなmisoアルゴリズムは、経験的閾値設定と音源間の角度が固定された角度よりも大きいという角度仮定に大きく依存する。 これらの制約に対処するため、MIMO-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案する。 一般的なMIISOアルゴリズムとは異なり、MIMO-DoAnetは情報的空間共分散行列の助けを借りて各音源のSPS符号化を予測する。 これにより、音源数を検出するしきい値タスクは、各出力に音源が存在するかどうかを検出するための容易なタスクとなり、推論段階では音源間の真剣な相互作用が消失する。 実験の結果,misoベースラインシステムと比較すると,mimo-doanetは相対18.6%,絶対13.3%,相対34.4%,絶対20.2%のf1スコア向上を達成した。 また,mimo-doanetが閾値設定問題を緩和し,角度推定問題を効果的に解くことを示した。

Recent neural network based Direction of Arrival (DoA) estimation algorithms have performed well on unknown number of sound sources scenarios. These algorithms are usually achieved by mapping the multi-channel audio input to the single output (i.e. overall spatial pseudo-spectrum (SPS) of all sources), that is called MISO. However, such MISO algorithms strongly depend on empirical threshold setting and the angle assumption that the angles between the sound sources are greater than a fixed angle. To address these limitations, we propose a novel multi-channel input and multiple outputs DoA network called MIMO-DoAnet. Unlike the general MISO algorithms, MIMO-DoAnet predicts the SPS coding of each sound source with the help of the informative spatial covariance matrix. By doing so, the threshold task of detecting the number of sound sources becomes an easier task of detecting whether there is a sound source in each output, and the serious interaction between sound sources disappears during inference stage. Experimental results show that MIMO-DoAnet achieves relative 18.6% and absolute 13.3%, relative 34.4% and absolute 20.2% F1 score improvement compared with the MISO baseline system in 3, 4 sources scenes. The results also demonstrate MIMO-DoAnet alleviates the threshold setting problem and solves the angle assumption problem effectively.
翻訳日:2022-07-18 14:57:39 公開日:2022-07-15
# パラメトリック双曲保存則のディープニューラルネットワーク近似に対する誤差解析

Error analysis for deep neural network approximations of parametric hyperbolic conservation laws ( http://arxiv.org/abs/2207.07362v1 )

ライセンス: Link先を確認
Tim De Ryck, Siddhartha Mishra(参考訳) ReLUニューラルネットワークを用いたパラメトリック双曲スカラー保存法則の解の近似による誤差の厳密な境界を導出する。 本稿では,ReLUニューラルネットワークが次元の呪いを克服し,近似誤差を所望の程度小さくすることができることを示す。 さらに,トレーニング誤差,トレーニングサンプル数,ニューラルネットワークサイズに関して,一般化誤差の明示的な上限を与える。 理論的結果は数値実験によって示される。

We derive rigorous bounds on the error resulting from the approximation of the solution of parametric hyperbolic scalar conservation laws with ReLU neural networks. We show that the approximation error can be made as small as desired with ReLU neural networks that overcome the curse of dimensionality. In addition, we provide an explicit upper bound on the generalization error in terms of the training error, number of training samples and the neural network size. The theoretical results are illustrated by numerical experiments.
翻訳日:2022-07-18 14:57:15 公開日:2022-07-15
# エンドツーエンド音声言語理解のための低ビットシフトネットワーク

Low-bit Shift Network for End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2207.07497v1 )

ライセンス: Link先を確認
Anderson R. Avila, Khalil Bibi, Rui Heng Yang, Xinlin Li, Chao Xing, Xiao Chen(参考訳) ディープニューラルネットワーク(DNN)は、複数のドメインで大きな成功を収めている。 長年にわたり、これらのモデルの精度は、より深く複雑なアーキテクチャの増大とともに向上してきた。 したがって最先端のソリューションは、しばしば計算コストがかかるため、エッジコンピューティングプラットフォームにデプロイするには不向きである。 畳み込みニューラルネットワーク(CNN)の高計算,メモリ,電力要求を緩和するために,連続パラメータを低ビットの2つの値に量子化するパワー・オブ・ツー量子化法を提案する。 これにより、高価な乗算演算を取り除き、低ビット重みを使用することにより計算複雑性を低減する。 ResNetは我々のソリューションのビルディングブロックとして採用され、提案したモデルは音声言語理解(SLU)タスクに基づいて評価される。 実験の結果、シフトニューラルネットワークアーキテクチャの性能が向上し、我々の低ビット量子化は、完全な精度と最先端のソリューションに匹敵する性能を持つテストセット上で98.76%に達した。

Deep neural networks (DNN) have achieved impressive success in multiple domains. Over the years, the accuracy of these models has increased with the proliferation of deeper and more complex architectures. Thus, state-of-the-art solutions are often computationally expensive, which makes them unfit to be deployed on edge computing platforms. In order to mitigate the high computation, memory, and power requirements of inferring convolutional neural networks (CNNs), we propose the use of power-of-two quantization, which quantizes continuous parameters into low-bit power-of-two values. This reduces computational complexity by removing expensive multiplication operations and with the use of low-bit weights. ResNet is adopted as the building block of our solution and the proposed model is evaluated on a spoken language understanding (SLU) task. Experimental results show improved performance for shift neural network architectures, with our low-bit quantization achieving 98.76 \% on the test set which is comparable performance to its full-precision counterpart and state-of-the-art solutions.
翻訳日:2022-07-18 14:57:09 公開日:2022-07-15
# COVID-19患者からのバイタルサイン軌跡の異常検出

Outlier detection of vital sign trajectories from COVID-19 patients ( http://arxiv.org/abs/2207.07572v1 )

ライセンス: Link先を確認
Sara Summerton, Ann Tivey, Rohan Shotton, Gavin Brown, Oliver C. Redfern, Rachel Oakley, John Radford, and David C. Wong(参考訳) リモートで患者を監視するための、連続的なウェアラブルバイタルサインセンサーへの関心が高まっている。 これらのモニターは、通常警告システムと結合され、バイタルサインの測定が予め定義された正常範囲外に落ちるとトリガーされる。 心拍数の増加のようなバイタルサインの傾向は、しばしば健康の悪化を示すが、警告システムに組み込まれることは稀である。 本研究では,このような異常な致命的なサイン傾向を識別する新しい異常値検出アルゴリズムを提案する。 バイタルサインの軌跡を比較するための距離に基づく尺度を提案する。 データセット内の各患者について,バイタルサインタイムの時系列を180分に分割した。 そして, 動的時間ワープ距離を用いて, すべてのエポック間の距離を計算した。 それぞれのエポックは、平均的な対距離(平均リンク距離)が他のすべてのエポックと異なり、大きな距離は外れ値と見なされる。 新型コロナウイルス感染拡大後,最近退院した8例から収集した1561件の患者データに本手法を適用した。 症例は退院後退院した患者と良好に一致した。 また,本症例ではエポックが正常から異常へとどのように移行するかを記述的に示す。

There is growing interest in continuous wearable vital sign sensors for monitoring patients remotely at home. These monitors are usually coupled to an alerting system, which is triggered when vital sign measurements fall outside a predefined normal range. Trends in vital signs, such as an increasing heart rate, are often indicative of deteriorating health, but are rarely incorporated into alerting systems. In this work, we present a novel outlier detection algorithm to identify such abnormal vital sign trends. We introduce a distance-based measure to compare vital sign trajectories. For each patient in our dataset, we split vital sign time series into 180 minute, non-overlapping epochs. We then calculated a distance between all pairs of epochs using the dynamic time warp distance. Each epoch was characterized by its mean pairwise distance (average link distance) to all other epochs, with large distances considered as outliers. We applied this method to a pilot dataset collected over 1561 patient-hours from 8 patients who had recently been discharged from hospital after contracting COVID-19. We show that outlier epochs correspond well with patients who were subsequently readmitted to hospital. We also show, descriptively, how epochs transition from normal to abnormal for one such patient.
翻訳日:2022-07-18 14:56:49 公開日:2022-07-15
# (参考訳) 視覚・言語的モダリティに対する行動の推論--調査

Reasoning about Actions over Visual and Linguistic Modalities: A Survey ( http://arxiv.org/abs/2207.07568v1 )

ライセンス: CC BY 4.0
Shailaja Keyur Sampat, Maitreya Patel, Subhasish Das, Yezhou Yang and Chitta Baral(参考訳) 行動」は、人間が世界とどのように相互作用し、望ましい目標を達成するかにおいて重要な役割を果たす。 結果として、人間に対する最も一般的な感覚(cs)の知識は行動に関するものである。 知識表現コミュニティでは「行動と変化に関する推論」(RAC)が広く研究されているが、最近ではNLPやコンピュータビジョン研究者の関心を喚起している。 本稿では、既存のタスク、ベンチマークデータセット、様々な技術とモデル、そしてビジョンと言語領域におけるRACの進歩に関するそれぞれのパフォーマンスについて調査する。 最後に,本研究の要点を概説し,この研究領域に直面する課題を議論し,今後の研究の方向性について概説する。

'Actions' play a vital role in how humans interact with the world and enable them to achieve desired goals. As a result, most common sense (CS) knowledge for humans revolves around actions. While 'Reasoning about Actions & Change' (RAC) has been widely studied in the Knowledge Representation community, it has recently piqued the interest of NLP and computer vision researchers. This paper surveys existing tasks, benchmark datasets, various techniques and models, and their respective performance concerning advancements in RAC in the vision and language domain. Towards the end, we summarize our key takeaways, discuss the present challenges facing this research area, and outline potential directions for future research.
翻訳日:2022-07-18 14:54:45 公開日:2022-07-15
# UASリモートセンシング画像とスポットスプレーを用いたトウモロコシ畑におけるボランティアコットン検出のためのコンピュータビジョン

Computer Vision for Volunteer Cotton Detection in a Corn Field with UAS Remote Sensing Imagery and Spot Spray Applications ( http://arxiv.org/abs/2207.07334v1 )

ライセンス: Link先を確認
Pappu Kumar Yadav, J. Alex Thomasson, Stephen W. Searcy, Robert G. Hardin, Ulisses Braga-Neto, Sorin C. Popescu, Daniel E. Martin, Roberto Rodriguez, Karem Meza, Juan Enciso, Jorge Solorzano Diaz, Tianyi Wang(参考訳) 綿花畑におけるゾウ (Anthonomus grandis L.) の害虫の再寄生を抑えるため, トウモロコシ (Zea mays L.) やソルガム (Sorghum bicolor L.) などのローテーション作物の畑におけるボランティア綿 (VC) の植物検出は, 畑の縁で手動のフィールドスカウトを行う。 これにより、畑の真ん中で成長する多くのVC植物は検出されず、トウモロコシやソルガムと並んで成長し続ける。 羽ばたきのステージ(5-6葉)に到達すると、ウズラ害虫の宿主として機能する。 そのため、化学薬品でそれらを検出、発見、正確にスポットスプレーする必要がある。 本稿では, タッセリング(VT)成長段階において成長するVC植物を検出, 位置推定するために, YOLOv5mをラジオメトリックおよびガンマ補正低分解能(1.2メガピクセル)マルチスペクトル画像に適用する。 その結果, NVIDIA Tesla P100 GPU-16GB, NVIDIA Jetson TX2 GPUで0.4 FPS, NVIDIA Tesla P100 GPU-16GBで約47フレーム/秒(FPS)で, 平均mAPの79%, 画像サイズ1207×923ピクセルの分類精度78%でVCプラントを検出することができた。 また,先進的コンピュータビジョン (cv) アルゴリズムに基づくスポットスプレーアプリケーションにカスタマイズされた無人航空機システム (uas) を応用し, トウモロコシ畑で生育するvcプラントのリアルタイム検出と軽減に利用し, 病原菌の効率的な管理に有用であることを示す。

To control boll weevil (Anthonomus grandis L.) pest re-infestation in cotton fields, the current practices of volunteer cotton (VC) (Gossypium hirsutum L.) plant detection in fields of rotation crops like corn (Zea mays L.) and sorghum (Sorghum bicolor L.) involve manual field scouting at the edges of fields. This leads to many VC plants growing in the middle of fields remain undetected that continue to grow side by side along with corn and sorghum. When they reach pinhead squaring stage (5-6 leaves), they can serve as hosts for the boll weevil pests. Therefore, it is required to detect, locate and then precisely spot-spray them with chemicals. In this paper, we present the application of YOLOv5m on radiometrically and gamma-corrected low resolution (1.2 Megapixel) multispectral imagery for detecting and locating VC plants growing in the middle of tasseling (VT) growth stage of cornfield. Our results show that VC plants can be detected with a mean average precision (mAP) of 79% and classification accuracy of 78% on images of size 1207 x 923 pixels at an average inference speed of nearly 47 frames per second (FPS) on NVIDIA Tesla P100 GPU-16GB and 0.4 FPS on NVIDIA Jetson TX2 GPU. We also demonstrate the application of a customized unmanned aircraft systems (UAS) for spot-spray applications based on the developed computer vision (CV) algorithm and how it can be used for near real-time detection and mitigation of VC plants growing in corn fields for efficient management of the boll weevil pests.
翻訳日:2022-07-18 14:38:08 公開日:2022-07-15
# 確率的市場ゲーム

Stochastic Market Games ( http://arxiv.org/abs/2207.07388v1 )

ライセンス: Link先を確認
Kyrill Schmid, Lenz Belzner, Robert M\"uller, Johannes Tochtermann, Claudia-Linhoff-Popien(参考訳) 自律運転やファクトリー・アズ・ア・サービスのようなマルチエージェントシステムの最も関連する将来の応用は、エージェントが相反する目標を持つ可能性がある混合動機的シナリオを示す。 これらの設定では、エージェントは、過剰な欲望行動のような独立した学習の下での協調の観点から望ましくない結果を学ぶ可能性が高い。 本研究は,現実社会に動機づけられ,エージェントが協力的になるためのインセンティブを提供するために,市場力を活用することを提案する。 囚人のジレンマの反復版で示されるように、提案された市場の定式化はゲームのダイナミクスを変え、一貫して協調政策を学ぶことができる。 さらに,各種エージェントの空間的および時間的拡張設定におけるアプローチの評価を行った。 我々は、市場の存在が、トレーディング活動を通じて、総合的な結果とエージェント個人のリターンの両方を改善できることを実証的に見出す。

Some of the most relevant future applications of multi-agent systems like autonomous driving or factories as a service display mixed-motive scenarios, where agents might have conflicting goals. In these settings agents are likely to learn undesirable outcomes in terms of cooperation under independent learning, such as overly greedy behavior. Motivated from real world societies, in this work we propose to utilize market forces to provide incentives for agents to become cooperative. As demonstrated in an iterated version of the Prisoner's Dilemma, the proposed market formulation can change the dynamics of the game to consistently learn cooperative policies. Further we evaluate our approach in spatially and temporally extended settings for varying numbers of agents. We empirically find that the presence of markets can improve both the overall result and agent individual returns via their trading activities.
翻訳日:2022-07-18 14:37:27 公開日:2022-07-15
# 連邦災害支援政策-宣言的分析

The Federal Disaster Assistance Policy -- a declarative analysis ( http://arxiv.org/abs/2207.07392v1 )

ライセンス: Link先を確認
Mark Dukes(参考訳) 本稿では,3つの異なる利害関係者の視点から,連邦政府の災害支援政策の定量的分析を行う。 この定量的手法は新しいもので、ビジネスや医療といった他の分野にも応用できる。 ステークホルダーはプロセスの透明性に興味を持っているが、それぞれが透明性を構成するものについて、正確に異なる意見を持っている。 我々はまた、連邦災害支援政策の3つの変更を検討し、株主の観点から、株主の満足度がプロセスからプロセスにどのように変化するかを分析する。 この分析は、すべての集合的利害関係者の選好に関する4つのポリシーの好適性をランク付けするために使用される。

In this paper we will provide a quantitative analysis of the Federal Disaster Assistance policy from the viewpoint of three different stakeholders. This quantitative methodology is new and has applications to other areas such as business and healthcare processes. The stakeholders are interested in process transparency but each has a different opinion on precisely what constitutes transparency. We will also consider three modifications to the Federal Disaster Assistance policy and analyse, from a stakeholder viewpoint, how stakeholder satisfaction changes from process to process. This analysis is used to rank the favourability of four policies with respect to all collective stakeholder preferences.
翻訳日:2022-07-18 14:37:11 公開日:2022-07-15
# DOLPHINS:コラボレーティブ・パーセプションのためのデータセット

DOLPHINS: Dataset for Collaborative Perception enabled Harmonious and Interconnected Self-driving ( http://arxiv.org/abs/2207.07609v1 )

ライセンス: Link先を確認
Ruiqing Mao, Jingyu Guo, Yukuan Jia, Yuxuan Sun, Sheng Zhou, Zhisheng Niu(参考訳) V2Xネットワークは、自律運転における協調的な認識を可能にした。これは、ブラインドゾーンや長距離知覚を含むスタンドアロンインテリジェンスの基本的欠陥に対する、有望な解決策である。 しかし、データセットの欠如は、協調認識アルゴリズムの開発を著しく妨げている。 本研究では, 大規模多目的多目的自動運転データセットのシミュレーションとして, cOllaborative Perception のためのデータセットにより, Harmonious と Inter connected Self-driving を実現した。 DOLPHINS outperforms current datasets in six dimensions: temporally-aligned images and point clouds from both vehicles and Road Side Units (RSUs) enabling both Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) based collaborative perception; 6 typical scenarios with dynamic weather conditions make the most various interconnected autonomous driving dataset; meticulously selected viewpoints providing full coverage of the key areas and every object; 42376 frames and 292549 objects, as well as the corresponding 3D annotations, geo-positions, and calibrations, compose the largest dataset for collaborative perception; Full-HD images and 64-line LiDARs construct high-resolution data with sufficient details; well-organized APIs and open-source codes ensure the extensibility of DOLPHINS. また,イルカの2次元検出,3次元検出,多視点協調知覚タスクのベンチマークも構築した。 実験の結果,v2x通信による原レベル融合方式は,rsusが存在する場合に高価なlidar機器の必要性を低減し,相互接続型自動運転車の普及を加速させる可能性がある。 DOLPHINSはhttps://dolphins-dataset.net/.comで利用可能である。

Vehicle-to-Everything (V2X) network has enabled collaborative perception in autonomous driving, which is a promising solution to the fundamental defect of stand-alone intelligence including blind zones and long-range perception. However, the lack of datasets has severely blocked the development of collaborative perception algorithms. In this work, we release DOLPHINS: Dataset for cOllaborative Perception enabled Harmonious and INterconnected Self-driving, as a new simulated large-scale various-scenario multi-view multi-modality autonomous driving dataset, which provides a ground-breaking benchmark platform for interconnected autonomous driving. DOLPHINS outperforms current datasets in six dimensions: temporally-aligned images and point clouds from both vehicles and Road Side Units (RSUs) enabling both Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) based collaborative perception; 6 typical scenarios with dynamic weather conditions make the most various interconnected autonomous driving dataset; meticulously selected viewpoints providing full coverage of the key areas and every object; 42376 frames and 292549 objects, as well as the corresponding 3D annotations, geo-positions, and calibrations, compose the largest dataset for collaborative perception; Full-HD images and 64-line LiDARs construct high-resolution data with sufficient details; well-organized APIs and open-source codes ensure the extensibility of DOLPHINS. We also construct a benchmark of 2D detection, 3D detection, and multi-view collaborative perception tasks on DOLPHINS. The experiment results show that the raw-level fusion scheme through V2X communication can help to improve the precision as well as to reduce the necessity of expensive LiDAR equipment on vehicles when RSUs exist, which may accelerate the popularity of interconnected self-driving vehicles. DOLPHINS is now available on https://dolphins-dataset.net/.
翻訳日:2022-07-18 14:34:09 公開日:2022-07-15
# オンデバイス環境音分類のための連続学習

Continual Learning For On-Device Environmental Sound Classification ( http://arxiv.org/abs/2207.07429v1 )

ライセンス: Link先を確認
Yang Xiao, Xubo Liu, James King, Arshdeep Sing, Eng Siong Chng, Mark D. Plumbley, Wenwu Wang(参考訳) 計算資源(例えばモデルサイズ、メモリ実行量)の制限を考えると、破滅的な忘れずに新しいクラスを継続的に学習することは、オンデバイス環境音の分類において難しい問題である。 そこで本研究では,簡便で効率的な連続学習手法を提案する。 本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。 具体的には,分類器埋め込みに付加される並列摂動に対して,データの分類確率がどのように変動するかを観察して不確実性を測定する。 このようにして、生データに摂動を追加するよりも計算コストを大幅に削減することができる。 dcase 2019タスク1とesc-50データセットにおける実験結果から,提案手法は,分類精度と計算効率のベースライン連続学習法を上回っており,オンデバイス環境音の分類における壊滅的な忘れ込み問題なく,効率的かつ漸進的に新しいクラスを学習できることを示す。

Continuously learning new classes without catastrophic forgetting is a challenging problem for on-device environmental sound classification given the restrictions on computation resources (e.g., model size, running memory). To address this issue, we propose a simple and efficient continual learning method. Our method selects the historical data for the training by measuring the per-sample classification uncertainty. Specifically, we measure the uncertainty by observing how the classification probability of data fluctuates against the parallel perturbations added to the classifier embedding. In this way, the computation cost can be significantly reduced compared with adding perturbation to the raw data. Experimental results on the DCASE 2019 Task 1 and ESC-50 dataset show that our proposed method outperforms baseline continual learning methods on classification accuracy and computational efficiency, indicating our method can efficiently and incrementally learn new classes without the catastrophic forgetting problem for on-device environmental sound classification.
翻訳日:2022-07-18 14:33:36 公開日:2022-07-15
# Deep Hedging: 複数のリスク回避をまたいだ総合ポートフォリオのヘッジのための継続的強化学習

Deep Hedging: Continuous Reinforcement Learning for Hedging of General Portfolios across Multiple Risk Aversions ( http://arxiv.org/abs/2207.07467v1 )

ライセンス: Link先を確認
Phillip Murray, Ben Wood, Hans Buehler, Magnus Wiese, Mikko S. Pakkanen(参考訳) 任意の初期ポートフォリオと市場状態に対して最適なヘッジポリシーを求める方法を提案する。 本研究では,リスク逆確率制御問題の解法と,複数のリスク回避レベルのヘッジ戦略を同時に学習するために,アクター批判アルゴリズムを開発した。 確率的ボラティリティ環境における数値例によるアプローチの有効性を実証する。

We present a method for finding optimal hedging policies for arbitrary initial portfolios and market states. We develop a novel actor-critic algorithm for solving general risk-averse stochastic control problems and use it to learn hedging strategies across multiple risk aversion levels simultaneously. We demonstrate the effectiveness of the approach with a numerical example in a stochastic volatility environment.
翻訳日:2022-07-18 14:33:15 公開日:2022-07-15
# 非定常マルコフ環境に対する集合ベース値演算子

Set-based value operators for non-stationary Markovian environments ( http://arxiv.org/abs/2207.07271v1 )

ライセンス: Link先を確認
Sarah H.Q. Li, Assal\'e Adj\'e, Pierre-Lo\"ic Garoche, Beh\c{c}et A\c{c}{\i}kme\c{s}e(参考訳) 本稿では,有限状態マルコフ決定過程(MDPs)をコンパクトな集合における不確かさパラメータで解析し,集合ベースの固定点理論による堅牢なMDPの結果を再検討する。 我々はベルマンとポリシー評価演算子を値関数の空間上で契約する作用素に一般化し、それらを 'emph{value operator} と表す。 これらの値演算子を一般化して値関数集合の空間に作用させ、それらを \emph{set-based value operator} と表す。 これらの集合に基づく値作用素はコンパクト値関数集合の空間における収縮であることが証明される。 集合論からの洞察を生かして、ベルマン作用素の矩形性条件を古典的ロバストな MDP 文学から、より弱く、動的プログラミングや強化学習においてパラメータ不確実な MDP と契約的作用素のより大きな集合に適用できる一般値作用素の \emph{containment condition} へと一般化する。 整合性条件と包含条件の両方が、集合ベースの値演算子の固定点集合が自身の上限要素と無限元を含むことを十分に証明する。 不確実な MDP パラメータの凸集合とコンパクト集合に対して、古典的ロバスト値関数と集合ベースのベルマン作用素の固定点集合の上限との同値性を示す。 コンパクト集合における動的に変化するMDPパラメータの下では、値反復に対する集合収束結果が証明され、そうでなければ単一の値関数に収束しない。

This paper analyzes finite state Markov Decision Processes (MDPs) with uncertain parameters in compact sets and re-examines results from robust MDP via set-based fixed point theory. We generalize the Bellman and policy evaluation operators to operators that contract on the space of value functions and denote them as \emph{value operators}. We generalize these value operators to act on the space of value function sets and denote them as \emph{set-based value operators}. We prove that these set-based value operators are contractions in the space of compact value function sets. Leveraging insights from set theory, we generalize the rectangularity condition for the Bellman operator from classic robust MDP literature to a \emph{containment condition} for a generic value operator, which is weaker and can be applied to a larger set of parameter-uncertain MDPs and contractive operators in dynamic programming and reinforcement learning. We prove that both the rectangularity condition and the containment condition sufficiently ensure that the set-based value operator's fixed point set contains its own supremum and infimum elements. For convex and compact sets of uncertain MDP parameters, we show equivalence between the classic robust value function and the supremum of the fixed point set of the set-based Bellman operator. Under dynamically changing MDP parameters in compact sets, we prove a set convergence result for value iteration, which otherwise may not converge to a single value function.
翻訳日:2022-07-18 14:31:58 公開日:2022-07-15
# リーマン自然勾配法

Riemannian Natural Gradient Methods ( http://arxiv.org/abs/2207.07287v1 )

ライセンス: Link先を確認
Jiang Hu, Ruicheng Ao, Anthony Man-Cho So, Minghan Yang, and Zaiwen Wen(参考訳) 本稿では,負の対数確率損失の有限和を目的関数とするリーマン多様体の大規模最適化問題を考察する。 このような問題は、様々な機械学習や信号処理の応用で発生する。 本稿では,フィッシャー情報行列の概念を多様体設定に導入することにより,ユークリッド設定から多様体設定への自然勾配法の自然な拡張と見なすことのできる,新しいリーマン自然勾配法を提案する。 提案手法のほぼ完全な大域収束を標準仮定の下で確立する。 さらに,損失関数がある種の凸性と滑らか性条件を満たし,入力出力写像がリーマンヤコビアン安定条件を満たすならば,提案手法は局所線形 -- あるいは,入力出力写像のリーマンヤコビアンのリプシッツ連続性の下で,あるいは二次的-収束率でさえも満足できることを示す。 次に、リーマンヤコビアン安定性条件は、ネットワークの幅が十分に大きい場合、高い確率でバッチ正規化された2層完全連結ニューラルネットワークによって満たされることを示す。 これは収束率の結果の実践的関連性を示している。 機械学習による応用に関する数値実験は、最先端技術よりも提案手法の利点を実証している。

This paper studies large-scale optimization problems on Riemannian manifolds whose objective function is a finite sum of negative log-probability losses. Such problems arise in various machine learning and signal processing applications. By introducing the notion of Fisher information matrix in the manifold setting, we propose a novel Riemannian natural gradient method, which can be viewed as a natural extension of the natural gradient method from the Euclidean setting to the manifold setting. We establish the almost-sure global convergence of our proposed method under standard assumptions. Moreover, we show that if the loss function satisfies certain convexity and smoothness conditions and the input-output map satisfies a Riemannian Jacobian stability condition, then our proposed method enjoys a local linear -- or, under the Lipschitz continuity of the Riemannian Jacobian of the input-output map, even quadratic -- rate of convergence. We then prove that the Riemannian Jacobian stability condition will be satisfied by a two-layer fully connected neural network with batch normalization with high probability, provided that the width of the network is sufficiently large. This demonstrates the practical relevance of our convergence rate result. Numerical experiments on applications arising from machine learning demonstrate the advantages of the proposed method over state-of-the-art ones.
翻訳日:2022-07-18 14:31:28 公開日:2022-07-15
# (参考訳) 複数フレームを用いた画像・テクスチャ独立ディープラーニング雑音推定

Image and Texture Independent Deep Learning Noise Estimation using Multiple Frames ( http://arxiv.org/abs/2207.07604v1 )

ライセンス: CC BY 4.0
Hikmet Kirmizitas, Nurettin Besli(参考訳) 本研究では,cnn(multiple-frame based image and texture independent convolutional neural network)ノイズ推定器を提案する。 推定器は機能します。

In this study, a novel multiple-frame based image and texture independent convolutional Neural Network (CNN) noise estimator is introduced. The estimator works.
翻訳日:2022-07-18 14:30:01 公開日:2022-07-15
# 深層学習によるカブトムシによる森林樹死の分類

Classification of Bark Beetle-Induced Forest Tree Mortality using Deep Learning ( http://arxiv.org/abs/2207.07241v1 )

ライセンス: Link先を確認
Rudraksh Kapil, Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) バークビークルの流行は世界中の森林生態系やサービスに大きな影響を及ぼす可能性がある。 効果的な森林政策と管理計画の整備には,植林樹の早期発見が不可欠である。 樹皮甲虫の感染の症状にもかかわらず, 樹冠の重複と樹冠葉の異種性を考慮すると, この課題はいまだに困難である。 本研究は,個々の樹種レベルでのカブトムシ攻撃の異なる段階を効果的に分類する深層学習に基づく手法を提案する。 提案手法では,木冠検出のために事前訓練されたロバストな特徴抽出バックボーンを用いて,無人航空機 (uavs) で撮影された画像の異なる攻撃段階を分類する浅層サブネットワークを訓練する。 さらに, クラス不均衡問題に対処するために, 様々なデータ拡張戦略を検討した結果, アフィン変換を最も有効なものに選定した。 実験により, 平均精度98.95%を達成し, ベースライン法を約10%上回り, 提案手法の有効性を実証した。

Bark beetle outbreaks can dramatically impact forest ecosystems and services around the world. For the development of effective forest policies and management plans, the early detection of infested trees is essential. Despite the visual symptoms of bark beetle infestation, this task remains challenging, considering overlapping tree crowns and non-homogeneity in crown foliage discolouration. In this work, a deep learning based method is proposed to effectively classify different stages of bark beetle attacks at the individual tree level. The proposed method uses RetinaNet architecture (exploiting a robust feature extraction backbone pre-trained for tree crown detection) to train a shallow subnetwork for classifying the different attack stages of images captured by unmanned aerial vehicles (UAVs). Moreover, various data augmentation strategies are examined to address the class imbalance problem, and consequently, the affine transformation is selected to be the most effective one for this purpose. Experimental evaluations demonstrate the effectiveness of the proposed method by achieving an average accuracy of 98.95%, considerably outperforming the baseline method by approximately 10%.
翻訳日:2022-07-18 14:19:00 公開日:2022-07-15
# 検出からのデカップリング認識:単一ショット自己回復シーンテキストスポッター

Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text Spotter ( http://arxiv.org/abs/2207.07253v1 )

ライセンス: Link先を確認
Jingjing Wu, Pengyuan Lyu, Guangming Lu, Chengquan Zhang, Kun Yao and Wenjie Pei(参考訳) 典型的なテキストスポッターは2段階スポッティング戦略に従い、まずテキストインスタンスの正確な境界を検出し、次に位置したテキスト領域内でテキスト認識を行う。 このような戦略は大きな進歩を遂げたものの、根本的な制限は2つある。 1) テキスト認識の性能は, テキスト検出の精度に大きく依存し, 検出から認識への潜在的な誤り伝播に繋がる。 2)検出と認識を橋渡しするRoI収穫は,背景からノイズを発生させ,特徴マップからのプールや補間時に情報損失を引き起こす。 本研究では,認識を検出から切り離すことにより,これらの制限を回避する,単発の自己回復シーンテキストスポッター(SRSTS)を提案する。 具体的には、テキストの検出と認識を並行して行い、それらを共有正のアンカーポイントで橋渡しする。 これにより,精度の高いテキスト境界検出が困難であっても,テキストインスタンスを正しく認識することができる。 さらに本手法は,テキスト検出のアノテーションコストを大幅に削減する。 正規形状ベンチマークと任意形状ベンチマークに関する広範囲な実験により,srstsは精度と効率の両面で従来の最先端スポッターと比較できることが示された。

Typical text spotters follow the two-stage spotting strategy: detect the precise boundary for a text instance first and then perform text recognition within the located text region. While such strategy has achieved substantial progress, there are two underlying limitations. 1) The performance of text recognition depends heavily on the precision of text detection, resulting in the potential error propagation from detection to recognition. 2) The RoI cropping which bridges the detection and recognition brings noise from background and leads to information loss when pooling or interpolating from feature maps. In this work we propose the single shot Self-Reliant Scene Text Spotter (SRSTS), which circumvents these limitations by decoupling recognition from detection. Specifically, we conduct text detection and recognition in parallel and bridge them by the shared positive anchor point. Consequently, our method is able to recognize the text instances correctly even though the precise text boundaries are challenging to detect. Additionally, our method reduces the annotation cost for text detection substantially. Extensive experiments on regular-shaped benchmark and arbitrary-shaped benchmark demonstrate that our SRSTS compares favorably to previous state-of-the-art spotters in terms of both accuracy and efficiency.
翻訳日:2022-07-18 14:18:40 公開日:2022-07-15
# クロスフィーチャーアテンションを有する軽量ビジョントランス

Lightweight Vision Transformer with Cross Feature Attention ( http://arxiv.org/abs/2207.07268v1 )

ライセンス: Link先を確認
Youpeng Zhao, Huadong Tang, Yingying Jiang, Yong A and Qiang Wu(参考訳) 近年の視覚変換器(ViT)の進歩は,視覚認識タスクにおいて大きな成果を上げている。 畳み込みニューラルネットワーク(CNN)は空間帰納バイアスを利用して視覚表現を学習するが、これらのネットワークは空間的に局所的である。 ViTは自己認識メカニズムを使ってグローバルな表現を学ぶことができるが、通常は重く、モバイルデバイスには適さない。 本稿では,トランスの計算コストを削減し,効率的なモバイルCNNを組み合わせることで,グローバルとローカルの両方の表現を学習するための汎用バックボーンとして機能する,新しい軽量CNN-ViTハイブリッドモデルであるXFormerを提案する。 実験の結果、XFormerはさまざまなタスクやデータセットで多くのCNNやViTベースのモデルより優れています。 ImageNet1Kデータセットでは、XFormerは5.5百万のパラメータで78.5%のTop-1精度を達成しており、同じ数のパラメータに対してEfficientNet-B0(CNNベース)とDeiT(ViTベース)よりも2.2%と6.3%正確である。 私たちのモデルは、オブジェクト検出やセマンティクスセグメンテーションタスクへの転送でもうまく機能します。 MS COCOデータセットでは、XFormerは6.3Mパラメータと3.8G FLOPしか持たないYOLOv3フレームワークのMobileNetV2を10.5 AP (22.7 -> 33.2 AP)で上回っている。 Cityscapesデータセットでは、単純なオールMLPデコーダだけで、mIoUが78.5、FPSが15.3で、最先端の軽量セグメンテーションネットワークを上回っている。

Recent advances in vision transformers (ViTs) have achieved great performance in visual recognition tasks. Convolutional neural networks (CNNs) exploit spatial inductive bias to learn visual representations, but these networks are spatially local. ViTs can learn global representations with their self-attention mechanism, but they are usually heavy-weight and unsuitable for mobile devices. In this paper, we propose cross feature attention (XFA) to bring down computation cost for transformers, and combine efficient mobile CNNs to form a novel efficient light-weight CNN-ViT hybrid model, XFormer, which can serve as a general-purpose backbone to learn both global and local representation. Experimental results show that XFormer outperforms numerous CNN and ViT-based models across different tasks and datasets. On ImageNet1K dataset, XFormer achieves top-1 accuracy of 78.5% with 5.5 million parameters, which is 2.2% and 6.3% more accurate than EfficientNet-B0 (CNN-based) and DeiT (ViT-based) for similar number of parameters. Our model also performs well when transferring to object detection and semantic segmentation tasks. On MS COCO dataset, XFormer exceeds MobileNetV2 by 10.5 AP (22.7 -> 33.2 AP) in YOLOv3 framework with only 6.3M parameters and 3.8G FLOPs. On Cityscapes dataset, with only a simple all-MLP decoder, XFormer achieves mIoU of 78.5 and FPS of 15.3, surpassing state-of-the-art lightweight segmentation networks.
翻訳日:2022-07-18 14:18:17 公開日:2022-07-15
# ポイント・スーパービジョンによる微弱監視映像有向物体検出

Weakly Supervised Video Salient Object Detection via Point Supervision ( http://arxiv.org/abs/2207.07269v1 )

ライセンス: Link先を確認
Shuyong Gao, Haozhe Xing, Wei Zhang, Yan Wang, Qianyu Guo, Wenqiang Zhang(参考訳) ピクセル単位の密接なアノテーションで訓練されたビデオサルエント物体検出モデルは優れた性能を達成しているが、ピクセル単位の注釈付きデータセットの取得には手間がかかる。 この問題を緩和するためにスクリブルアノテーションを使用しようとする研究もいくつかあるが、より省力的なアノテーション手法(高密度予測のための手動アノテーション手法の中でも最も省力な手法であっても)としてのポイントインスペクションは検討されていない。 本稿では,点監督に基づく強固なベースラインモデルを提案する。 時間的情報を含む給与マップを推定するために,フレーム間補完情報を短期的および長期的視点からそれぞれ抽出する。 具体的には,直交方向からの光学フローと画像情報を混合し,臨界光フロー情報(チャネル次元)と臨界トークン情報(空間次元)を適応的に強調するハイブリッドトークンアテンションモジュールを提案する。 そこで我々は,多フレームトークンに基づく有能なオブジェクトの推測において,現在のフレームを補助するLCFA(Long-term Cross-Frame Attention Module)を開発した。 さらに、DAVISとDAVSODデータセットを緩和することにより、P-DAVISとP-DAVSODの2つの点教師付きデータセットをラベル付けする。 6つのベンチマークデータセットにおける実験は、従来の弱い教師付きメソッドよりも優れており、完全な教師付きアプローチにも匹敵するものです。 ソースコードとデータセットが利用可能だ。

Video salient object detection models trained on pixel-wise dense annotation have achieved excellent performance, yet obtaining pixel-by-pixel annotated datasets is laborious. Several works attempt to use scribble annotations to mitigate this problem, but point supervision as a more labor-saving annotation method (even the most labor-saving method among manual annotation methods for dense prediction), has not been explored. In this paper, we propose a strong baseline model based on point supervision. To infer saliency maps with temporal information, we mine inter-frame complementary information from short-term and long-term perspectives, respectively. Specifically, we propose a hybrid token attention module, which mixes optical flow and image information from orthogonal directions, adaptively highlighting critical optical flow information (channel dimension) and critical token information (spatial dimension). To exploit long-term cues, we develop the Long-term Cross-Frame Attention module (LCFA), which assists the current frame in inferring salient objects based on multi-frame tokens. Furthermore, we label two point-supervised datasets, P-DAVIS and P-DAVSOD, by relabeling the DAVIS and the DAVSOD dataset. Experiments on the six benchmark datasets illustrate our method outperforms the previous state-of-the-art weakly supervised methods and even is comparable with some fully supervised approaches. Source code and datasets are available.
翻訳日:2022-07-18 14:17:47 公開日:2022-07-15
# X-CLIP:ビデオテキスト検索のための多粒度コントラスト学習

X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval ( http://arxiv.org/abs/2207.07285v1 )

ライセンス: Link先を確認
Yiwei Ma, Guohai Xu, Xiaoshuai Sun, Ming Yan, Ji Zhang, Rongrong Ji(参考訳) ビデオテキスト検索はマルチモーダル研究において不可欠かつ基本的な課題である。 ビデオテキスト検索の発展は,粗粒度や細粒度のコントラストに着目した大規模マルチモーダルコントラスト事前学習によって大きく促進されている。 しかし、粗粒度表現と細粒度表現の対比であるクロスグレードコントラストは、先行研究においてほとんど研究されていない。 粗粒度コントラストと粗粒度コントラストを比較し、粗粒度特徴と細粒度特徴との相関を算出し、類似度計算中に粗粒度特徴によって導かれる不要な細粒度特徴を除去し、検索精度を向上させる。 そこで本研究では,ビデオテキスト検索のためのマルチグラウンドコントラストモデルであるX-CLIPを提案する。 しかし、もうひとつの課題は、インスタンスレベルの類似度に細粒度およびクロス粒度類似度行列を集約することを目的とした、類似度集約問題である。 そこで本研究では,本質的フレームと単語のコントラストに着目し,不必要なフレームと単語の検索結果への影響を低減させるため,類似度行列(aosm)モジュールに着目した注意点を提案する。 MSR-VTT (49.3 R@1)、MSVD (50.4 R@1)、LSMDC (26.1 R@1)、DiDeMo (47.8 R@1)、ActivityNet (46.2 R@1) を含む5つの広く使われているビデオテキスト検索データセットにおいて、マルチグラファストコントラストと提案されたAOSMモジュールにより、X-CLIPは優れた性能を発揮する。 それまでの技術水準を+6.3%、+6.6%、+11.1%、+6.7%、+3.8%で上回り、マルチグレードコントラストとAOSMの優位性を示している。

Video-text retrieval has been a crucial and fundamental task in multi-modal research. The development of video-text retrieval has been considerably promoted by large-scale multi-modal contrastive pre-training, which primarily focuses on coarse-grained or fine-grained contrast. However, cross-grained contrast, which is the contrast between coarse-grained representations and fine-grained representations, has rarely been explored in prior research. Compared with fine-grained or coarse-grained contrasts, cross-grained contrast calculate the correlation between coarse-grained features and each fine-grained feature, and is able to filter out the unnecessary fine-grained features guided by the coarse-grained feature during similarity calculation, thus improving the accuracy of retrieval. To this end, this paper presents a novel multi-grained contrastive model, namely X-CLIP, for video-text retrieval. However, another challenge lies in the similarity aggregation problem, which aims to aggregate fine-grained and cross-grained similarity matrices to instance-level similarity. To address this challenge, we propose the Attention Over Similarity Matrix (AOSM) module to make the model focus on the contrast between essential frames and words, thus lowering the impact of unnecessary frames and words on retrieval results. With multi-grained contrast and the proposed AOSM module, X-CLIP achieves outstanding performance on five widely-used video-text retrieval datasets, including MSR-VTT (49.3 R@1), MSVD (50.4 R@1), LSMDC (26.1 R@1), DiDeMo (47.8 R@1) and ActivityNet (46.2 R@1). It outperforms the previous state-of-theart by +6.3%, +6.6%, +11.1%, +6.7%, +3.8% relative improvements on these benchmarks, demonstrating the superiority of multi-grained contrast and AOSM.
翻訳日:2022-07-18 14:17:19 公開日:2022-07-15
# 個人識別シフトによるプライバシー保護者再特定に向けて

Towards Privacy-Preserving Person Re-identification via Person Identify Shift ( http://arxiv.org/abs/2207.07311v1 )

ライセンス: Link先を確認
Shuguang Dou, Xinyang Jiang, Qingsong Zhao, Dongsheng Li, Cairong Zhao(参考訳) 近年、人物再識別(ReID)のプライバシーに関する懸念が高まり、ReID法で使用される歩行者画像のプライバシー保護が重要になっている。 DeID(Dedentification)メソッドは、ReIDデータのID関連を取り除くことにより、プライバシの問題を軽減する。 しかし、既存のDeIDメソッドのほとんどは、すべての個人識別関連情報を削除し、ReIDタスク上の非識別データのユーザビリティを損なう傾向にある。 本稿では,プライバシ保護と個人ReIDデータのユーザビリティとの良好なトレードオフを実現する技術を開発することを目的とする。 そこで本研究では,個人識別シフト (pis) を明示的に設計する新しい非識別手法を提案する。 PISは、画像ペア間のアイデンティティ関係を維持しながら、歩行者画像における絶対的アイデンティティを除去する。 変分オートエンコーダの補間特性を利用することで、pisは各歩行者イメージを現在のアイデンティティから別のidにシフトさせ、相対的なアイデンティティを保持する。 実験の結果,プライバシ保存法とモデル性能のトレードオフは,既存の非識別法よりも良好であり,データプライバシに対する人間およびモデル攻撃に対して防御できることがわかった。

Recently privacy concerns of person re-identification (ReID) raise more and more attention and preserving the privacy of the pedestrian images used by ReID methods become essential. De-identification (DeID) methods alleviate privacy issues by removing the identity-related of the ReID data. However, most of the existing DeID methods tend to remove all personal identity-related information and compromise the usability of de-identified data on the ReID task. In this paper, we aim to develop a technique that can achieve a good trade-off between privacy protection and data usability for person ReID. To achieve this, we propose a novel de-identification method designed explicitly for person ReID, named Person Identify Shift (PIS). PIS removes the absolute identity in a pedestrian image while preserving the identity relationship between image pairs. By exploiting the interpolation property of variational auto-encoder, PIS shifts each pedestrian image from the current identity to another with a new identity, resulting in images still preserving the relative identities. Experimental results show that our method has a better trade-off between privacy-preserving and model performance than existing de-identification methods and can defend against human and model attacks for data privacy.
翻訳日:2022-07-18 14:16:25 公開日:2022-07-15
# フレームカメラとイベントカメラによる魚の記録と追跡のためのステレオコキャプチャシステム

Stereo Co-capture System for Recording and Tracking Fish with Frame- and Event Cameras ( http://arxiv.org/abs/2207.07332v1 )

ライセンス: Link先を確認
Friedhelm Hamann and Guillermo Gallego(参考訳) 本研究は,従来のカメラとイベントカメラを用いたマルチアニマル視覚データ取得のためのコキャプチャシステムを導入する。 イベントカメラは、高時間分解能や時間的冗長性抑制など、フレームベースのカメラよりも多くの利点があり、魚の高速で不規則な動きを効率的に捉えることができる。 さらに、イベントベースのマルチアニマルトラッキングアルゴリズムを提案し、この手法の有効性を証明し、イベントカメラと従来のカメラの利点を組み合わせたマルチアニマルトラッキングのためのベースラインを更に探究する。

This work introduces a co-capture system for multi-animal visual data acquisition using conventional cameras and event cameras. Event cameras offer multiple advantages over frame-based cameras, such as a high temporal resolution and temporal redundancy suppression, which enable us to efficiently capture the fast and erratic movements of fish. We furthermore present an event-based multi-animal tracking algorithm, which proves the feasibility of the approach and sets the baseline for further exploration of combining the advantages of event cameras and conventional cameras for multi-animal tracking.
翻訳日:2022-07-18 14:16:03 公開日:2022-07-15
# 登録に基づくマイラルショット異常検出

Registration based Few-Shot Anomaly Detection ( http://arxiv.org/abs/2207.07361v1 )

ライセンス: Link先を確認
Chaoqin Huang, Haoyan Guan, Aofan Jiang, Ya Zhang, Michael Spratling, Yan-Feng Wang(参考訳) 本稿では,訓練中の各カテゴリに限定された正規画像のみを提供する,実用的かつ未熟な異常検出(ad)設定である,少数ショット異常検出(fsad)について考察する。 これまでのFSAD研究は、標準ADに使用される1モデル毎の学習パラダイムに従っており、カテゴリー間共通性は検討されていない。 ヒトが異常を検知する方法、すなわち正常な画像と比較することで、私たちは、カテゴリ間で本質的に一般化可能な画像アライメントタスクである登録を活用して、カテゴリに依存しない異常検出モデルを訓練する。 テスト中は、テスト画像の登録された特徴と対応するサポート(通常)画像とを比較して異常を識別する。 我々の知る限り、これは単一の一般化可能なモデルを訓練し、新しいカテゴリに対する再学習やパラメータの微調整を必要としない最初のFSAD手法である。 実験により,提案手法は,MVTecおよびMPDDベンチマークにおいて,AUCの最先端FSAD法を3%-8%上回る性能を示した。

This paper considers few-shot anomaly detection (FSAD), a practical yet under-studied setting for anomaly detection (AD), where only a limited number of normal images are provided for each category at training. So far, existing FSAD studies follow the one-model-per-category learning paradigm used for standard AD, and the inter-category commonality has not been explored. Inspired by how humans detect anomalies, i.e., comparing an image in question to normal images, we here leverage registration, an image alignment task that is inherently generalizable across categories, as the proxy task, to train a category-agnostic anomaly detection model. During testing, the anomalies are identified by comparing the registered features of the test image and its corresponding support (normal) images. As far as we know, this is the first FSAD method that trains a single generalizable model and requires no re-training or parameter fine-tuning for new categories. Experimental results have shown that the proposed method outperforms the state-of-the-art FSAD methods by 3%-8% in AUC on the MVTec and MPDD benchmarks.
翻訳日:2022-07-18 14:14:53 公開日:2022-07-15
# 1Dカーネルとしての3Dインスタンス

3D Instances as 1D Kernels ( http://arxiv.org/abs/2207.07372v1 )

ライセンス: Link先を確認
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong(参考訳) 3dインスタンスのセマンティクス、位置、形状情報をエンコードした1次元ベクトルでインスタンスを表現した3dインスタンス表現をインスタンスカーネルと呼ぶ。 インスタンスカーネルは,通常の3Dインスタンスセグメンテーションパイプラインにおける提案やヒューリスティッククラスタリングアルゴリズムに大きく依存することを避けるために,カーネル全体をスキャンするだけで,マスク推論が容易であることを示す。 インスタンスカーネルのアイデアは、2D/3Dインスタンスセグメンテーションにおける動的畳み込みの成功に触発されている。 しかし、不適切なインスタンスのローカライゼーションがインスタンス表現を著しく劣化させるなど、ポイントクラウドデータの乱れや非構造化の性質のため、3Dインスタンスを表現するのは簡単ではない。 そこで我々は,新しい3Dインスタンスエンコーディングパラダイムを構築した。 まず、潜在的なインスタンスcentroidsが候補としてローカライズされる。 次に、重複候補を集約し、マージセンタロイド周辺のコンテキストを収集してインスタンスカーネルを形成するように、候補マージスキームを考案する。 一度インスタンスカーネルが利用可能になると、インスタンスのカーネルに重みが条件付けられた動的畳み込みを通じてインスタンスマスクを再構築することができる。 パイプライン全体が動的カーネルネットワーク(DKNet)でインスタンス化される。 その結果,DKNetは,ScanNetV2データセットとS3DISデータセットの両方で,より優れたインスタンスローカライゼーションを実現している。 コードはhttps://github.com/w1zheng/dknet。

We introduce a 3D instance representation, termed instance kernels, where instances are represented by one-dimensional vectors that encode the semantic, positional, and shape information of 3D instances. We show that instance kernels enable easy mask inference by simply scanning kernels over the entire scenes, avoiding the heavy reliance on proposals or heuristic clustering algorithms in standard 3D instance segmentation pipelines. The idea of instance kernel is inspired by recent success of dynamic convolutions in 2D/3D instance segmentation. However, we find it non-trivial to represent 3D instances due to the disordered and unstructured nature of point cloud data, e.g., poor instance localization can significantly degrade instance representation. To remedy this, we construct a novel 3D instance encoding paradigm. First, potential instance centroids are localized as candidates. Then, a candidate merging scheme is devised to simultaneously aggregate duplicated candidates and collect context around the merged centroids to form the instance kernels. Once instance kernels are available, instance masks can be reconstructed via dynamic convolutions whose weights are conditioned on instance kernels. The whole pipeline is instantiated with a dynamic kernel network (DKNet). Results show that DKNet outperforms the state of the arts on both ScanNetV2 and S3DIS datasets with better instance localization. Code is available: https://github.com/W1zheng/DKNet.
翻訳日:2022-07-18 14:14:34 公開日:2022-07-15
# 時空間骨格トケ完了型ロバストモーションキャプチャ用デュアルマスクオートエンコーダ

A Dual-Masked Auto-Encoder for Robust Motion Capture with Spatial-Temporal Skeletal Token Completion ( http://arxiv.org/abs/2207.07381v1 )

ライセンス: Link先を確認
Junkun Jiang, Jie Chen, Yike Guo(参考訳) 多人数のモーションキャプチャは、激しい閉塞、速い体の動き、複雑な相互作用によって生じる曖昧さのために困難である。 既存のフレームワークは2次元のポーズ推定に基づいて構築され、3次元座標に三角測量される。 しかし, 2次元関節検出は通常不完全であり, 観測角度が限られているため, 3次元三角測量結果が不完全である。 そこで本研究では,トランスを用いた骨格運動の短距離自己回帰特性について検討する。 まず, 3次元関節を再構成し, 個々に欠落した関節を識別する適応型自己認識三角モジュールを提案する。 次に,完全な3次元骨格運動を生成するために,軌道完了のために骨格構造と時間位置をエンコードした2重マスクオートエンコーダ(d-mae)を提案する。 D-MAEの柔軟なマスキングと符号化機構により、任意のスケルトン定義を同じフレームワークで便利にデプロイできる。 重篤なデータ損失シナリオに対処するモデルの有効性を示すため,重篤なオクルージョンを伴う多人数インタラクションの高精度かつ挑戦的なモーションキャプチャデータセットに寄与する。 ベンチマークと新しいデータセットの評価は、提案するモデルの効率と、他の最先端の手法に対する利点を示しています。

Multi-person motion capture can be challenging due to ambiguities caused by severe occlusion, fast body movement, and complex interactions. Existing frameworks build on 2D pose estimations and triangulate to 3D coordinates via reasoning the appearance, trajectory, and geometric consistencies among multi-camera observations. However, 2D joint detection is usually incomplete and with wrong identity assignments due to limited observation angle, which leads to noisy 3D triangulation results. To overcome this issue, we propose to explore the short-range autoregressive characteristics of skeletal motion using transformer. First, we propose an adaptive, identity-aware triangulation module to reconstruct 3D joints and identify the missing joints for each identity. To generate complete 3D skeletal motion, we then propose a Dual-Masked Auto-Encoder (D-MAE) which encodes the joint status with both skeletal-structural and temporal position encoding for trajectory completion. D-MAE's flexible masking and encoding mechanism enable arbitrary skeleton definitions to be conveniently deployed under the same framework. In order to demonstrate the proposed model's capability in dealing with severe data loss scenarios, we contribute a high-accuracy and challenging motion capture dataset of multi-person interactions with severe occlusion. Evaluations on both benchmark and our new dataset demonstrate the efficiency of our proposed model, as well as its advantage against the other state-of-the-art methods.
翻訳日:2022-07-18 14:14:12 公開日:2022-07-15
# ST-P3:空間時間特徴学習によるエンドツーエンドビジョンに基づく自律運転

ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning ( http://arxiv.org/abs/2207.07601v1 )

ライセンス: Link先を確認
Shengchao Hu and Li Chen and Penghao Wu and Hongyang Li and Junchi Yan and Dacheng Tao(参考訳) 既存の自動運転パラダイムの多くは、タスクの多段階離散パイプラインを含む。 制御信号をよりよく予測し、ユーザ安全性を高めるために、共同空間時空間特徴学習の恩恵を受けるエンドツーエンドアプローチが望ましい。 本稿では,LiDARに基づく入力や暗黙的な設計に関する先駆的な研究があるが,その問題を解釈可能な視覚的設定で定式化する。 特に,ST-P3と呼ばれる,知覚,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。 具体的には、鳥の視線変化を知覚するための3次元空間における幾何学情報を保存するために、エゴセントリック・アライメント・アライメント手法を提案し、将来の予測のために過去の動きの変動を考慮に入れた二重経路モデリングを考案した。 我々の知る限りでは、私たちはまず、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査する。 オープンループ nuScenes データセットとクローズループ CARLA シミュレーションを用いて,従来の最先端技術に対するアプローチをベンチマークした。 その結果,本手法の有効性が示された。 ソースコード、モデル、プロトコルの詳細はhttps://github.com/openperceptionx/st-p3で公開されている。

Many existing autonomous driving paradigms involve a multi-stage discrete pipeline of tasks. To better predict the control signals and enhance user safety, an end-to-end approach that benefits from joint spatial-temporal feature learning is desirable. While there are some pioneering works on LiDAR-based input or implicit design, in this paper we formulate the problem in an interpretable vision-based setting. In particular, we propose a spatial-temporal feature learning scheme towards a set of more representative features for perception, prediction and planning tasks simultaneously, which is called ST-P3. Specifically, an egocentric-aligned accumulation technique is proposed to preserve geometry information in 3D space before the bird's eye view transformation for perception; a dual pathway modeling is devised to take past motion variations into account for future prediction; a temporal-based refinement unit is introduced to compensate for recognizing vision-based elements for planning. To the best of our knowledge, we are the first to systematically investigate each part of an interpretable end-to-end vision-based autonomous driving system. We benchmark our approach against previous state-of-the-arts on both open-loop nuScenes dataset as well as closed-loop CARLA simulation. The results show the effectiveness of our method. Source code, model and protocol details are made publicly available at https://github.com/OpenPerceptionX/ST-P3.
翻訳日:2022-07-18 14:13:45 公開日:2022-07-15
# 連続ジェスチャー列における孤立手ジェスチャー分離のための非解剖グラフ構造

A Non-Anatomical Graph Structure for isolated hand gesture separation in continuous gesture sequences ( http://arxiv.org/abs/2207.07619v1 )

ライセンス: Link先を確認
Razieh Rastgoo, Kourosh Kiani, and Sergio Escalera(参考訳) 連続手指ジェスチャー認識(CHGR)は、過去数十年間、研究者によって広く研究されてきた。 近年,連続ジェスチャービデオ[17]において,孤立したジェスチャーの境界検出の課題に対処するモデルが提示されている。 提案モデルにおけるモデル性能の向上と,[17]における手作り特徴抽出器の代替として,GCNモデルを提案し,それを積み重ねたBi-LSTMとアテンションモジュールと組み合わせてビデオストリーム内の時間情報をプッシュする。 そこで本研究では,3次元手骨の特徴を増強する2層GCNモデルを提案する。 そして、[17]から借用した後処理モジュールに、各分離されたジェスチャのクラス確率を供給する。 さらに,解剖学的グラフ構造を非解剖学的グラフ構造に置き換える。 連続的なジェスチャーシーケンスとそれに対応する孤立したジェスチャーを含む大きなデータセットがないため、動的ハンドジェスチャー認識(DHGR)、RKS-PERSIANSIGN、ASLVIDの3つの公開データセットが評価に使用される。 連続的なジェスチャシーケンスにおける分離されたジェスチャ境界検出におけるモデルの有効性を示す実験結果

Continuous Hand Gesture Recognition (CHGR) has been extensively studied by researchers in the last few decades. Recently, one model has been presented to deal with the challenge of the boundary detection of isolated gestures in a continuous gesture video [17]. To enhance the model performance and also replace the handcrafted feature extractor in the presented model in [17], we propose a GCN model and combine it with the stacked Bi-LSTM and Attention modules to push the temporal information in the video stream. Considering the breakthroughs of GCN models for skeleton modality, we propose a two-layer GCN model to empower the 3D hand skeleton features. Finally, the class probabilities of each isolated gesture are fed to the post-processing module, borrowed from [17]. Furthermore, we replace the anatomical graph structure with some non-anatomical graph structures. Due to the lack of a large dataset, including both the continuous gesture sequences and the corresponding isolated gestures, three public datasets in Dynamic Hand Gesture Recognition (DHGR), RKS-PERSIANSIGN, and ASLVID, are used for evaluation. Experimental results show the superiority of the proposed model in dealing with isolated gesture boundaries detection in continuous gesture sequences
翻訳日:2022-07-18 14:13:18 公開日:2022-07-15
# megaportraits: メガピクセルのニューラルネットワークのアバター

MegaPortraits: One-shot Megapixel Neural Head Avatars ( http://arxiv.org/abs/2207.07621v1 )

ライセンス: Link先を確認
Nikita Drobyshev, Jenya Chelishev, Taras Khakhulin, Aleksei Ivakhnenko, Victor Lempitsky and Egor Zakharov(参考訳) そこで本研究では, クロスドライブ合成の課題, すなわち, 映像の外観がアニメーション画像と大きく異なる場合に注目しながら, ニューラルネットワークアバター技術をメガピクセル解像度に進化させる。 本研究では,中分解能映像データと高分解能画像データの両方を活用し,所望のレンダリング画質と新たな視点や動きへの一般化を実現する,新たなニューラルアーキテクチャとトレーニング手法を提案する。 提案するアーキテクチャと手法が説得力のある高解像度のニューラルアバターを生み出し、クロスドライブのシナリオでライバルより優れていることを示す。 最後に、トレーニングされた高分解能ニューラルアバターモデルを、リアルタイムで動作し、ニューラルネットワークアバターのアイデンティティを数十の事前定義されたソースイメージにロックする軽量の学生モデルに蒸留する方法を示す。 リアルタイム操作とIDロックは多くの実用的アバターシステムに必須である。

In this work, we advance the neural head avatar technology to the megapixel resolution while focusing on the particularly challenging task of cross-driving synthesis, i.e., when the appearance of the driving image is substantially different from the animated source image. We propose a set of new neural architectures and training methods that can leverage both medium-resolution video data and high-resolution image data to achieve the desired levels of rendered image quality and generalization to novel views and motion. We demonstrate that suggested architectures and methods produce convincing high-resolution neural avatars, outperforming the competitors in the cross-driving scenario. Lastly, we show how a trained high-resolution neural avatar model can be distilled into a lightweight student model which runs in real-time and locks the identities of neural avatars to several dozens of pre-defined source images. Real-time operation and identity lock are essential for many practical applications head avatar systems.
翻訳日:2022-07-18 14:12:57 公開日:2022-07-15
# GUSOT:長いビデオシーケンスのためのグリーンで教師なしの単一オブジェクト追跡

GUSOT: Green and Unsupervised Single Object Tracking for Long Video Sequences ( http://arxiv.org/abs/2207.07629v1 )

ライセンス: Link先を確認
Zhiruo Zhou, Hongyu Fu, Suya You, C.-C. Jay Kuo(参考訳) 近年,ディープラーニング技術に依存した監視および教師なしのディープトラッカーが普及している。 しかし、それらは高い計算複雑性と高いメモリコストを必要とする。 本研究では,資源制約環境下での長時間ビデオの物体追跡を目的とした,GUSOTと呼ばれるグリーンな単一オブジェクトトラッカーを提案する。 ベースライントラッカであるuhp-sot++上に構築されており、短期追跡に適しており、gusotには2つの新しいモジュールが含まれている。 1)被写体回収の損失、及び 2)カラーサリーエンシーに基づく形状提案。 追跡損失の問題を解決するのに役立ち、より柔軟なオブジェクトの提案を提供する。 これにより、GUSOTは長期にわたって高いトラッキング精度を達成できる。 我々は,大規模データセットであるlasotを長時間ビデオシーケンスで実験し,モバイルおよびエッジコンピューティングプラットフォームでアプリケーションを見つける軽量な高性能トラッキングソリューションを提供することを示す。

Supervised and unsupervised deep trackers that rely on deep learning technologies are popular in recent years. Yet, they demand high computational complexity and a high memory cost. A green unsupervised single-object tracker, called GUSOT, that aims at object tracking for long videos under a resource-constrained environment is proposed in this work. Built upon a baseline tracker, UHP-SOT++, which works well for short-term tracking, GUSOT contains two additional new modules: 1) lost object recovery, and 2) color-saliency-based shape proposal. They help resolve the tracking loss problem and offer a more flexible object proposal, respectively. Thus, they enable GUSOT to achieve higher tracking accuracy in the long run. We conduct experiments on the large-scale dataset LaSOT with long video sequences, and show that GUSOT offers a lightweight high-performance tracking solution that finds applications in mobile and edge computing platforms.
翻訳日:2022-07-18 14:12:40 公開日:2022-07-15
# 分散ロバストメモリ進化によるタスクフリー連続学習の改善

Improving Task-free Continual Learning by Distributionally Robust Memory Evolution ( http://arxiv.org/abs/2207.07256v1 )

ライセンス: Link先を確認
Zhenyi Wang, Li Shen, Le Fang, Qiuling Suo, Tiehang Duan, Mingchen Gao(参考訳) task-free continual learning(cl)は、明示的なタスク定義なしで非定常データストリームを学習することを目的としている。 広く採用されているメモリリプレイ方式は、保存されたサンプルを記憶しメモリバッファに過度に適合させるため、長いデータストリームに対して徐々に効果が低下する可能性がある。 第2に,メモリデータ分布と従来のデータサンプルの分布との間に大きなギャップがあるため,既存手法ではメモリデータ分布の不確実性を見落としている。 そこで,本研究では,メモリバッファを分散的ロバスト最適化(dro)により徐々に記憶しにくくすることで,メモリデータ分布を動的に進化させる原理的メモリ進化フレームワークを提案する。 次に,wassersteingradient flow (wgf) を用いた連続的確率測度空間におけるメモリバッファデータを進化させる手法群を導出する。 提案したDROは、メモリデータ分散の最悪のケースであり、モデル性能を保証し、既存のメモリ再生方式よりもはるかに堅牢な特徴を学習する。 既存のベンチマークに対する大規模な実験は,提案手法の有効性を示すものである。 提案手法は,提案手法の副産物として,既存のタスクフリーCL法よりも逆例に対して堅牢である。

Task-free continual learning (CL) aims to learn a non-stationary data stream without explicit task definitions and not forget previous knowledge. The widely adopted memory replay approach could gradually become less effective for long data streams, as the model may memorize the stored examples and overfit the memory buffer. Second, existing methods overlook the high uncertainty in the memory data distribution since there is a big gap between the memory data distribution and the distribution of all the previous data examples. To address these problems, for the first time, we propose a principled memory evolution framework to dynamically evolve the memory data distribution by making the memory buffer gradually harder to be memorized with distributionally robust optimization (DRO). We then derive a family of methods to evolve the memory buffer data in the continuous probability measure space with Wasserstein gradient flow (WGF). The proposed DRO is w.r.t the worst-case evolved memory data distribution, thus guarantees the model performance and learns significantly more robust features than existing memory-replay-based methods. Extensive experiments on existing benchmarks demonstrate the effectiveness of the proposed methods for alleviating forgetting. As a by-product of the proposed framework, our method is more robust to adversarial examples than existing task-free CL methods.
翻訳日:2022-07-18 14:10:42 公開日:2022-07-15
# pathGCN: パスから一般グラフ空間演算子を学ぶ

pathGCN: Learning General Graph Spatial Operators from Paths ( http://arxiv.org/abs/2207.07408v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は、通常、空間的および点的畳み込みという2つの主要な操作に基づいている。 GCNの文脈では、CNNとは違い、グラフラプラシアンに基づく事前決定された空間演算子がしばしば選択され、点演算のみを学習できる。 しかし、より表現力のあるGCNを開発するためには、意味のある空間演算子を学ぶことが重要である。 本稿では,グラフ上のランダムパスから空間演算子を学習するための新しい手法であるpathGCNを提案する。 本手法の収束度と既存のGCNとの違いを解析する。 さらに,学習した空間演算子とポイントワイド畳み込みを併用するいくつかの選択肢についても論じる。 多数のデータセットに関する広範な実験から,空間的および点的畳み込みを適切に学習することで,スモーニング現象のような現象を本質的に避けることができ,新たな最先端のパフォーマンスが達成できることが示唆された。

Graph Convolutional Networks (GCNs), similarly to Convolutional Neural Networks (CNNs), are typically based on two main operations - spatial and point-wise convolutions. In the context of GCNs, differently from CNNs, a pre-determined spatial operator based on the graph Laplacian is often chosen, allowing only the point-wise operations to be learnt. However, learning a meaningful spatial operator is critical for developing more expressive GCNs for improved performance. In this paper we propose pathGCN, a novel approach to learn the spatial operator from random paths on the graph. We analyze the convergence of our method and its difference from existing GCNs. Furthermore, we discuss several options of combining our learnt spatial operator with point-wise convolutions. Our extensive experiments on numerous datasets suggest that by properly learning both the spatial and point-wise convolutions, phenomena like over-smoothing can be inherently avoided, and new state-of-the-art performance is achieved.
翻訳日:2022-07-18 14:10:19 公開日:2022-07-15
# クープマンスペクトルによる安定不変モデル

Stable Invariant Models via Koopman Spectra ( http://arxiv.org/abs/2207.07475v1 )

ライセンス: Link先を確認
Takuya Konishi, Yoshinobu Kawahara(参考訳) 重み付きモデルが現代のニューラルネットワークの発展に注目を集めている。 ディープ均衡モデル(DEQ)は、重み付けを伴う無限に深いニューラルネットワークを表現し、最近の研究ではこの種のアプローチの可能性を示している。 deqは、トレーニングにおけるルート探索の問題を反復的に解くために必要であり、モデルによって決定される基盤となるダイナミクスが不動点に収束するという仮定に基づいている。 本稿では,安定性の下でdeqsを近似し,不変集合(不動点に制限されない)に収束するより一般的なモデルにダイナミクスを拡張できる新しいディープモデルのクラスであるstable invariant model(sim)を提案する。 SIMを導出する鍵となる要素は、クープマンとペロン-フロベニウス作用素のスペクトルを持つ力学の表現である。 この視点はdeqsの安定なダイナミクスを概ね示し、simsの2つの変種を導出する。 また,フィードフォワードモデルと同じ方法で学習可能なSIMの実装を提案する。 実験によりSIMの実証的な性能を実証し,複数の学習課題において,SIMがDECに対して比較あるいは優れた性能を達成することを示す。

Weight-tied models have attracted attention in the modern development of neural networks. The deep equilibrium model (DEQ) represents infinitely deep neural networks with weight-tying, and recent studies have shown the potential of this type of approach. DEQs are needed to iteratively solve root-finding problems in training and are built on the assumption that the underlying dynamics determined by the models converge to a fixed point. In this paper, we present the stable invariant model (SIM), a new class of deep models that in principle approximates DEQs under stability and extends the dynamics to more general ones converging to an invariant set (not restricted in a fixed point). The key ingredient in deriving SIMs is a representation of the dynamics with the spectra of the Koopman and Perron--Frobenius operators. This perspective approximately reveals stable dynamics with DEQs and then derives two variants of SIMs. We also propose an implementation of SIMs that can be learned in the same way as feedforward models. We illustrate the empirical performance of SIMs with experiments and demonstrate that SIMs achieve comparative or superior performance against DEQs in several learning tasks.
翻訳日:2022-07-18 14:09:58 公開日:2022-07-15
# メカニカルニューラルネットワーク(MNN)-教育とハンズオン実験のための多層パーセプトロンの物理実装

The Mechanical Neural Network(MNN) -- A physical implementation of a multilayer perceptron for education and hands-on experimentation ( http://arxiv.org/abs/2207.07482v1 )

ライセンス: Link先を確認
Axel Schaffland(参考訳) 本稿では,relu活性化機能,2つの入力ニューロン,4つの隠れニューロン,2つの出力ニューロンを有する多層パーセプトロン(mlp)を物理的に実装したメカニカルニューラルネットワーク(mnn)を紹介する。 このmlpの物理モデルは、教育において経験に手を与え、生徒がネットワークのパラメータの変更が出力に与える影響を体験するために使用される。 ニューロンは、糸で繋がった小さな木製のレバーである。 学生は、ニューロンをスレッドでつなぐクランプを動かすことで、ニューロン間の重みを適応させることができる。 MNNは実値関数とXORを含む論理演算子をモデル化することができる。

In this paper the Mechanical Neural Network(MNN) is introduced, a physical implementation of a multilayer perceptron(MLP) with ReLU activation functions, two input neurons, four hidden neurons and two output neurons. This physical model of a MLP is used in education to give a hands on experience and allow students to experience the effect of changing the parameters of the network on the output. Neurons are small wooden levers which are connected by threads. Students can adapt the weights between the neurons by moving the clamps connecting a neuron via a thread to the next. The MNN can model real valued functions and logical operators including XOR.
翻訳日:2022-07-18 14:09:39 公開日:2022-07-15
# 多段階分布強化学習における時間差誤差の性質

The Nature of Temporal Difference Errors in Multi-step Distributional Reinforcement Learning ( http://arxiv.org/abs/2207.07570v1 )

ライセンス: Link先を確認
Yunhao Tang, Mark Rowland, R\'emi Munos, Bernardo \'Avila Pires, Will Dabney, Marc G. Bellemare(参考訳) 分散RLに対する多段階オフポリシー学習手法について検討する。 値ベースRLと分布RLとの明らかな類似性にもかかわらず,本研究は多段階設定における2症例間の興味深い相違と基本的相違を明らかにした。 経路依存分布型TD誤差という新しい概念は,多段階分布型RLでは不可欠である。 価値に基づくケースとの違いは、後方ビューアルゴリズムのような概念に重要な意味を持つ。 本研究は,複数段階の分散RLアルゴリズムに関する理論的保証を初めて提供し,その成果を多段階分布RLに対する少数の既存手法に適用した。 さらに,新しいアルゴリズムQuantile Regression-Retraceを導出し,深部RLエージェントQR-DQN-Retraceを誘導し,Atari-57ベンチマークでQR-DQNを実証的に改善した。 集合的に、多段階分布RLにおけるユニークな課題が、理論と実践の両方においてどのように対処できるかを明らかにした。

We study the multi-step off-policy learning approach to distributional RL. Despite the apparent similarity between value-based RL and distributional RL, our study reveals intriguing and fundamental differences between the two cases in the multi-step setting. We identify a novel notion of path-dependent distributional TD error, which is indispensable for principled multi-step distributional RL. The distinction from the value-based case bears important implications on concepts such as backward-view algorithms. Our work provides the first theoretical guarantees on multi-step off-policy distributional RL algorithms, including results that apply to the small number of existing approaches to multi-step distributional RL. In addition, we derive a novel algorithm, Quantile Regression-Retrace, which leads to a deep RL agent QR-DQN-Retrace that shows empirical improvements over QR-DQN on the Atari-57 benchmark. Collectively, we shed light on how unique challenges in multi-step distributional RL can be addressed both in theory and practice.
翻訳日:2022-07-18 14:09:26 公開日:2022-07-15
# ニュースレコメンデーションのための多目的ニュース系列のモデル化

Modeling Multi-interest News Sequence for News Recommendation ( http://arxiv.org/abs/2207.07331v1 )

ライセンス: Link先を確認
Rongyao Wang, Wenpeng Lu, Xueping Peng(参考訳) セッションベースのニュースレコメンダシステムは、セッション中の彼女/ヒムによってクリックされたニュースのシーケンスに埋め込まれた潜在的な興味をモデル化することにより、ユーザに次のニュースを推薦する。 一般に、ユーザの興味は多様であり、セッション内では、異なるトピックのニュースなど、さまざまなタイプのニュースに対応する複数の関心がある。 %のモデル化がニュースレコメンデーションに重要である。 しかし、既存の方法の多くはそのような重要な特徴を見落としており、それによってユーザーの潜在的な複数の関心を区別しモデル化できず、次のニュースの正確な推薦を妨げる。 そこで本稿では,ニュースレコメンデーションのための多目的ニュースシーケンス(MINS)モデルを提案する。 MINSでは、自己注意に基づくニュースエンコーダを、各ニュースに対する情報埋め込みを学習するために考案し、その後、次のニュースレコメンデーションに備えて、ニュースシーケンスに埋め込まれた潜在的な複数の興味を引き出すために、新しい並列関心ネットワークを考案する。 実世界のデータセットにおける実験結果は、我々のモデルが最先端比較モデルよりも優れた性能を達成できることを示しています。

A session-based news recommender system recommends the next news to a user by modeling the potential interests embedded in a sequence of news read/clicked by her/him in a session. Generally, a user's interests are diverse, namely there are multiple interests corresponding to different types of news, e.g., news of distinct topics, within a session. %Modeling such multiple interests is critical for precise news recommendation. However, most of existing methods typically overlook such important characteristic and thus fail to distinguish and model the potential multiple interests of a user, impeding accurate recommendation of the next piece of news. Therefore, this paper proposes multi-interest news sequence (MINS) model for news recommendation. In MINS, a news encoder based on self-attention is devised on learn an informative embedding for each piece of news, and then a novel parallel interest network is devised to extract the potential multiple interests embedded in the news sequence in preparation for the subsequent next-news recommendations. The experimental results on a real-world dataset demonstrate that our model can achieve better performance than the state-of-the-art compared models.
翻訳日:2022-07-18 14:09:08 公開日:2022-07-15
# (参考訳) スキルベースモデルに基づく強化学習

Skill-based Model-based Reinforcement Learning ( http://arxiv.org/abs/2207.07560v1 )

ライセンス: CC BY 4.0
Lucy Xiaoyang Shi and Joseph J. Lim and Youngwoon Lee(参考訳) モデルベース強化学習(RL)は、学習された単一ステップのダイナミックスモデルを利用して、想像力で行動計画を行うことにより、複雑な振る舞いを学習するサンプル効率のよい方法である。 しかし、長方形の作業に対するあらゆる行動の計画は実用的ではなく、全ての筋肉運動を計画する人間に似ている。 その代わり、人間は複雑なタスクを解決するための高度なスキルを効率的に計画する。 この直観から、スキルダイナミクスモデルを用いてスキル空間における計画を可能にするスキルベースモデルベースのrlフレームワーク(skimo)を提案し、中間状態におけるすべての小さな詳細をステップバイステップで予測するのではなく、スキル成果を直接予測する。 正確かつ効率的な長期計画のために,先行経験からスキルダイナミクスモデルとスキルレパートリーを共同学習する。 次に,学習スキルダイナミクスモデルを用いて,スキル空間における長大地平線を正確にシミュレートし,計画する。 ナビゲーションおよび操作領域の実験結果は、スキーモがモデルベースアプローチの時間軸を拡張し、モデルベースrlとスキルベースrlの両方のサンプル効率を向上させることを示している。 コードとビデオは \url{https://clvrai.com/skimo} で入手できる。

Model-based reinforcement learning (RL) is a sample-efficient way of learning complex behaviors by leveraging a learned single-step dynamics model to plan actions in imagination. However, planning every action for long-horizon tasks is not practical, akin to a human planning out every muscle movement. Instead, humans efficiently plan with high-level skills to solve complex tasks. From this intuition, we propose a Skill-based Model-based RL framework (SkiMo) that enables planning in the skill space using a skill dynamics model, which directly predicts the skill outcomes, rather than predicting all small details in the intermediate states, step by step. For accurate and efficient long-term planning, we jointly learn the skill dynamics model and a skill repertoire from prior experience. We then harness the learned skill dynamics model to accurately simulate and plan over long horizons in the skill space, which enables efficient downstream learning of long-horizon, sparse reward tasks. Experimental results in navigation and manipulation domains show that SkiMo extends the temporal horizon of model-based approaches and improves the sample efficiency for both model-based RL and skill-based RL. Code and videos are available at \url{https://clvrai.com/skimo}
翻訳日:2022-07-18 14:07:31 公開日:2022-07-15
# 3dverifier: 3dポイントクラウドモデルの効率的なロバスト性検証

3DVerifier: Efficient Robustness Verification for 3D Point Cloud Models ( http://arxiv.org/abs/2207.07539v1 )

ライセンス: Link先を確認
Ronghui Mu, Wenjie Ruan, Leandro S. Marcolino and Qiang Ni(参考訳) 3dポイントクラウドモデルは安全クリティカルな場面で広く適用されており、モデルの堅牢性を検証するためにより確固たる証明を得る必要がある。 既存のポイントクラウドモデルの検証手法は,大規模ネットワーク上で時間的・計算的に不可能である。 さらに、3Dモデルの性能を効果的に向上させるため、乗算層を含むジョイントアライメントネットワーク(JANet)で完全なPointNetモデルを扱うことはできない。 これは、ポイントクラウドモデルの様々なアーキテクチャを検証するために、より効率的で一般的なフレームワークを設計する動機となります。 大規模完全ポイントネットモデルの検証における重要な課題は、乗算層における非線型操作と高次元ポイントクラウド入力と付加層との計算複雑性を扱うことである。 そこで本研究では, 線形緩和関数を乗算層境界に適用し, 前方および後方の伝搬を組み合わせ, ポイントクラウドモデルの出力の認定境界を計算することにより, 両課題に対処する効率的な検証フレームワークである3DVerifierを提案する。 包括的実験により, 3DVerifierは, 効率と精度の両面で既存の3Dモデルの検証アルゴリズムより優れていることが示された。 特に,本手法は,大規模ネットワークの検証効率の桁違いな改善を実現し,取得した認定限界は最先端検証器よりもかなり密接である。 私たちは、コミュニティが使用する3DVerifierツールをhttps://github.com/TrustAI/3DVerifierでリリースしています。

3D point cloud models are widely applied in safety-critical scenes, which delivers an urgent need to obtain more solid proofs to verify the robustness of models. Existing verification method for point cloud model is time-expensive and computationally unattainable on large networks. Additionally, they cannot handle the complete PointNet model with joint alignment network (JANet) that contains multiplication layers, which effectively boosts the performance of 3D models. This motivates us to design a more efficient and general framework to verify various architectures of point cloud models. The key challenges in verifying the large-scale complete PointNet models are addressed as dealing with the cross-non-linearity operations in the multiplication layers and the high computational complexity of high-dimensional point cloud inputs and added layers. Thus, we propose an efficient verification framework, 3DVerifier, to tackle both challenges by adopting a linear relaxation function to bound the multiplication layer and combining forward and backward propagation to compute the certified bounds of the outputs of the point cloud models. Our comprehensive experiments demonstrate that 3DVerifier outperforms existing verification algorithms for 3D models in terms of both efficiency and accuracy. Notably, our approach achieves an orders-of-magnitude improvement in verification efficiency for the large network, and the obtained certified bounds are also significantly tighter than the state-of-the-art verifiers. We release our tool 3DVerifier via https://github.com/TrustAI/3DVerifier for use by the community.
翻訳日:2022-07-18 13:44:23 公開日:2022-07-15
# 事前学習型視覚と言語モデルによるマルチモーダルオープン語彙ビデオ分類

Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision and Language Models ( http://arxiv.org/abs/2207.07646v1 )

ライセンス: Link先を確認
Rui Qian, Yeqing Li, Zheng Xu, Ming-Hsuan Yang, Serge Belongie, Yin Cui(参考訳) 視覚と言語モデル(VLM)を大規模画像とテキストのペアで事前訓練することで、オープン語彙の視覚認識において有望なパラダイムとなっている。 本研究では,映像に自然に存在する動きと音声を活用することで,このパラダイムを拡張する。 我々は, \textbf{m}ultimodal \textbf{o}pen-\textbf{v}ocabulary videoの分類法である \textbf{mov} を提案する。 movでは、事前訓練されたvlmからの視覚エンコーダを直接使用し、ビデオ、光フロー、オーディオスペクトログラムのエンコードを行う。 補完的マルチモーダル情報を集約するクロスモーダル融合機構を設計する。 Kinetics-700とVGGSoundの実験によると、フローやオーディオのモダリティの導入は、事前訓練されたVLMや既存の手法よりも大きなパフォーマンス向上をもたらす。 特に、MOVはベースクラスの精度を大幅に改善し、新しいクラスではより良く一般化する。 MOV は UCF と HMDB のゼロショットビデオ分類ベンチマークにおいて最先端の結果を達成し,従来のゼロショット手法と VLM に基づく最近の手法の両方を著しく上回っている。 コードとモデルはリリースされる。

Utilizing vision and language models (VLMs) pre-trained on large-scale image-text pairs is becoming a promising paradigm for open-vocabulary visual recognition. In this work, we extend this paradigm by leveraging motion and audio that naturally exist in video. We present \textbf{MOV}, a simple yet effective method for \textbf{M}ultimodal \textbf{O}pen-\textbf{V}ocabulary video classification. In MOV, we directly use the vision encoder from pre-trained VLMs with minimal modifications to encode video, optical flow and audio spectrogram. We design a cross-modal fusion mechanism to aggregate complimentary multimodal information. Experiments on Kinetics-700 and VGGSound show that introducing flow or audio modality brings large performance gains over the pre-trained VLM and existing methods. Specifically, MOV greatly improves the accuracy on base classes, while generalizes better on novel classes. MOV achieves state-of-the-art results on UCF and HMDB zero-shot video classification benchmarks, significantly outperforming both traditional zero-shot methods and recent methods based on VLMs. Code and models will be released.
翻訳日:2022-07-18 13:43:56 公開日:2022-07-15
# 再帰的構造制約を伴うロバスト深部圧縮センシング

Robust Deep Compressive Sensing with Recurrent-Residual Structural Constraints ( http://arxiv.org/abs/2207.07301v1 )

ライセンス: Link先を確認
Jun Niu(参考訳) 既存の深部圧縮センシング(CS)手法は、適応的なオンライン最適化を無視するか、あるいは再構築時にコストのかかる反復最適化に依存する。 この研究は、R$^2$CS-NETと呼ばれる再帰的構造制約を持つ新しいイメージCSフレームワークを探索する。 R$^2$CS-NETは、新しいリカレントニューラルネットワークを通じて取得したサンプリングを段階的に最適化する。 カスケードされた残差畳み込みネットワークは、最適化された潜在表現から画像を完全に再構築する。 適応型オンライン最適化を効率的にブリッジする最初のディープCSフレームワークとして、R$^2$CS-NETは、オンライン最適化の堅牢性とディープラーニング手法の効率性と非線形能力を統合する。 信号相関はネットワークアーキテクチャを通して解決されている。 アダプティブセンシングの性質により、チャネル相関を利用してカラー画像csの理想的な候補となる。 数値実験により,提案手法は適応モチベーションを満足するだけでなく,従来の長寿命メモリ(LSTM)アーキテクチャよりも優れた性能を示す。 全体的なフレームワークは、ハードウェア実装の実現可能性を示し、既存のディープCSベンチマークにおいて、堅牢性と一般化性をリードする。

Existing deep compressive sensing (CS) methods either ignore adaptive online optimization or depend on costly iterative optimizer during reconstruction. This work explores a novel image CS framework with recurrent-residual structural constraint, termed as R$^2$CS-NET. The R$^2$CS-NET first progressively optimizes the acquired samplings through a novel recurrent neural network. The cascaded residual convolutional network then fully reconstructs the image from optimized latent representation. As the first deep CS framework efficiently bridging adaptive online optimization, the R$^2$CS-NET integrates the robustness of online optimization with the efficiency and nonlinear capacity of deep learning methods. Signal correlation has been addressed through the network architecture. The adaptive sensing nature further makes it an ideal candidate for color image CS via leveraging channel correlation. Numerical experiments verify the proposed recurrent latent optimization design not only fulfills the adaptation motivation, but also outperforms classic long short-term memory (LSTM) architecture in the same scenario. The overall framework demonstrates hardware implementation feasibility, with leading robustness and generalization capability among existing deep CS benchmarks.
翻訳日:2022-07-18 13:43:36 公開日:2022-07-15
# 発電用気象予報の統計的後処理に対する2段階機械学習手法

A two-step machine learning approach to statistical post-processing of weather forecasts for power generation ( http://arxiv.org/abs/2207.07589v1 )

ライセンス: Link先を確認
\'Agnes Baran and S\'andor Baran(参考訳) 2021年末までに、世界の電力容量の再生可能エネルギーのシェアは38.3%に達し、新しい設備は風力と太陽エネルギーで占められ、それぞれ12.7%と18.5%増加した。 しかし、風力と太陽光発電の両方のエネルギー源は揮発性が高く、グリッドオペレーターにとって計画が難しいため、信頼性の高い電気予測には対応する気象変数の正確な予測が不可欠である。 天気予報における最も先進的なアプローチは、確率的予測の扉を開くアンサンブル法である。 したがって、パラメトリックモデルが手前の気象変数の完全な予測分布を提供するような、何らかの統計後処理を必要とする。 予測分布のパラメータを推定するニューラルネットワークの入力特徴として,様々なアンサンブル統計と合わせて,第1段階で改良されたポイント予測を生成する,アンサンブル気象予測のキャリブレーションのための,一般的な2段階機械学習に基づくアプローチを提案する。 ハンガリー気象庁のオペレーショナルアンサンブル予辞書システムの100m風速と大域的水平照度予測に基づく2つのケーススタディにおいて,本手法の予測性能を生アンサンブルの予測技術と最先端のパラメトリックアプローチと比較した。 どちらのケーススタディも、観測後48時間以内の統計処理は、すべての予測地平線に対する生のアンサンブルの予測性能を大幅に改善することを確認した。 提案手法の2段階の変種は, 競争相手のスキルに優れており, 提案手法は, 気象量や予測分布に適している。

By the end of 2021, the renewable energy share of the global electricity capacity reached 38.3% and the new installations are dominated by wind and solar energy, showing global increases of 12.7% and 18.5%, respectively. However, both wind and photovoltaic energy sources are highly volatile making planning difficult for grid operators, so accurate forecasts of the corresponding weather variables are essential for reliable electricity predictions. The most advanced approach in weather prediction is the ensemble method, which opens the door for probabilistic forecasting; though ensemble forecast are often underdispersive and subject to systematic bias. Hence, they require some form of statistical post-processing, where parametric models provide full predictive distributions of the weather variables at hand. We propose a general two-step machine learning-based approach to calibrating ensemble weather forecasts, where in the first step improved point forecasts are generated, which are then together with various ensemble statistics serve as input features of the neural network estimating the parameters of the predictive distribution. In two case studies based of 100m wind speed and global horizontal irradiance forecasts of the operational ensemble pre diction system of the Hungarian Meteorological Service, the predictive performance of this novel method is compared with the forecast skill of the raw ensemble and the state-of-the-art parametric approaches. Both case studies confirm that at least up to 48h statistical post-processing substantially improves the predictive performance of the raw ensemble for all considered forecast horizons. The investigated variants of the proposed two-step method outperform in skill their competitors and the suggested new approach is well applicable for different weather quantities and for a fair range of predictive distributions.
翻訳日:2022-07-18 13:40:07 公開日:2022-07-15
# メラノーマ分類における画像特徴表現学習の改善に向けて

Towards Better Dermoscopic Image Feature Representation Learning for Melanoma Classification ( http://arxiv.org/abs/2207.07303v1 )

ライセンス: Link先を確認
ChengHui Yu, MingKang Tang, ShengGe Yang, MingQing Wang, Zhe Xu, JiangPeng Yan, HanMo Chen, Yu Yang, Xiao-Jun Zeng, Xiu Li(参考訳) 深層学習に基づく皮膚鏡画像によるメラノーマ分類は,近年,早期黒色腫の自動診断に大きな可能性を示している。 しかし、重要なデータの不均衡と明らかな外的アーティファクト、すなわち毛髪と定規のマーキングによって制限されるため、皮膚鏡像からの識別的特徴抽出は非常に困難である。 本研究では,病変の特徴の表現学習を改善するために,これらの課題をそれぞれ解決する。 具体的には、GANベースのデータ拡張(GDA)戦略を用いて、提案した暗黙のヘアデノイング(IHD)戦略とともに、合成メラノーマ陽性画像を生成する。 一方、毛髪関連表現は補助分類器ネットワークを介して暗黙的に切り離され、メラノーマ特異的表現学習を改善するためにメラノーマ機能抽出バックボーンに逆向きに送られる。 さらに、IHDモジュールをトレーニングするために、毛髪ノイズはISIC2020データセットにラベル付けされ、毛髪のようなアーティファクトのアノテーションを付加した最初の大規模皮膚内視鏡データセットとなった。 広範な実験により、提案フレームワークの優位性と各コンポーネントの有効性が実証された。 改善されたデータセットはhttps://github.com/kirtsy/DermoscopicDatasetで公開公開されている。

Deep learning-based melanoma classification with dermoscopic images has recently shown great potential in automatic early-stage melanoma diagnosis. However, limited by the significant data imbalance and obvious extraneous artifacts, i.e., the hair and ruler markings, discriminative feature extraction from dermoscopic images is very challenging. In this study, we seek to resolve these problems respectively towards better representation learning for lesion features. Specifically, a GAN-based data augmentation (GDA) strategy is adapted to generate synthetic melanoma-positive images, in conjunction with the proposed implicit hair denoising (IHD) strategy. Wherein the hair-related representations are implicitly disentangled via an auxiliary classifier network and reversely sent to the melanoma-feature extraction backbone for better melanoma-specific representation learning. Furthermore, to train the IHD module, the hair noises are additionally labeled on the ISIC2020 dataset, making it the first large-scale dermoscopic dataset with annotation of hair-like artifacts. Extensive experiments demonstrate the superiority of the proposed framework as well as the effectiveness of each component. The improved dataset publicly avaliable at https://github.com/kirtsy/DermoscopicDataset.
翻訳日:2022-07-18 13:39:37 公開日:2022-07-15
# 効果的な事前訓練戦略としての位置予測

Position Prediction as an Effective Pretraining Strategy ( http://arxiv.org/abs/2207.07611v1 )

ライセンス: Link先を確認
Shuangfei Zhai, Navdeep Jaitly, Jason Ramapuram, Dan Busbridge, Tatiana Likhomanenko, Joseph Yitan Cheng, Walter Talbott, Chen Huang, Hanlin Goh, Joshua Susskind(参考訳) トランスフォーマーは、自然言語処理(NLP)、コンピュータビジョン(英語版)、音声認識など、その強力な表現能力のために、幅広いアプリケーションで人気が高まっている。 しかし、この表現能力を効果的に活用するには、過剰適合を軽減するために大量のデータ、強力な正規化、あるいは両方が必要である。 近年、トランスフォーマーのパワーは、マスクされた入力を直接、あるいは対照的に非マスクされたコンテンツから再構成するマスク付きオートエンコーダに基づく自己教師型事前学習戦略によって解放されている。 NLPのBERTモデル、音声のWav2Vecモデル、そして最近ではビジョンのMAEモデルで使われているこの事前学習戦略は、自動エンコード関連目的を用いて入力の異なる部分のコンテンツ間の関係について学習するようモデルを強制する。 本稿では,コンテンツからの位置を推定する手法として,位置情報の提供を伴わずに,新しい,しかし驚くほどシンプルなコンテント再構成代替案を提案する。 そのためには、トランスフォーマは、入力の異なる部分間の位置関係を、コンテンツのみから理解する必要がある。 これは、pretextタスクが各入力トークンの可能なすべての位置の分類問題である効率的な実装に相当します。 我々は、ビジョンとスピーチのベンチマークの両方で実験を行い、我々のアプローチは、強い教師付きトレーニングベースラインよりも改善をもたらし、現代の教師なし/自己教師付き事前学習手法に匹敵する。 また, 位置埋め込みを使わずにトレーニングしたトランスフォーマーを, 全位置情報でトレーニングしたトランスフォーマーよりも優れる。

Transformers have gained increasing popularity in a wide range of applications, including Natural Language Processing (NLP), Computer Vision and Speech Recognition, because of their powerful representational capacity. However, harnessing this representational capacity effectively requires a large amount of data, strong regularization, or both, to mitigate overfitting. Recently, the power of the Transformer has been unlocked by self-supervised pretraining strategies based on masked autoencoders which rely on reconstructing masked inputs, directly, or contrastively from unmasked content. This pretraining strategy which has been used in BERT models in NLP, Wav2Vec models in Speech and, recently, in MAE models in Vision, forces the model to learn about relationships between the content in different parts of the input using autoencoding related objectives. In this paper, we propose a novel, but surprisingly simple alternative to content reconstruction~-- that of predicting locations from content, without providing positional information for it. Doing so requires the Transformer to understand the positional relationships between different parts of the input, from their content alone. This amounts to an efficient implementation where the pretext task is a classification problem among all possible positions for each input token. We experiment on both Vision and Speech benchmarks, where our approach brings improvements over strong supervised training baselines and is comparable to modern unsupervised/self-supervised pretraining methods. Our method also enables Transformers trained without position embeddings to outperform ones trained with full position information.
翻訳日:2022-07-18 13:39:15 公開日:2022-07-15
# 定量的議論のためのファジィラベリング意味論

Fuzzy Labeling Semantics for Quantitative Argumentation ( http://arxiv.org/abs/2207.07339v1 )

ライセンス: Link先を確認
Zongshun Wang, Yuping Shen(参考訳) 様々な量的議論システムにおける議論強度評価の話題は、抽象的議論の分野において注目を集めている。 しかし、議論力に関する既存の漸進的意味論は、現実的なシナリオで議論を評価するには不十分な受け入れ可能性度のみを考慮する。 実世界における議論力に対するよりリッチなキャラクタリゼーションを導入するために,ファジィ議論システムのためのファジィラベリングと呼ばれる新しい定量的手法を提案する。 ファジィラベリングでは、引数強度は、受け入れ可能性、拒絶可能性、決定不能度からなる三重項として表現される。 よりリッチなスケールで、議論の強さに新たな光を当て、議論の状況についてより深く理解する。 議論を評価するために,ファジィラベリングによる段階的意味論を確立する新しい方法を提案する。 まずファジィラベリングの合理性について検討し、これは新しい意味論の合理性を説明する上で重要である。 次にファジィラベリングセマンティクスのセットを提案し,セマンティクスの比較,理解,適用に不可欠な重要な特性を証明する。

The topic of evaluating argument strength in various quantitative argumentation systems has received increasing attention in the field of abstract argumentation. However, the existing gradual semantics on argument strength considers acceptability degree alone, which may be not sufficient to evaluate arguments in practical scenarios. To adopt a richer characterization for argument strength in real-world applications, we provide a novel quantitative method called fuzzy labeling for fuzzy argumentation systems. For fuzzy labeling, the argument strength is represented as a triple consisting of acceptability, rejectability, and undecidability degree. With a richer scale, it sheds new light on argument strength and gives us a deeper understanding into status of arguments. For the purpose of evaluating arguments, we provide a new way to establish gradual semantics by fuzzy labeling, which is crucial in the evaluation process. We first investigate the rationality postulates of fuzzy labeling, which are important for explaining the rationality of new semantics taking into account the acceptability, rejectability and undecidability degree together. We then propose a set of fuzzy labeling semantics and prove some important properties which are crucial for comparing, understanding and applying semantics.
翻訳日:2022-07-18 13:38:46 公開日:2022-07-15
# (参考訳) ロボット行動と言語記述の柔軟な翻訳の学習

Learning Flexible Translation between Robot Actions and Language Descriptions ( http://arxiv.org/abs/2207.07437v1 )

ライセンス: CC BY 4.0
Ozan \"Ozdemir, Matthias Kerzel, Cornelius Weber, Jae Hee Lee, Stefan Wermter(参考訳) 様々なロボット行動言語翻訳タスクを柔軟に処理することは、ロボットと人間の自然な相互作用にとって必須の要件である。 従来のアプローチでは、推論中のタスク毎のモデルアーキテクチャの構成を変更する必要があり、マルチタスク学習の前提を損なう。 本研究では,テーブル上オブジェクト操作シナリオにおいて,ロボット動作と言語記述を柔軟に翻訳するためのペアゲートオートエンコーダ(pgae)を提案する。 各アクションに翻訳方向を知らせる信号を含む適切な記述を組み合わせることで、エンドツーエンドでモデルをトレーニングします。 推論中、我々のモデルは、与えられた言語信号に従って、アクションから言語へ柔軟に変換できる。 さらに,事前学習した言語モデルを言語エンコーダとして使用するオプションにより,自然言語入力を認識できる可能性がある。 本モデルでは,ロボットのデモンストレーションを利用して,他のエージェントの動作を認識し模倣することができる。 実験の結果,提案手法の柔軟な双方向翻訳能力と,逆シッティングエージェントの動作を一般化する能力が強調された。

Handling various robot action-language translation tasks flexibly is an essential requirement for natural interaction between a robot and a human. Previous approaches require change in the configuration of the model architecture per task during inference, which undermines the premise of multi-task learning. In this work, we propose the paired gated autoencoders (PGAE) for flexible translation between robot actions and language descriptions in a tabletop object manipulation scenario. We train our model in an end-to-end fashion by pairing each action with appropriate descriptions that contain a signal informing about the translation direction. During inference, our model can flexibly translate from action to language and vice versa according to the given language signal. Moreover, with the option to use a pretrained language model as the language encoder, our model has the potential to recognise unseen natural language input. Another capability of our model is that it can recognise and imitate actions of another agent by utilising robot demonstrations. The experiment results highlight the flexible bidirectional translation capabilities of our approach alongside with the ability to generalise to the actions of the opposite-sitting agent.
翻訳日:2022-07-18 13:37:21 公開日:2022-07-15
# 薬物療法の最適化のためのターゲット試験因果フレームワークと機械学習モデリングの併用 : メチシリン耐性黄色ブドウ球菌による急性細菌性皮膚炎と皮膚構造感染症を例として

Joint Application of the Target Trial Causal Framework and Machine Learning Modeling to Optimize Antibiotic Therapy: Use Case on Acute Bacterial Skin and Skin Structure Infections due to Methicillin-resistant Staphylococcus aureus ( http://arxiv.org/abs/2207.07458v1 )

ライセンス: Link先を確認
Inyoung Jun, Simone Marini, Christina A. Boucher, J. Glenn Morris, Jiang Bian and Mattia Prosperi(参考訳) 細菌感染は世界中で高い死亡率の原因となっている。 感染症の基礎となる抗菌性および多面性患者の臨床状況は、抗生物質治療の正しい選択を妨げる可能性がある。 ランダム化臨床試験は平均的な治療効果の推定を提供するが、リスク階層化や治療選択の最適化、すなわち個別化治療効果(ite)には適していない。 そこで我々は,米国南部大学クリニックから収集した大規模電子カルテデータを用いて,臨床実験,すなわち「ターゲットトライアル」をエミュレートし,メチシリン耐性黄色ブドウ球菌(MRSA)による急性細菌性皮膚・皮膚構造感染症(ABSSSI)と診断された患者の死亡予測とITE推定の機械学習モデルを開発した。 ABSSSI-MRSAは治療の選択肢を減らした難しい状態であり、バンコマイシンが好ましいが、無視できない副作用がある。 まず,propensity score matchingを用いて試験をエミュレートし,治療ランダム化(vancomycin vs. other antibiotics)データセットを作成する。 次に、このデータを用いて様々な機械学習手法(強化/LASSOロジスティック回帰、サポートベクターマシン、ランダムフォレストなど)を訓練し、ブートストラップ検証により受信特性(AUC)の下の領域で最適なモデルを選択する。 最後に, このモデルを用いてITEを計算し, 治療変化による死亡の可能性を同定する。 svm と rf はそれぞれ 81% と 78% であり、svm と rf が最も正確であることを示しているが、blr/lasso は (76%) ほど遅れていない。 バンコマイシンはBLR/LASSOを用いてカウンターファクトアルを計算することで死亡リスクを増大させるが、大きな変動(オードス比1.2、95%範囲0.4-3.8)を示し、結果の確率への寄与は緩やかである。 その代わり、RFはITEの強い変化を示し、より複雑な治療の不均一性を示す。

Bacterial infections are responsible for high mortality worldwide. Antimicrobial resistance underlying the infection, and multifaceted patient's clinical status can hamper the correct choice of antibiotic treatment. Randomized clinical trials provide average treatment effect estimates but are not ideal for risk stratification and optimization of therapeutic choice, i.e., individualized treatment effects (ITE). Here, we leverage large-scale electronic health record data, collected from Southern US academic clinics, to emulate a clinical trial, i.e., 'target trial', and develop a machine learning model of mortality prediction and ITE estimation for patients diagnosed with acute bacterial skin and skin structure infection (ABSSSI) due to methicillin-resistant Staphylococcus aureus (MRSA). ABSSSI-MRSA is a challenging condition with reduced treatment options - vancomycin is the preferred choice, but it has non-negligible side effects. First, we use propensity score matching to emulate the trial and create a treatment randomized (vancomycin vs. other antibiotics) dataset. Next, we use this data to train various machine learning methods (including boosted/LASSO logistic regression, support vector machines, and random forest) and choose the best model in terms of area under the receiver characteristic (AUC) through bootstrap validation. Lastly, we use the models to calculate ITE and identify possible averted deaths by therapy change. The out-of-bag tests indicate that SVM and RF are the most accurate, with AUC of 81% and 78%, respectively, but BLR/LASSO is not far behind (76%). By calculating the counterfactuals using the BLR/LASSO, vancomycin increases the risk of death, but it shows a large variation (odds ratio 1.2, 95% range 0.4-3.8) and the contribution to outcome probability is modest. Instead, the RF exhibits stronger changes in ITE, suggesting more complex treatment heterogeneity.
翻訳日:2022-07-18 13:24:17 公開日:2022-07-15
# 深部線形モデルにおける非凸性の祝福:真解周辺の最適化景観の深さ平坦化

Blessing of Nonconvexity in Deep Linear Models: Depth Flattens the Optimization Landscape Around the True Solution ( http://arxiv.org/abs/2207.07612v1 )

ライセンス: Link先を確認
Jianhao Ma, Salar Fattahi(参考訳) この研究は、線形回帰の最適化ランドスケープに対する深さの影響を特徴づけ、その非凸性にもかかわらず、より深いモデルはより望ましい最適化ランドスケープを持つことを示した。 実測値のサブセットがノイズでひどく破損し、真の線形モデルは$N$層線形ニューラルネットワークによって取得される、ロバストで過度にパラメータ化された設定を考える。 負の面から、この問題 \textit{does not} が良心的な風景を持つことが示される: どんな$N\geq 1$でも一定の確率で、局所的でも大域的最小値でもない基底真理に対応する解が存在する。 しかし、正の面では、n\geq 2$ の任意の$n$-layerモデルに対して、このような ``problematic''' 解には単純なサブグレードのメソッドが従わなくなることを証明します。 最後に、より深いモデルの望ましい最適化環境が、深い行列回復や$\ell_1$-lossの深いReLUネットワークを含む、他の堅牢な学習タスクに拡張されることを実証的に検証する。

This work characterizes the effect of depth on the optimization landscape of linear regression, showing that, despite their nonconvexity, deeper models have more desirable optimization landscape. We consider a robust and over-parameterized setting, where a subset of measurements are grossly corrupted with noise and the true linear model is captured via an $N$-layer linear neural network. On the negative side, we show that this problem \textit{does not} have a benign landscape: given any $N\geq 1$, with constant probability, there exists a solution corresponding to the ground truth that is neither local nor global minimum. However, on the positive side, we prove that, for any $N$-layer model with $N\geq 2$, a simple sub-gradient method becomes oblivious to such ``problematic'' solutions; instead, it converges to a balanced solution that is not only close to the ground truth but also enjoys a flat local landscape, thereby eschewing the need for "early stopping". Lastly, we empirically verify that the desirable optimization landscape of deeper models extends to other robust learning tasks, including deep matrix recovery and deep ReLU networks with $\ell_1$-loss.
翻訳日:2022-07-18 13:23:34 公開日:2022-07-15
# クロスアテンションによるフィードフォワードソースフリー潜在ドメイン適応

Feed-Forward Source-Free Latent Domain Adaptation via Cross-Attention ( http://arxiv.org/abs/2207.07624v1 )

ライセンス: Link先を確認
Ondrej Bohdal, Da Li, Shell Xu Hu, Timothy Hospedales(参考訳) 本研究では,非ラベルなドメイン関連例とドメイン非関連例の混合を含む対象データセットにソースモデルを適用する場合の,潜在ドメイン適応の極めて実用的かつ比較的未熟な問題について検討する。 さらに、データプライバシ要件と、あらゆる種類の組み込みおよびリソース制約されたデバイスが、ローカルなデータ分散に適応する必要性に動機づけられ、フィードフォワードのソースフリーなドメイン適応の設定に重点を置いている。 我々のソリューションは、混合関係目標データセットを埋め込み、クロスアテンションを用いてターゲット例の推論を動的に適応できるネットワークをメタ学習することである。 その結果、フレームワークは強力なEMMベースラインを一貫して改善する。 また、我々のフレームワークは、適応のためにドメイン関連インスタンスのみを提供するドメイン教師付き適応の上限を上回ることさえあることも示しています。 これは、人間のアノテーション付きドメインラベルが常に最適であるとは限らないことを示唆し、自動インスタンス選択によってより良い処理を行う可能性を高める。

We study the highly practical but comparatively under-studied problem of latent-domain adaptation, where a source model should be adapted to a target dataset that contains a mixture of unlabelled domain-relevant and domain-irrelevant examples. Furthermore, motivated by the requirements for data privacy and the need for embedded and resource-constrained devices of all kinds to adapt to local data distributions, we focus on the setting of feed-forward source-free domain adaptation, where adaptation should not require access to the source dataset, and also be back propagation-free. Our solution is to meta-learn a network capable of embedding the mixed-relevance target dataset and dynamically adapting inference for target examples using cross-attention. The resulting framework leads to consistent improvement on strong ERM baselines. We also show that our framework sometimes even improves on the upper bound of domain-supervised adaptation, where only domain-relevant instances are provided for adaptation. This suggests that human annotated domain labels may not always be optimal, and raises the possibility of doing better through automated instance selection.
翻訳日:2022-07-18 13:23:06 公開日:2022-07-15
# 統一学習方式とダイナミックレンジ最小化によるマルチモーダルEコマース属性値抽出の促進

Boosting Multi-Modal E-commerce Attribute Value Extraction via Unified Learning Scheme and Dynamic Range Minimization ( http://arxiv.org/abs/2207.07278v1 )

ライセンス: Link先を確認
Mengyin Liu, Chao Zhu, Hongyu Gao, Weibo Gu, Hongfa Wang, Wei Liu, Xu-cheng Yin(参考訳) eコマース産業の繁栄に伴い、ビジョンや言語といった様々なモダリティが製品項目の記述に利用される。 このような多様化したデータを理解することは、特に有用な画像領域の助けを借りて、テキストシーケンス中の属性値対を抽出することで大きな課題である。 この作業に先立つ一連の研究が注がれているが、さらなる改善を妨げる障害についてほとんど調査されていない。 1) 上流シングルモーダルプレトレーニングのパラメータは, 下流マルチモーダルタスクにおいて, 適切な微調整を行うことなく, 不適切に適用される。 2) 画像の記述的部分を選択するには,言語関連情報をより強力なエンコーダによって共通言語埋め込み空間にエンコードすべきという事前知識にかかわらず,単純なレイトフュージョンが広く適用される。 3) 製品間での多様性のため, 属性セットは大きく異なる傾向にあるが, 現在のアプローチでは, 不要な最大範囲で予測し, より潜在的な偽陽性をもたらす。 これらの問題に対処するため,本稿では,統一学習スキームとダイナミックレンジ最小化によるマルチモーダル電子商取引属性値の抽出を促進する新しい手法を提案する。 1) まず,事前訓練された単一モーダルパラメータを用いたマルチモーダルタスクを協調的に訓練する統合的スキームを設計する。 2) テキスト誘導型情報範囲最小化法を提案し, 事前学習された言語モデルを用いて各モダリティの記述部を同一空間に適応的に符号化する。 3) プロトタイプ誘導型属性範囲最小化手法を提案し, 提案手法はまず現行製品の適切な属性セットを判定し, 選択した属性の予測を導出するプロトタイプを選択する。 一般的なマルチモーダル電子商取引ベンチマークの実験は、我々の手法が他の最先端技術よりも優れた性能を発揮することを示している。

With the prosperity of e-commerce industry, various modalities, e.g., vision and language, are utilized to describe product items. It is an enormous challenge to understand such diversified data, especially via extracting the attribute-value pairs in text sequences with the aid of helpful image regions. Although a series of previous works have been dedicated to this task, there remain seldomly investigated obstacles that hinder further improvements: 1) Parameters from up-stream single-modal pretraining are inadequately applied, without proper jointly fine-tuning in a down-stream multi-modal task. 2) To select descriptive parts of images, a simple late fusion is widely applied, regardless of priori knowledge that language-related information should be encoded into a common linguistic embedding space by stronger encoders. 3) Due to diversity across products, their attribute sets tend to vary greatly, but current approaches predict with an unnecessary maximal range and lead to more potential false positives. To address these issues, we propose in this paper a novel approach to boost multi-modal e-commerce attribute value extraction via unified learning scheme and dynamic range minimization: 1) Firstly, a unified scheme is designed to jointly train a multi-modal task with pretrained single-modal parameters. 2) Secondly, a text-guided information range minimization method is proposed to adaptively encode descriptive parts of each modality into an identical space with a powerful pretrained linguistic model. 3) Moreover, a prototype-guided attribute range minimization method is proposed to first determine the proper attribute set of the current product, and then select prototypes to guide the prediction of the chosen attributes. Experiments on the popular multi-modal e-commerce benchmarks show that our approach achieves superior performance over the other state-of-the-art techniques.
翻訳日:2022-07-18 13:22:46 公開日:2022-07-15
# 物体検出に対するGAN生成逆行性パッチの有用性

Feasibility of Inconspicuous GAN-generated Adversarial Patches against Object Detection ( http://arxiv.org/abs/2207.07347v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, Bianca-Marina Cod\u{a}u and J. Marius Z\"ollner(参考訳) 敵のパッチ生成に対する標準的なアプローチは、人間が容易に認識できるノイズの多いパターンに繋がる。 近年,generative adversarial network (gans) を用いた自然主義的パッチ生成手法が提案されているが,オブジェクト検出のユースケースで評価された例はごくわずかである。 さらに、アートの状況は、パッチを直接重ねることで、入力中に単一の大きなバウンディングボックスを抑制することに集中している。 パッチの近くのオブジェクトの抑制は、別の、より複雑なタスクです。 本研究では,既存のパッチ生成手法について評価を行った。 我々は、もともと異なるコンピュータビジョンタスクのために開発されたメソッドを、YOLOv3とCOCOデータセットを用いたオブジェクト検出ユースケースに適用した。 我々は、GANトレーニングプロセスにパッチ生成を組み込むことと、事前訓練したGANを使用することで、自然主義パッチを生成する2つのアプローチを評価した。 どちらのケースでも、パフォーマンスと自然主義パッチの外観のトレードオフを評価しました。 実験の結果,事前学習したGANは,従来の対向パッチと同様の性能を維持しつつ,現実的なパッチの獲得に役立つことがわかった。

Standard approaches for adversarial patch generation lead to noisy conspicuous patterns, which are easily recognizable by humans. Recent research has proposed several approaches to generate naturalistic patches using generative adversarial networks (GANs), yet only a few of them were evaluated on the object detection use case. Moreover, the state of the art mostly focuses on suppressing a single large bounding box in input by overlapping it with the patch directly. Suppressing objects near the patch is a different, more complex task. In this work, we have evaluated the existing approaches to generate inconspicuous patches. We have adapted methods, originally developed for different computer vision tasks, to the object detection use case with YOLOv3 and the COCO dataset. We have evaluated two approaches to generate naturalistic patches: by incorporating patch generation into the GAN training process and by using the pretrained GAN. For both cases, we have assessed a trade-off between performance and naturalistic patch appearance. Our experiments have shown, that using a pre-trained GAN helps to gain realistic-looking patches while preserving the performance similar to conventional adversarial patches.
翻訳日:2022-07-18 13:22:13 公開日:2022-07-15
# (参考訳) キャプションは数千枚分の価値があるか? 表現学習のための制御学習

Is a Caption Worth a Thousand Images? A Controlled Study for Representation Learning ( http://arxiv.org/abs/2207.07635v1 )

ライセンス: CC BY 4.0
Shibani Santurkar, Yann Dubois, Rohan Taori, Percy Liang and Tatsunori Hashimoto(参考訳) CLIP (Radford et al., 2021) の開発は、従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルに言語を監督できるかどうかという議論を引き起こしている。 本研究は,ダウンストリーム分類タスクに一般化した表現を学習する能力という観点から,2つのアプローチを慎重に比較することで,この問題を研究する。 事前トレーニングデータセットが一定の基準を満たしている場合 -- 十分に大きく、変数の少ない記述的なキャプションを含む場合 -- イメージのみのメソッドは、より多くのイメージデータでトレーニングされた場合でも、CLIPの転送パフォーマンスにマッチしない。 しかし、予想に反して、これらの基準を満たさない実践的な設定があり、字幕による監督の追加は実際には有害である。 この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。

The development of CLIP [Radford et al., 2021] has sparked a debate on whether language supervision can result in vision models with more transferable representations than traditional image-only methods. Our work studies this question through a carefully controlled comparison of two approaches in terms of their ability to learn representations that generalize to downstream classification tasks. We find that when the pre-training dataset meets certain criteria -- it is sufficiently large and contains descriptive captions with low variability -- image-only methods do not match CLIP's transfer performance, even when they are trained with more image data. However, contrary to what one might expect, there are practical settings in which these criteria are not met, wherein added supervision through captions is actually detrimental. Motivated by our findings, we devise simple prescriptions to enable CLIP to better leverage the language information present in existing pre-training datasets.
翻訳日:2022-07-18 13:21:01 公開日:2022-07-15
# vision mlpにおける相対位置符号化と相互相関関係のパラメータ化

Parameterization of Cross-Token Relations with Relative Positional Encoding for Vision MLP ( http://arxiv.org/abs/2207.07284v1 )

ライセンス: Link先を確認
Zhicai Wang, Yanbin Hao, Xingyu Gao, Hao Zhang, Shuo Wang, Tingting Mu, Xiangnan He(参考訳) ビジョン多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示し、CNNやビジョントランスフォーマーの主な競合相手となった。 彼らは、トランスフォーマーが使用するマルチヘッドセルフアテンション機構とは対照的に、トークン混合層を使用してクロストケンインタラクションをキャプチャする。 しかし、高パラメータ化されたトークン混合層は、局所情報と多粒性非局所関係を捉えるメカニズムを欠いているため、識別力は抑制される。 この問題に対処するため,新しい位置空間ゲーティングユニット(PoSGU)を提案する。 古典的相対的位置符号化(RPE)で使われる注意の定式化を利用して、トークンミキシングのためのクロストークン関係を効率的に符号化する。 現在の二次パラメータの複雑性$O(N^2)$ビジョン MLP を$O(N)$と$O(1)$に縮めることに成功した。 2つのrpe機構を実験し,多面的文脈の達成により,表現力を向上させるためのグループ的拡張を提案する。 これらはPosMLPと呼ばれる新しいタイプの視覚MLPの鍵となる構成要素として機能する。 提案手法の有効性を徹底的な実験により評価し,パラメータの複雑性を低減した改良あるいは同等の性能を示す。 例えば、ImageNet1Kでトレーニングされたモデルでは、72.14\%から74.02\%に改善され、学習可能なパラメータは19.4M$から18.2M$に削減された。 コードは \href{https://github.com/Zhicaiwww/PosMLP}{https://github.com/Zhicaiwww/PosMLP} にある。

Vision multi-layer perceptrons (MLPs) have shown promising performance in computer vision tasks, and become the main competitor of CNNs and vision Transformers. They use token-mixing layers to capture cross-token interactions, as opposed to the multi-head self-attention mechanism used by Transformers. However, the heavily parameterized token-mixing layers naturally lack mechanisms to capture local information and multi-granular non-local relations, thus their discriminative power is restrained. To tackle this issue, we propose a new positional spacial gating unit (PoSGU). It exploits the attention formulations used in the classical relative positional encoding (RPE), to efficiently encode the cross-token relations for token mixing. It can successfully reduce the current quadratic parameter complexity $O(N^2)$ of vision MLPs to $O(N)$ and $O(1)$. We experiment with two RPE mechanisms, and further propose a group-wise extension to improve their expressive power with the accomplishment of multi-granular contexts. These then serve as the key building blocks of a new type of vision MLP, referred to as PosMLP. We evaluate the effectiveness of the proposed approach by conducting thorough experiments, demonstrating an improved or comparable performance with reduced parameter complexity. For instance, for a model trained on ImageNet1K, we achieve a performance improvement from 72.14\% to 74.02\% and a learnable parameter reduction from $19.4M$ to $18.2M$. Code could be found at \href{https://github.com/Zhicaiwww/PosMLP}{https://github.com/Zhicaiwww/PosMLP}.
翻訳日:2022-07-18 13:19:17 公開日:2022-07-15
# 低照度画像のためのインテリジェントで教師なしのパーソナライズされたエンハンサー

Enhancement by Your Aesthetic: An Intelligible Unsupervised Personalized Enhancer for Low-Light Images ( http://arxiv.org/abs/2207.07317v1 )

ライセンス: Link先を確認
Naishan Zheng, Jie Huang, Qi Zhu, Man Zhou, Feng Zhao, Zheng-Jun Zha(参考訳) 低照度画像強調は、本来の主観的プロセスであり、その対象はユーザの美学によって異なる。 これにより、いくつかのパーソナライズされた強化手法が研究されている。 しかし、これらのテクニックにおけるユーザの好みに基づく拡張プロセスは、見えない、すなわち「ブラックボックス」である。 本研究では,ユーザフレンドリーな3つの属性(明度,彩度,ノイズ)に関して,低照度画像と非対向参照画像との相関性を確立するため,低照度画像に対する教師なしパーソナライズドエンハンサー(iupenhancer)を提案する。 提案したiUP-Enhancerは、これらの相関とそれに対応する教師なし損失関数のガイダンスを用いて訓練される。 ブラックボックス"プロセスではなく、当社のiup-enhancerは上記の属性を持つ理解可能な拡張プロセスを示します。 大規模な実験により,提案アルゴリズムは優れた柔軟性とスケーラビリティを維持しつつ,競争力のある質的,定量的な結果が得られることを示した。 これは、単一/複数参照、クロス属性参照、あるいは単にパラメータを調整することで検証できる。

Low-light image enhancement is an inherently subjective process whose targets vary with the user's aesthetic. Motivated by this, several personalized enhancement methods have been investigated. However, the enhancement process based on user preferences in these techniques is invisible, i.e., a "black box". In this work, we propose an intelligible unsupervised personalized enhancer (iUPEnhancer) for low-light images, which establishes the correlations between the low-light and the unpaired reference images with regard to three user-friendly attributions (brightness, chromaticity, and noise). The proposed iUP-Enhancer is trained with the guidance of these correlations and the corresponding unsupervised loss functions. Rather than a "black box" process, our iUP-Enhancer presents an intelligible enhancement process with the above attributions. Extensive experiments demonstrate that the proposed algorithm produces competitive qualitative and quantitative results while maintaining excellent flexibility and scalability. This can be validated by personalization with single/multiple references, cross-attribution references, or merely adjusting parameters.
翻訳日:2022-07-18 13:18:47 公開日:2022-07-15
# Bi-PointFlowNet: ポイントクラウドに基づくシーンフロー推定のための双方向学習

Bi-PointFlowNet: Bidirectional Learning for Point Cloud Based Scene Flow Estimation ( http://arxiv.org/abs/2207.07522v1 )

ライセンス: Link先を確認
Wencan Cheng and Jong Hwan Ko(参考訳) 多くのコンピュータビジョンタスクにおいて,シーン間のポイントワイズ動作を抽出するシーンフロー推定が重要な課題となっている。 しかし,既存の推定手法はすべて一方向の特徴のみを利用し,精度と一般性を制限する。 本稿では,双方向フロー埋め込み層を用いたシーンフロー推定アーキテクチャを提案する。 提案する双方向層は,前方方向と後方方向の両方で特徴を学習し,推定性能を向上させる。 さらに、階層的特徴抽出とワープにより性能が向上し、計算オーバーヘッドが減少する。 実験の結果,提案アーキテクチャはFlyingThings3DとKITTIのベンチマークにおいて,他の手法よりも高い精度で,新たな最先端記録を達成した。 コードはhttps://github.com/cwc1260/biflowで入手できる。

Scene flow estimation, which extracts point-wise motion between scenes, is becoming a crucial task in many computer vision tasks. However, all of the existing estimation methods utilize only the unidirectional features, restricting the accuracy and generality. This paper presents a novel scene flow estimation architecture using bidirectional flow embedding layers. The proposed bidirectional layer learns features along both forward and backward directions, enhancing the estimation performance. In addition, hierarchical feature extraction and warping improve the performance and reduce computational overhead. Experimental results show that the proposed architecture achieved a new state-of-the-art record by outperforming other approaches with large margin in both FlyingThings3D and KITTI benchmarks. Codes are available at https://github.com/cwc1260/BiFlow.
翻訳日:2022-07-18 13:18:30 公開日:2022-07-15
# Z-Index at CheckThat! Lab 2022: つぶやきテキストによるチェックウェアネスの識別

Z-Index at CheckThat! Lab 2022: Check-Worthiness Identification on Tweet Text ( http://arxiv.org/abs/2207.07308v1 )

ライセンス: Link先を確認
Prerona Tarannum, Firoj Alam, Md. Arid Hasan, Sheak Rashed Haider Noori(参考訳) ソーシャルメディアとデジタル技術の幅広い利用は、様々なニュースやイベントや活動に関する情報の共有を促進する。 ポジティブな情報の誤解や誤った情報の共有もソーシャルメディアで広まっている。 このような誤解を招く情報を、人手による手作業と自動ツールの両方で識別する努力がなされている。 事実的クレームを含む大量の情報がオンラインに表示されているため、手作業はうまくスケールしない。 したがって、チェックに値するクレームを自動的に識別することは、人間の専門家にとって非常に有用である。 本研究では, CLEF 2022のCheckThat!のツイート(英語, オランダ語, スペイン語)がSubtask-1Aに含まれることを説明する。 標準前処理を行い,各テキストが事実チェックに値するかどうかを識別するために異なるモデルを適用した。 我々はデータセットのバランスをとるためにオーバーサンプリング手法を使用し、SVMとランダムフォレスト(RF)をTF-IDF表現に適用した。 また,実験にはBERT多言語モデル (BERT-m) とXLM-RoBERTa-base を用いた。 公式提出書にはBERT-mを用い, スペイン語, オランダ語, 英語では第3位, 第5位, 第12位にランクインした。 さらに,オランダ語と英語では変圧器モデル (BERT-m, XLM-RoBERTa-base) がSVMおよびRFより優れており,スペイン語では異なるシナリオが観察されている。

The wide use of social media and digital technologies facilitates sharing various news and information about events and activities. Despite sharing positive information misleading and false information is also spreading on social media. There have been efforts in identifying such misleading information both manually by human experts and automatic tools. Manual effort does not scale well due to the high volume of information, containing factual claims, are appearing online. Therefore, automatically identifying check-worthy claims can be very useful for human experts. In this study, we describe our participation in Subtask-1A: Check-worthiness of tweets (English, Dutch and Spanish) of CheckThat! lab at CLEF 2022. We performed standard preprocessing steps and applied different models to identify whether a given text is worthy of fact checking or not. We use the oversampling technique to balance the dataset and applied SVM and Random Forest (RF) with TF-IDF representations. We also used BERT multilingual (BERT-m) and XLM-RoBERTa-base pre-trained models for the experiments. We used BERT-m for the official submissions and our systems ranked as 3rd, 5th, and 12th in Spanish, Dutch, and English, respectively. In further experiments, our evaluation shows that transformer models (BERT-m and XLM-RoBERTa-base) outperform the SVM and RF in Dutch and English languages where a different scenario is observed for Spanish.
翻訳日:2022-07-18 13:17:56 公開日:2022-07-15
# フレキシブルなスキーマガイド型対話管理フレームワーク:フレンドリーピアから仮想標準化癌患者へ

A Flexible Schema-Guided Dialogue Management Framework: From Friendly Peer to Virtual Standardized Cancer Patient ( http://arxiv.org/abs/2207.07276v1 )

ライセンス: Link先を確認
Benjamin Kane, Catherine Giugno, Lenhart Schubert, Kurtis Haut, Caleb Wohn, Ehsan Hoque(参考訳) スキーマ誘導による対話管理のアプローチは、フレンドリーなピアやタスクアシスタントとして機能する堅牢なカスタマイズ可能な仮想エージェントを作成するのに有効である。 しかし、これらの手法のオープンエンド・ミックスイニシアティブ領域への応用は、特にこのような複雑な相互作用が一般的である仮想標準化患者のような医療領域において、解明され、従来のシステムよりも広範囲で柔軟な対話管理能力を必要とする。 本稿では、医師が患者との対話に便利に実践できる仮想標準化されたがん患者SOPHIEを開発するために使用される汎用スキーマ誘導対話管理フレームワークについて述べる。 我々は,医学生とSOPHIEの対話をクラウドソースで評価する。 我々のエージェントは、自然な、感情的に適切で、癌患者としての彼女の役割と一致した反応を生み出すと判断される。 さらに、ヒトの標準化された患者コーパスに微調整されたエンド・ツー・エンドのニューラルモデルを大幅に上回り、スキーマ誘導アプローチの利点を証明している。

A schema-guided approach to dialogue management has been shown in recent work to be effective in creating robust customizable virtual agents capable of acting as friendly peers or task assistants. However, successful applications of these methods in open-ended, mixed-initiative domains remain elusive -- particularly within medical domains such as virtual standardized patients, where such complex interactions are commonplace -- and require more extensive and flexible dialogue management capabilities than previous systems provide. In this paper, we describe a general-purpose schema-guided dialogue management framework used to develop SOPHIE, a virtual standardized cancer patient that allows a doctor to conveniently practice for interactions with patients. We conduct a crowdsourced evaluation of conversations between medical students and SOPHIE. Our agent is judged to produce responses that are natural, emotionally appropriate, and consistent with her role as a cancer patient. Furthermore, it significantly outperforms an end-to-end neural model fine-tuned on a human standardized patient corpus, attesting to the advantages of a schema-guided approach.
翻訳日:2022-07-18 13:17:30 公開日:2022-07-15
# オブジェクト中心表現による疎関係推論

Sparse Relational Reasoning with Object-Centric Representations ( http://arxiv.org/abs/2207.07512v1 )

ライセンス: Link先を確認
Alex F. Spies, Alessandra Russo and Murray Shanahan(参考訳) 本稿では,オブジェクト中心(slotベース)表現上で動作する際に,関係性ニューラルネットワークによって学習されるソフトルールの構成可能性について検討する。 特に特徴量の増加は,いくつかのモデルの性能を向上し,より単純な関係をもたらすことが判明した。 さらに、すべてのオブジェクトが完全にキャプチャされていない場合、オブジェクト中心の表現が有害になる可能性があることを観察する。 これらの結果は、リレーショナルタスクに対処するモデルであっても、解釈可能性と性能のトレードオフを示している。

We investigate the composability of soft-rules learned by relational neural architectures when operating over object-centric (slot-based) representations, under a variety of sparsity-inducing constraints. We find that increasing sparsity, especially on features, improves the performance of some models and leads to simpler relations. Additionally, we observe that object-centric representations can be detrimental when not all objects are fully captured; a failure mode to which CNNs are less prone. These findings demonstrate the trade-offs between interpretability and performance, even for models designed to tackle relational tasks.
翻訳日:2022-07-18 13:16:49 公開日:2022-07-15
# (参考訳) LapSeg3D:腹腔鏡像を表す点雲の弱監視セマンティックセグメンテーション

LapSeg3D: Weakly Supervised Semantic Segmentation of Point Clouds Representing Laparoscopic Scenes ( http://arxiv.org/abs/2207.07418v1 )

ライセンス: CC BY 4.0
Benjamin Alt, Christian Kunz, Darko Katic, Rayan Younis, Rainer J\"akel, Beat Peter M\"uller-Stich, Martin Wagner and Franziska Mathis-Ullrich(参考訳) 手術場面の意味セグメンテーションはロボット支援介入におけるタスク自動化の前提条件である。 手術シーンを表す点雲のvoxel-wiseアノテーションのための新しいDNNベースのアプローチであるLapSeg3Dを提案する。 トレーニングデータの手動アノテーションは非常に時間がかかるため、dnn用のセグメントラベルを生成するために使用される、胆嚢のアノテーションのための半自動クラスタリングベースのパイプラインを導入する。 手動でアノテートされたデータに対して評価すると、LapSeg3Dは前生ブタ肝臓の様々なデータセットで胆嚢分節のF1スコアが0.94に達する。 異なるRGB-Dカメラシステムで記録された様々な胆嚢およびデータセットを正確に一般化するLapSeg3Dを示す。

The semantic segmentation of surgical scenes is a prerequisite for task automation in robot assisted interventions. We propose LapSeg3D, a novel DNN-based approach for the voxel-wise annotation of point clouds representing surgical scenes. As the manual annotation of training data is highly time consuming, we introduce a semi-autonomous clustering-based pipeline for the annotation of the gallbladder, which is used to generate segmented labels for the DNN. When evaluated against manually annotated data, LapSeg3D achieves an F1 score of 0.94 for gallbladder segmentation on various datasets of ex-vivo porcine livers. We show LapSeg3D to generalize accurately across different gallbladders and datasets recorded with different RGB-D camera systems.
翻訳日:2022-07-18 13:15:43 公開日:2022-07-15
# 文脈感応性新皮質ニューロンは神経情報処理の有効性と効率を変換する

Context-sensitive neocortical neurons transform the effectiveness and efficiency of neural information processing ( http://arxiv.org/abs/2207.07338v1 )

ライセンス: Link先を確認
Ahsan Adeel, Mario Franco, Mohsin Raza, Khubaib Ahmed(参考訳) 文脈に敏感な新皮質ニューロンは、コヒーレントフィードフォワード(FF)入力の伝達を増幅するための文脈として、その尖頭入力を使用するという神経生物学的証拠は豊富である。 しかし、この既知のメカニズムがどのように有用な神経計算を提供できるかは、これまで実証されていない。 ここでは,この形態の神経情報処理の処理能力と学習能力が哺乳類新皮質の能力とよく一致することを示す。 具体的には、このようなローカルプロセッサで構成されたネットワークは、競合する情報の高レベルへの送信を制限し、例えば、音声視覚音声を処理する際、これらのローカルプロセッサは、その動きが生成する聴覚情報のFF送信を選択的に増幅するために唇の動きを利用するなど、大量の異種実世界のデータを処理するために必要なアクティビティを大幅に削減することを示す。 このメカニズムは、最善のディープニューラルネットよりも効率的で効率的であることが示されているため、脳の謎の省エネメカニズムを理解するためのステップチェンジを提供し、生物学的に妥当な機械学習アルゴリズムの強化された形態の設計の進展を刺激する。

There is ample neurobiological evidence that context-sensitive neocortical neurons use their apical inputs as context to amplify the transmission of coherent feedforward (FF) inputs. However, it has not been demonstrated until now how this known mechanism can provide useful neural computation. Here we show for the first time that the processing and learning capabilities of this form of neural information processing are well-matched to the abilities of mammalian neocortex. Specifically, we show that a network composed of such local processors restricts the transmission of conflicting information to higher levels and greatly reduces the amount of activity required to process large amounts of heterogeneous real-world data e.g., when processing audiovisual speech, these local processors use seen lip movements to selectively amplify FF transmission of the auditory information that those movements generate and vice versa. As this mechanism is shown to be far more effective and efficient than the best available forms of deep neural nets, it offers a step-change in understanding the brain's mysterious energy-saving mechanism and inspires advances in designing enhanced forms of biologically plausible machine learning algorithms.
翻訳日:2022-07-18 13:01:13 公開日:2022-07-15
# LineCap: データ可視化キャプションモデルのためのラインチャート

LineCap: Line Charts for Data Visualization Captioning Models ( http://arxiv.org/abs/2207.07243v1 )

ライセンス: Link先を確認
Anita Mahinpei, Zona Kostic, Chris Tanner(参考訳) データビジュアライゼーションキャプションは、可視化の目的を理解し、視覚障害を持つ個人にとって不可欠である。 画像キャプションにおける文字キャプションの貧弱さと深層学習手法の有効利用は,字キャプションの自動化に類似した手法の使用を動機付けている。 しかし、この分野の研究は適切なデータセットの欠如に悩まされている。 3,528桁からなる新しい図形キャプションデータセットであるlinecapを紹介し、このデータセットのキュレーションと、エンドツーエンドのディープラーニングモデルによる自動キャプションに関する洞察を提供する。

Data visualization captions help readers understand the purpose of a visualization and are crucial for individuals with visual impairments. The prevalence of poor figure captions and the successful application of deep learning approaches to image captioning motivate the use of similar techniques for automated figure captioning. However, research in this field has been stunted by the lack of suitable datasets. We introduce LineCap, a novel figure captioning dataset of 3,528 figures, and we provide insights from curating this dataset and using end-to-end deep learning models for automated figure captioning.
翻訳日:2022-07-18 13:00:52 公開日:2022-07-15
# 分布外検出における深層アンサンブル多様性の有用性について

On the Usefulness of Deep Ensemble Diversity for Out-of-Distribution Detection ( http://arxiv.org/abs/2207.07517v1 )

ライセンス: Link先を確認
Guoxuan Xia and Christos-Savvas Bouganis(参考訳) ディープラーニングの安全性クリティカルな応用において、OOD(Out-of-Distribution)データを検出する能力が重要である。 本研究の目的は、深層ニューラルネットワークから抽出された不確実性の尺度を用いて、トレーニング分布から引き出されたIn-Distribution(ID)データをOODデータから分離することである。 Deep Ensemblesは、ディープニューラルネットワークが生み出す不確実性推定の品質を改善するための確立された方法であり、単一モデルと比較してOOD検出性能が優れていることが示されている。 文献の既存の直観では、深層アンサンブル予測の多様性は分布変化を示しており、相互情報(MI)のような多様性の尺度はOOD検出に使用されるべきである。 この直感はImageNetスケールのOOD検出では有効ではなく、MIを使用すると、OODデータセットの単一モデルエントロピーに比べて30~40%悪い%FPR@95になる。 我々は、Deep Ensemblesの優れたOOD検出性能について、別の説明を提案します -- OOD検出はバイナリ分類であり、さまざまな分類器をアンサンブルしています。 その結果,Energy などのタスク固有の検出スコアを平均化することにより,より優れた OOD 検出性能をDeep Ensembles に適用できることが示唆された。

The ability to detect Out-of-Distribution (OOD) data is important in safety-critical applications of deep learning. The aim is to separate In-Distribution (ID) data drawn from the training distribution from OOD data using a measure of uncertainty extracted from a deep neural network. Deep Ensembles are a well-established method of improving the quality of uncertainty estimates produced by deep neural networks, and have been shown to have superior OOD detection performance compared to single models. An existing intuition in the literature is that the diversity of Deep Ensemble predictions indicates distributional shift, and so measures of diversity such as Mutual Information (MI) should be used for OOD detection. We show experimentally that this intuition is not valid on ImageNet-scale OOD detection -- using MI leads to 30-40% worse %FPR@95 compared to single-model entropy on some OOD datasets. We suggest an alternative explanation for Deep Ensembles' better OOD detection performance -- OOD detection is binary classification and we are ensembling diverse classifiers. As such we show that practically, even better OOD detection performance can be achieved for Deep Ensembles by averaging task-specific detection scores such as Energy over the ensemble.
翻訳日:2022-07-18 13:00:24 公開日:2022-07-15
# 分配データを用いた選択分類のためのソフトマックス情報の拡張

Augmenting Softmax Information for Selective Classification with Out-of-Distribution Data ( http://arxiv.org/abs/2207.07506v1 )

ライセンス: Link先を確認
Guoxuan Xia and Christos-Savvas Bouganis(参考訳) オフ・オブ・ディストリビューション(OOD)データの検出は、コンピュータビジョンのためのディープラーニング分野において、研究の注目を集めているタスクである。 しかし, 検出手法の性能は, ダウンストリームタスクを考慮せず, 分離したタスクで評価されるのが一般的である。 本研究では,OODデータ(SCOD)の存在下での選択的分類について検討する。 言い換えれば、OODサンプルを検出する動機は、それらが予測の質に与える影響を減らすことである。 このタスク仕様の下では、既存のポストホック法はOOD検出でのみ評価した場合とは大きく異なる性能を示す。 これは、IDデータが誤って分類される場合、IDデータをOODデータに分割することはもはや問題ではないためである。 しかし、正しい予測と間違った予測のidデータ内の畳み込みは望ましくない。 また,SCOD(Softmax Information Retaining Combination, SIRC)の新たな手法として, ソフトマックスに基づく信頼度スコアを特徴に依存しない情報で強化し, 正しいID予測と誤ID予測の分離を犠牲にすることなくOODサンプルの識別能力を向上する手法を提案する。 多様なImageNetスケールのデータセットと畳み込みニューラルネットワークアーキテクチャの実験は、SIRCがSCODのベースラインと一貫して一致または上回っていることを示しているが、既存のOOD検出方法ではそうはならない。

Detecting out-of-distribution (OOD) data is a task that is receiving an increasing amount of research attention in the domain of deep learning for computer vision. However, the performance of detection methods is generally evaluated on the task in isolation, rather than also considering potential downstream tasks in tandem. In this work, we examine selective classification in the presence of OOD data (SCOD). That is to say, the motivation for detecting OOD samples is to reject them so their impact on the quality of predictions is reduced. We show under this task specification, that existing post-hoc methods perform quite differently compared to when evaluated only on OOD detection. This is because it is no longer an issue to conflate in-distribution (ID) data with OOD data if the ID data is going to be misclassified. However, the conflation within ID data of correct and incorrect predictions becomes undesirable. We also propose a novel method for SCOD, Softmax Information Retaining Combination (SIRC), that augments softmax-based confidence scores with feature-agnostic information such that their ability to identify OOD samples is improved without sacrificing separation between correct and incorrect ID predictions. Experiments on a wide variety of ImageNet-scale datasets and convolutional neural network architectures show that SIRC is able to consistently match or outperform the baseline for SCOD, whilst existing OOD detection methods fail to do so.
翻訳日:2022-07-18 12:59:59 公開日:2022-07-15
# su($d$)対称性を持つ同変量子機械学習アルゴリズムの超指数量子スピードアップについて

On the Super-exponential Quantum Speedup of Equivariant Quantum Machine Learning Algorithms with SU($d$) Symmetry ( http://arxiv.org/abs/2207.07250v1 )

ライセンス: Link先を確認
Han Zheng, Zimu Li, Junyu Liu, Sergii Strelchuk, Risi Kondor(参考訳) 任意のSU($d$)対称性を持つ物理システム上での多数の機械学習タスクに適した等変畳み込みアルゴリズムの枠組みを導入する。 これにより、量子計算の自然なモデル-置換量子コンピューティング(pqc) [量子 inf. comput., 10, 470-497 (2010)] を拡張し、より強力なモデルであるpqc+を定義することができます。 PQCは効果的に古典的シミュラブルであることが示されているが、PQC+マシン上で効率よく解ける問題を示す一方、最もよく知られている古典的アルゴリズムは$O(n!n^2)$時間で実行され、PQC+が古典的シミュラブルであることを示す強力な証拠を与える。 さらに、PQC+のパラダイムで実行できる実用的な量子機械学習アルゴリズムについても論じる。

We introduce a framework of the equivariant convolutional algorithms which is tailored for a number of machine-learning tasks on physical systems with arbitrary SU($d$) symmetries. It allows us to enhance a natural model of quantum computation--permutational quantum computing (PQC) [Quantum Inf. Comput., 10, 470-497 (2010)] --and defines a more powerful model: PQC+. While PQC was shown to be effectively classically simulatable, we exhibit a problem which can be efficiently solved on PQC+ machine, whereas the best known classical algorithms runs in $O(n!n^2)$ time, thus providing strong evidence against PQC+ being classically simulatable. We further discuss practical quantum machine learning algorithms which can be carried out in the paradigm of PQC+.
翻訳日:2022-07-18 12:59:33 公開日:2022-07-15
# (参考訳) iColoriT:視覚変換器を応用したインタラクティブカラー化における局所ヒントの右領域への伝播

iColoriT: Towards Propagating Local Hint to the Right Region in Interactive Colorization by Leveraging Vision Transformer ( http://arxiv.org/abs/2207.06831v2 )

ライセンス: CC BY 4.0
Sanghyeon Lee, Jooyeol Yun, Minho Park, Jaegul Choo(参考訳) Point-Interactive Image Colorizationは、ユーザが特定の場所に色を提供するときのグレースケールイメージのカラー化を目的としている。 ポイントインタラクティブなカラー化手法は、画像全体にユーザが提供する色(すなわちユーザヒント)を適切に伝播させ、ユーザを最小限の労力で適度にカラー化画像を得るのに不可欠である。 しかし、既存のアプローチは、遠方の関連領域にヒントを伝達するために畳み込み層を積み重ねる非効率な設計のため、部分的に着色された結果をもたらすことが多い。 この問題に対処するため,iColoriTは,ユーザヒントを関連領域に伝達し,トランスフォーマーのグローバルな受容領域を活用可能な,新しい点対話型カラー化ビジョントランスフォーマである。 変圧器の自己着脱機構により、icoloritはいくつかの局所的なヒントだけで関連領域を選択的に着色することができる。 提案手法は,デコーダアーキテクチャに取って代わる効率的なアップサンプリング手法であるpixel shufflingを用いて,画像をリアルタイムに着色する。 また, 画素シャッフルによるアーチファクトのアップサンプリング率の増大を緩和するため, 局所安定化層を提案する。 定量的および定性的な結果から,本手法は既存の点間カラー化手法よりも高い性能を示し,ユーザの最小限の努力で正確な色付け画像を生成する。

Point-interactive image colorization aims to colorize grayscale images when a user provides the colors for specific locations. It is essential for point-interactive colorization methods to appropriately propagate user-provided colors (i.e., user hints) in the entire image to obtain a reasonably colorized image with minimal user effort. However, existing approaches often produce partially colorized results due to the inefficient design of stacking convolutional layers to propagate hints to distant relevant regions. To address this problem, we present iColoriT, a novel point-interactive colorization Vision Transformer capable of propagating user hints to relevant regions, leveraging the global receptive field of Transformers. The self-attention mechanism of Transformers enables iColoriT to selectively colorize relevant regions with only a few local hints. Our approach colorizes images in real-time by utilizing pixel shuffling, an efficient upsampling technique that replaces the decoder architecture. Also, in order to mitigate the artifacts caused by pixel shuffling with large upsampling ratios, we present the local stabilizing layer. Extensive quantitative and qualitative results demonstrate that our approach highly outperforms existing methods for point-interactive colorization, producing accurately colorized images with a user's minimal effort.
翻訳日:2022-07-18 12:21:18 公開日:2022-07-15
# (参考訳) 視界レンズによるOmni-Vision Representationのベンチマーク

Benchmarking Omni-Vision Representation through the Lens of Visual Realms ( http://arxiv.org/abs/2207.07106v2 )

ライセンス: CC BY 4.0
Yuanhan Zhang, Zhenfei Yin, Jing Shao, Ziwei Liu(参考訳) 特定の視覚領域(例えば、顔、犬、場所)では印象的なパフォーマンスが達成されているが、多くの自然な視覚領域に一般化した全視覚表現は非常に望ましい。 しかし、既存のベンチマークは、オムニビジョンの表現を評価するために偏りがあり非効率であり、これらのベンチマークにはいくつかの特定の領域しか含まれていない。 本稿では,Omni-Realmベンチマーク(OmniBenchmark)を提案する。 21のリアルタイムデータセットと7,372のコンセプト、1,074,346の画像が含まれている。 セマンティックオーバーラップがなければ、これらのデータセットはほとんどの視覚領域を包括的かつ効率よくカバーする。 さらに,新しい教師付きコントラスト学習フレームワークであるrelational contrastive learning (reco)を提案する。 同じ概念から2つのインスタンス -- 典型的な教師付きコントラスト学習フレームワーク -- を近づけるだけでなく、recoは、同じ意味領域から2つのインスタンスを引き寄せ、概念間の意味関係をエンコードし、全局的な表現学習を促進する。 我々は、omnibenchmarkにおけるアーキテクチャ(cnnからトランスフォーマーまで)と学習パラダイム(教師付き学習から自己教師付き学習まで)におけるrecoや他の全視野表現研究の進歩をベンチマークする。 本稿では,ReCoを他の教師付きコントラスト学習法と比較し,今後の研究を促進するために複数の実践的な観察方法を明らかにする。

Though impressive performance has been achieved in specific visual realms (e.g. faces, dogs, and places), an omni-vision representation generalizing to many natural visual domains is highly desirable. But, existing benchmarks are biased and inefficient to evaluate the omni-vision representation -- these benchmarks either only include several specific realms, or cover most realms at the expense of subsuming numerous datasets that have extensive realm overlapping. In this paper, we propose Omni-Realm Benchmark (OmniBenchmark). It includes 21 realm-wise datasets with 7,372 concepts and 1,074,346 images. Without semantic overlapping, these datasets cover most visual realms comprehensively and meanwhile efficiently. In addition, we propose a new supervised contrastive learning framework, namely Relational Contrastive learning (ReCo), for a better omni-vision representation. Beyond pulling two instances from the same concept closer -- the typical supervised contrastive learning framework -- ReCo also pulls two instances from the same semantic realm closer, encoding the semantic relation between concepts, and facilitating omni-vision representation learning. We benchmark ReCo and other advances in omni-vision representation studies that are different in architectures (from CNNs to transformers) and in learning paradigms (from supervised learning to self-supervised learning) on OmniBenchmark. We illustrate the superior of ReCo to other supervised contrastive learning methods and reveal multiple practical observations to facilitate future research.
翻訳日:2022-07-18 12:01:37 公開日:2022-07-15
# (参考訳) 健康予測のための時間的注意ネットワークを用いた患者旅行データの長期依存性と短期相関のモデル化

Modeling Long-term Dependencies and Short-term Correlations in Patient Journey Data with Temporal Attention Networks for Health Prediction ( http://arxiv.org/abs/2207.06414v2 )

ライセンス: CC BY 4.0
Yuxi Liu, Zhenhao Zhang, Antonio Jimeno Yepes, Flora D. Salim(参考訳) 電子健康記録(EHR)に基づく健康予測モデルの構築が活発な研究領域となっている。 EHR患者旅行データは、患者の時間順の臨床イベント/ビジットから構成される。 これまでのほとんどの研究では、訪問者間の長期依存関係をモデル化することに重点を置いており、不規則な時間間隔(補助情報として組み込まれている)を健康予測モデルに入力し、患者旅行の遅滞進行パターンを捉えている。 健康予測のための様々な変数の寄与を考慮に入れた,4つのモジュールを持つ新しいディープニューラルネットワークを提案する。 i)スタックド・アテンション・モジュールは、各患者旅行における臨床イベントにおける深い意味を強化し、訪問埋め込みを生成する。 二 短期仮設留置モジュールは、当該訪問留置内における時間間隔の影響を把握しつつ、連続訪問留置間の短期的相関をモデル化する。 三 長期留置モジュールは、訪問埋め込み間の長期依存関係をモデル化し、訪問埋め込み内の時間間隔の影響を捉えている。 iv) そして最後に、結合注意モジュールは、短期注意モジュールと長期注意モジュールの出力を適応的に集約し、健康予測を行う。 mimic-iiiの実験結果は,既存の最先端手法に比べて予測精度が優れており,この手法の解釈性とロバスト性も高い。 さらに,短期相関のモデル化は局所的な事前生成に寄与し,患者旅行の予測モデルの改善につながった。

Building models for health prediction based on Electronic Health Records (EHR) has become an active research area. EHR patient journey data consists of patient time-ordered clinical events/visits from patients. Most existing studies focus on modeling long-term dependencies between visits, without explicitly taking short-term correlations between consecutive visits into account, where irregular time intervals, incorporated as auxiliary information, are fed into health prediction models to capture latent progressive patterns of patient journeys. We present a novel deep neural network with four modules to take into account the contributions of various variables for health prediction: i) the Stacked Attention module strengthens the deep semantics in clinical events within each patient journey and generates visit embeddings, ii) the Short-Term Temporal Attention module models short-term correlations between consecutive visit embeddings while capturing the impact of time intervals within those visit embeddings, iii) the Long-Term Temporal Attention module models long-term dependencies between visit embeddings while capturing the impact of time intervals within those visit embeddings, iv) and finally, the Coupled Attention module adaptively aggregates the outputs of Short-Term Temporal Attention and Long-Term Temporal Attention modules to make health predictions. Experimental results on MIMIC-III demonstrate superior predictive accuracy of our model compared to existing state-of-the-art methods, as well as the interpretability and robustness of this approach. Furthermore, we found that modeling short-term correlations contributes to local priors generation, leading to improved predictive modeling of patient journeys.
翻訳日:2022-07-18 11:37:00 公開日:2022-07-15
# 核密度を用いた分類信頼度の推定

Estimating Classification Confidence Using Kernel Densities ( http://arxiv.org/abs/2207.06529v2 )

ライセンス: Link先を確認
Peter Salamon, David Salamon, V. Adrian Cantu, Michelle An, Tyler Perry, Robert A. Edwards, Anca M. Segall(参考訳) 本稿では,「探索的」機械学習分類問題に対する信頼性のポストホック校正について検討する。 これらの問題の難しさは、データセットのキュレーション時に十分な例を持つカテゴリの境界を押し進めることと、それらのカテゴリの有効性に関する混乱に起因している。 このような問題に対して、文献の他所で提唱された「カリブレート・ザ・フル・レスポンス・マトリクス」アプローチよりも「ワン・ヴァース・オール」アプローチ(トップ・ラベル・キャリブレーション)を使わなければならないと論じる。 カテゴリー固有の信頼度推定の慣用性を扱うために設計された4つの新しいアルゴリズムを導入・テストする。 これらの手法の主な用途は、帯域幅を選択するための新しい防弾アルゴリズムを含む信頼性校正のためのカーネル密度比の利用である。 我々は,バイオインフォマティクスアプリケーション(PhANN)のキャリブレーション限界と,古典的なMNISTベンチマークを検証した。 最後に分析では,ポストホックキャリブレーションは常に実施されるべきであり,テストデータセットのみに基づくべきであり,サニティチェックを視覚的に行うべきである。

This paper investigates the post-hoc calibration of confidence for "exploratory" machine learning classification problems. The difficulty in these problems stems from the continuing desire to push the boundaries of which categories have enough examples to generalize from when curating datasets, and confusion regarding the validity of those categories. We argue that for such problems the "one-versus-all" approach (top-label calibration) must be used rather than the "calibrate-the-full-response-matrix" approach advocated elsewhere in the literature. We introduce and test four new algorithms designed to handle the idiosyncrasies of category-specific confidence estimation. Chief among these methods is the use of kernel density ratios for confidence calibration including a novel, bulletproof algorithm for choosing the bandwidth. We test our claims and explore the limits of calibration on a bioinformatics application (PhANNs) as well as the classic MNIST benchmark. Finally, our analysis argues that post-hoc calibration should always be performed, should be based only on the test dataset, and should be sanity-checked visually.
翻訳日:2022-07-18 11:19:34 公開日:2022-07-15
# コスト効率の良いエンドツーエンドテキストスポッティングのための動的低分解能蒸留

Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text Spotting ( http://arxiv.org/abs/2207.06694v2 )

ライセンス: Link先を確認
Ying Chen, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu and Xi Li(参考訳) エンド・ツー・エンドのテキストスポッティングは、グローバルな最適化と実際のアプリケーションに対する高い保守性に利点があるため、最近大きな注目を集めている。 しかし、小さなテキストインスタンスを認識するには画像全体を拡張する必要があるため、計算コストが高いため、入力スケールは常に厳しいトレードオフとなっている。 本稿では,この問題を解決するために,小型ながら認識可能な解像度の異なる画像を推定し,精度と効率のバランスを向上させることを目的とした,コスト効率の高いdld(dynamic low- resolution distillation)テキストスポッティングフレームワークを提案する。 具体的には、推論精度と計算コストの両方で制約される異なる画像の入力解像度を動的に決定する分解能セレクタを採用する。 別の逐次知識蒸留戦略をテキスト認識枝で行い、低精細入力が高精細画像に匹敵する性能を得る。 提案手法はエンド・ツー・エンドを最適化でき、実用性を改善するために現在のテキストスポッティングフレームワークで採用できる。 いくつかのテキストスポッティングベンチマークにおいて、提案手法は低解像度モデルのユーザビリティを大幅に改善することを示す。 コードはhttps://github.com/hikopensource/DAVAR-Lab-OCR/で公開されている。

End-to-end text spotting has attached great attention recently due to its benefits on global optimization and high maintainability for real applications. However, the input scale has always been a tough trade-off since recognizing a small text instance usually requires enlarging the whole image, which brings high computational costs. In this paper, to address this problem, we propose a novel cost-efficient Dynamic Low-resolution Distillation (DLD) text spotting framework, which aims to infer images in different small but recognizable resolutions and achieve a better balance between accuracy and efficiency. Concretely, we adopt a resolution selector to dynamically decide the input resolutions for different images, which is constraint by both inference accuracy and computational cost. Another sequential knowledge distillation strategy is conducted on the text recognition branch, making the low-res input obtains comparable performance to a high-res image. The proposed method can be optimized end-to-end and adopted in any current text spotting framework to improve the practicability. Extensive experiments on several text spotting benchmarks show that the proposed method vastly improves the usability of low-res models. The code is available at https://github.com/hikopensource/DAVAR-Lab-OCR/.
翻訳日:2022-07-18 11:19:17 公開日:2022-07-15
# 機械学習分類器のバイアス軽減:包括的調査

Bias Mitigation for Machine Learning Classifiers: A Comprehensive Survey ( http://arxiv.org/abs/2207.07068v2 )

ライセンス: Link先を確認
Max Hort, Zhenpeng Chen, Jie M. Zhang, Federica Sarro, Mark Harman(参考訳) 本稿では,機械学習(ML)モデルにおける公平性を実現するためのバイアス緩和手法を包括的に調査する。 ML分類器のバイアス軽減に関する合計234の論文を収集する。 これらの方法は、その介入手順(前処理、内処理、後処理)とそれらを適用する技術に基づいて区別することができる。 本研究では,既存のバイアス緩和手法を文献上で評価する。 特に、データセット、メトリクス、ベンチマークを検討します。 収集された洞察に基づいて(例えば、最も人気のある公正度測定値は何ですか?バイアス緩和手法の評価に使用されるデータセットはいくつか?)。 我々は,新たなバイアス緩和手法の開発と評価において,実践者を支援することを望む。

This paper provides a comprehensive survey of bias mitigation methods for achieving fairness in Machine Learning (ML) models. We collect a total of 234 publications concerning bias mitigation for ML classifiers. These methods can be distinguished based on their intervention procedure (i.e., pre-processing, in-processing, post-processing) and the technology they apply. We investigate how existing bias mitigation methods are evaluated in the literature. In particular, we consider datasets, metrics and benchmarking. Based on the gathered insights (e.g., what is the most popular fairness metric? How many datasets are used for evaluating bias mitigation methods?). We hope to support practitioners in making informed choices when developing and evaluating new bias mitigation methods.
翻訳日:2022-07-18 11:18:57 公開日:2022-07-15