このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211222となっている論文です。

PDF登録状況(公開日: 20211222)

TitleAuthorsAbstract論文公表日・翻訳日
# デバイス上での抽象要約を支援する適応ビーム探索

Adaptive Beam Search to Enhance On-device Abstractive Summarization ( http://arxiv.org/abs/2201.02739v1 )

ライセンス: Link先を確認
Harichandana B S S and Sumit Kumar(参考訳) われわれのスマートフォンには、sms、文書、音声メッセージなどの形で重要なアップデートがいくつかあり、コンテンツの雑多な部分に埋もれている。 私たちはしばしば、完全なコンテンツを通さない限り、重要な情報に気付きません。 SMSの通知は、メッセージが何であるかを判断するのに役立つことがあるが、それらは単に開始したコンテンツのプレビューを提供するだけだ。 これを解決する方法の1つは、様々なソースからデータを適応して要約できる単一の効率的なモデルを持つことである。 本稿では,この課題に対処し,SMSや音声メッセージに適用し,文書に拡張可能なデバイス上での抽象的な要約の質を向上させるための,新しい適応ビーム探索を提案する。 私たちの知る限りでは,サーバにデータを送信する既存の要約システムの大部分と比較して,ユーザのプライバシ上の懸念に対処する複数のデータソースに適応可能な,デバイス上の抽象化された要約パイプラインが提案されているのはこれが初めてです。 知識蒸留を用いてモデルサイズを30.9%削減し、97.6%少ないメモリフットプリントを持つこのモデルがbertと同等以上のキー情報を抽出することを示した。

We receive several essential updates on our smartphones in the form of SMS, documents, voice messages, etc. that get buried beneath the clutter of content. We often do not realize the key information without going through the full content. SMS notifications sometimes help by giving an idea of what the message is about, however, they merely offer a preview of the beginning content. One way to solve this is to have a single efficient model that can adapt and summarize data from varied sources. In this paper, we tackle this issue and for the first time, propose a novel Adaptive Beam Search to improve the quality of on-device abstractive summarization that can be applied to SMS, voice messages and can be extended to documents. To the best of our knowledge, this is the first on-device abstractive summarization pipeline to be proposed that can adapt to multiple data sources addressing privacy concerns of users as compared to the majority of existing summarization systems that send data to a server. We reduce the model size by 30.9% using knowledge distillation and show that this model with a 97.6% lesser memory footprint extracts the same or more key information as compared to BERT.
翻訳日:2022-01-16 16:32:49 公開日:2021-12-22
# マルチサブジェクトfmriデータからの共有神経多様体の学習

Learning shared neural manifolds from multi-subject FMRI data ( http://arxiv.org/abs/2201.00622v1 )

ライセンス: Link先を確認
Jessie Huang, Erica L. Busch, Tom Wallenstein, Michal Gerasimiuk, Andrew Benz, Guillaume Lajoie, Guy Wolf, Nicholas B. Turk-Browne, Smita Krishnaswamy(参考訳) 機能的磁気共鳴イメージング(fMRI)は、個人間の大きなばらつき、収集中の環境差による信号、測定解像度による時空間平均化が原因で、脳活動のノイズが多いことで知られている。 さらに、データは極めて高次元であり、活動の空間は典型的にはより低い内在次元を持つ。 興味の刺激と脳活動の関係を理解し、被験者間の差異や共通性を分析するためには、問題となるデータの有意義な埋め込みを学び、その本質的な構造を明らかにすることが重要である。 具体的には、ノイズは個人間で大きく異なるが、刺激に対する真の反応は、共同で発見できる被験者間で共通の低次元の特徴を共有すると仮定する。 同様の手法は以前にも利用されてきたが、主にPCAや共有応答モデリング(SRM)などの線形手法を用いている。 対照的に,mrmd-ae(manifold-re gularized multiple decoder, autoencoder)と呼ばれるニューラルネットワークを提案する。 学習した共通空間は拡張可能多様体(訓練中に新しい点をマッピングできる)を表し、知覚できない時間点の刺激特性の分類精度を向上させるとともに、fmri信号のクロスサブジェクト変換を改善する。 このフレームワークは、将来的にはbci(guided brain-computer interface)トレーニングなど、多くの下流アプリケーションで使用できると思います。

Functional magnetic resonance imaging (fMRI) is a notoriously noisy measurement of brain activity because of the large variations between individuals, signals marred by environmental differences during collection, and spatiotemporal averaging required by the measurement resolution. In addition, the data is extremely high dimensional, with the space of the activity typically having much lower intrinsic dimension. In order to understand the connection between stimuli of interest and brain activity, and analyze differences and commonalities between subjects, it becomes important to learn a meaningful embedding of the data that denoises, and reveals its intrinsic structure. Specifically, we assume that while noise varies significantly between individuals, true responses to stimuli will share common, low-dimensional features between subjects which are jointly discoverable. Similar approaches have been exploited previously but they have mainly used linear methods such as PCA and shared response modeling (SRM). In contrast, we propose a neural network called MRMD-AE (manifold-regularize d multiple decoder, autoencoder), that learns a common embedding from multiple subjects in an experiment while retaining the ability to decode to individual raw fMRI signals. We show that our learned common space represents an extensible manifold (where new points not seen during training can be mapped), improves the classification accuracy of stimulus features of unseen timepoints, as well as improves cross-subject translation of fMRI signals. We believe this framework can be used for many downstream applications such as guided brain-computer interface (BCI) training in the future.
翻訳日:2022-01-09 13:28:57 公開日:2021-12-22
# (参考訳) Alpha-Mini: 深層強化学習エージェント [全文訳有]

Alpha-Mini: Minichess Agent with Deep Reinforcement Learning ( http://arxiv.org/abs/2112.13666v1 )

ライセンス: CC BY 4.0
Michael Sun and Robert Tan(参考訳) ガードナー・ミニチェス(gardner minichess)は、5x5のボードでプレイされるチェスの小型版。 汎用的アドバンテージ推定を用いたソタ・アクタ-クリティック手法の近位政策最適化を動機付け,適用した。 最初の仕事は、エージェントをランダムなエージェントに対してトレーニングすることでした。 適切なパフォーマンスを得ると、AlphaGoが採用した反復ポリシーの改善版を採用して、エージェントをより強力なバージョンに落とし込み、その結果のパフォーマンス向上を評価します。 最終エージェントは、ランダムエージェントに対してほぼ(.97)完全勝利率を達成する。 また,自己再生によって得られる位置の集合を用いて,ネットワークの事前学習の効果についても検討する。

We train an agent to compete in the game of Gardner minichess, a downsized variation of chess played on a 5x5 board. We motivated and applied a SOTA actor-critic method Proximal Policy Optimization with Generalized Advantage Estimation. Our initial task centered around training the agent against a random agent. Once we obtained reasonable performance, we then adopted a version of iterative policy improvement adopted by AlphaGo to pit the agent against increasingly stronger versions of itself, and evaluate the resulting performance gain. The final agent achieves a near (.97) perfect win rate against a random agent. We also explore the effects of pretraining the network using a collection of positions obtained via self-play.
翻訳日:2022-01-02 09:33:47 公開日:2021-12-22
# (参考訳) 空軍地上車両の歴史的保守データに基づく故障リスクの予測 [全文訳有]

Predicting Breakdown Risk Based on Historical Maintenance Data for Air Force Ground Vehicles ( http://arxiv.org/abs/2112.13922v1 )

ライセンス: CC BY 4.0
Jeff Jang, Dilan Nana, Jack Hochschild, Jordi Vila Hernandez de Lorenzo(参考訳) 予定外のメンテナンスは、航空機のダウンタイムを長くし、空軍のロジスティック準備飛行隊(LRS)のコストを増大させた。 優先レベルに応じて、車両が予定された時間外に修理を必要とする場合、飛行隊全体の修理スケジュールは否定的に変更される。 これは、メンテナンス自体に費やされる人員時間の増加、部品が到着するのを待つこと、修理スケジュールの再編成に要する時間などを含む可能性がある。 LRSsの現在のメンテナンスシステムにおける主要な傾向は、現在経験している未スケジュールの修復の流入に対処するための予測的メンテナンスインフラがなく、その結果、彼らの準備とパフォーマンスのレベルが望ましくないことである。 我々は,国防財産会計システム (DPAS) から取得したデータを用いて,車両のメンテナンス情報を格納するために現在LRSが使用している。 dpasから受信した過去の車両メンテナンスデータを用いて、3つの異なるアルゴリズムを独立に適用し、メンテナンススケジュールを最適化する正確な予測システムを構築した。 Logistics Regression、Random Forest、Gradient Boosted Treesアルゴリズムの適用により、ロジスティック回帰アルゴリズムが我々のデータに適合し、最も正確な結果が得られることがわかった。 以上の結果から,ロジスティック回帰の継続は研究目的には慎重であるだけでなく,ロジスティック回帰モデルをより高精度に調整・最適化する機会があることが示唆された。

Unscheduled maintenance has contributed to longer downtime for vehicles and increased costs for Logistic Readiness Squadrons (LRSs) in the Air Force. When vehicles are in need of repair outside of their scheduled time, depending on their priority level, the entire squadron's slated repair schedule is transformed negatively. The repercussions of unscheduled maintenance are specifically seen in the increase of man hours required to maintain vehicles that should have been working well: this can include more man hours spent on maintenance itself, waiting for parts to arrive, hours spent re-organizing the repair schedule, and more. The dominant trend in the current maintenance system at LRSs is that they do not have predictive maintenance infrastructure to counteract the influx of unscheduled repairs they experience currently, and as a result, their readiness and performance levels are lower than desired. We use data pulled from the Defense Property and Accountability System (DPAS), that the LRSs currently use to store their vehicle maintenance information. Using historical vehicle maintenance data we receive from DPAS, we apply three different algorithms independently to construct an accurate predictive system to optimize maintenance schedules at any given time. Through the application of Logistics Regression, Random Forest, and Gradient Boosted Trees algorithms, we found that a Logistic Regression algorithm, fitted to our data, produced the most accurate results. Our findings indicate that not only would continuing the use of Logistic Regression be prudent for our research purposes, but that there is opportunity to further tune and optimize our Logistic Regression model for higher accuracy.
翻訳日:2022-01-02 09:10:26 公開日:2021-12-22
# エージェント・スミス:ジル・ワトソン氏の質問に答える

Agent Smith: Teaching Question Answering to Jill Watson ( http://arxiv.org/abs/2112.13677v1 )

ライセンス: Link先を確認
Ashok Goel, Harshvardhan Sikka, Eric Gregori(参考訳) AIエージェントの構築にはコストがかかる。 オンライン授業の議論フォーラムにおける学生の質問を自動的に答えるジル・ワトソンなどの質問応答エージェントを,シラビなどの教材に基づいて検討する。 新しいオンラインクラスのシラバスでジルをトレーニングするには、100時間以上かかる可能性がある。 機械学習 – 合成データセットを使用したAIエージェントのインタラクティブな教育 – は、知識ベースのAIの利点、大規模なデータセットを使用した機械学習、インタラクティブなヒューマン・イン・ループトレーニングを組み合わせたトレーニング時間を短縮することができる。 本稿では,新しいオンライン授業のためのジルの訓練に要する時間を1桁削減する対話型機械教示エージェントである smith について述べる。

Building AI agents can be costly. Consider a question answering agent such as Jill Watson that automatically answers students' questions on the discussion forums of online classes based on their syllabi and other course materials. Training a Jill on the syllabus of a new online class can take a hundred hours or more. Machine teaching - interactive teaching of an AI agent using synthetic data sets - can reduce the training time because it combines the advantages of knowledge-based AI, machine learning using large data sets, and interactive human-in-loop training. We describe Agent Smith, an interactive machine teaching agent that reduces the time taken to train a Jill for a new online class by an order of magnitude.
翻訳日:2022-01-02 08:17:41 公開日:2021-12-22
# (参考訳) IoTネットワークにおけるIoTデバイスのログから学習する協調的敵ノード [全文訳有]

Collaborative adversary nodes learning on the logs of IoT devices in an IoT network ( http://arxiv.org/abs/2112.12546v1 )

ライセンス: CC BY 4.0
Sandhya Aneja, Melanie Ang Xuan En, Nagender Aneja(参考訳) AI(AI)開発は、AI対応IoT(Internet of Things)ネットワークを含む多くの新しい研究領域を奨励している。 AI分析とインテリジェントパラダイムは、学習効率と精度を大幅に向上させる。 これらの学習パラダイムをネットワークシナリオに適用することは、新しいネットワークソリューションの技術的アドバンテージを提供する。 本稿では,データの観点からIoTセキュリティの改善手法を提案する。 IoTデバイスのネットワークトラフィックは、AI技術を使って分析することができる。 Recurrent Neural Network (RNN) を用いて,ネットワークトラフィックにおけるネットワークイベントのシーケンスに対する注意機構を備えたAdLIoTLogモデルを提案する。 ネットワークイベントを,ログにキャプチャされたプロトコルの時系列パケットのシーケンスとして定義する。 我々は,ネットワークログにTCPパケット,UDPパケット,HTTPパケットの異なるパケットを考慮し,アルゴリズムを堅牢化している。 分散IoTデバイスは、インターネット・オブ・インテリジェンス(Internet of Intelligence)に拡張する私たちの世界を破壊します。 時系列パケットはノイズを除去しタイムスタンプを追加することにより構造化データに変換する。 得られたデータセットはRNNによってトレーニングされ、互いに協調するノードペアを検出することができる。 BLEUスコアを用いてモデル性能を評価した。 その結果,本手法でトレーニングしたAdLIoTLogモデルの予測性能は,ネットワークが攻撃を受けていない場合と比較して,攻撃の有無で3~4%低下することがわかった。 AdLIoTLogは、敵が存在する場合、モデルがコラボレーティブイベントによってダッピングされるため、良心的なイベントではなく、バイアスのあるイベントで次のイベントを予測することができる。 我々は、AIが新しい世代のモノのインターネットにユビキタスな学習を提供することができると結論付けた。

Artificial Intelligence (AI) development has encouraged many new research areas, including AI-enabled Internet of Things (IoT) network. AI analytics and intelligent paradigms greatly improve learning efficiency and accuracy. Applying these learning paradigms to network scenarios provide technical advantages of new networking solutions. In this paper, we propose an improved approach for IoT security from data perspective. The network traffic of IoT devices can be analyzed using AI techniques. The Adversary Learning (AdLIoTLog) model is proposed using Recurrent Neural Network (RNN) with attention mechanism on sequences of network events in the network traffic. We define network events as a sequence of the time series packets of protocols captured in the log. We have considered different packets TCP packets, UDP packets, and HTTP packets in the network log to make the algorithm robust. The distributed IoT devices can collaborate to cripple our world which is extending to Internet of Intelligence. The time series packets are converted into structured data by removing noise and adding timestamps. The resulting data set is trained by RNN and can detect the node pairs collaborating with each other. We used the BLEU score to evaluate the model performance. Our results show that the predicting performance of the AdLIoTLog model trained by our method degrades by 3-4% in the presence of attack in comparison to the scenario when the network is not under attack. AdLIoTLog can detect adversaries because when adversaries are present the model gets duped by the collaborative events and therefore predicts the next event with a biased event rather than a benign event. We conclude that AI can provision ubiquitous learning for the new generation of Internet of Things.
翻訳日:2021-12-25 05:38:26 公開日:2021-12-22
# (参考訳) 低軌道を超えて:生物研究、人工知能、自動運転研究所 [全文訳有]

Beyond Low Earth Orbit: Biological Research, Artificial Intelligence, and Self-Driving Labs ( http://arxiv.org/abs/2112.12582v1 )

ライセンス: CC BY 4.0
Lauren M. Sanders (1), Jason H. Yang (2), Ryan T. Scott (3), Amina Ann Qutub (4), Hector Garcia Martin (5 and 6 and 7), Daniel C. Berrios (3), Jaden J.A. Hastings (8), Jon Rask (9), Graham Mackintosh (10), Adrienne L. Hoarfrost (11), Stuart Chalk (12), John Kalantari (13), Kia Khezeli (13), Erik L. Antonsen (14), Joel Babdor (15), Richard Barker (16), Sergio E. Baranzini (17), Afshin Beheshti (3), Guillermo M. Delgado-Aparicio (18), Benjamin S. Glicksberg (19), Casey S. Greene (20), Melissa Haendel (21), Arif A. Hamid (22), Philip Heller (23), Daniel Jamieson (24), Katelyn J. Jarvis (25), Svetlana V. Komarova (26), Matthieu Komorowski (27), Prachi Kothiyal (28), Ashish Mahabal (29), Uri Manor (30), Christopher E. Mason (8), Mona Matar (31), George I. Mias (32), Jack Miller (3), Jerry G. Myers Jr. (31), Charlotte Nelson (17), Jonathan Oribello (1), Seung-min Park (33), Patricia Parsons-Wingerter (34), R. K. Prabhu (35), Robert J. Reynolds (36), Amanda Saravia-Butler (37), Suchi Saria (38 and 39), Aenor Sawyer (24), Nitin Kumar Singh (40), Frank Soboczenski (41), Michael Snyder (42), Karthik Soman (17), Corey A. Theriot (43 and 44), David Van Valen (45), Kasthuri Venkateswaran (40), Liz Warren (46), Liz Worthey (47), Marinka Zitnik (48), Sylvain V. Costes (49) ((1) Blue Marble Space Institute of Science, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (2) Center for Emerging and Re-Emerging Pathogens, Department of Microbiology, Biochemistry and Molecular Genetics, Rutgers New Jersey Medical School, Newark, NJ, USA., (3) KBR, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (4) AI MATRIX Consortium, Department of Biomedical Engineering, University of Texas, San Antonio and UT Health Sciences, San Antonio, TX, USA., (5) Biological Systems and Engineering Division, Lawrence Berkeley National Lab, Berkeley, CA, USA., (6) DOE Agile BioFoundry, Emeryville, CA, USA., (7) Joint BioEnergy Institute, Emeryville, CA, USA., (8) Department of Physiology and Biophysics, Weill Cornell Medicine, New York, NY, USA., (9) Office of the Center Director, NASA Ames Research Center, Moffett Field, CA, USA., (10) Bay Area Environmental Research Institute, NASA Ames Research Center, Moffett Field, CA, USA., (11) Universities Space Research Association (USRA), Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (12) Department of Chemistry, University of North Florida, Jacksonville, FL, USA., (13) Center for Individualized Medicine, Department of Surgery, Department of Quantitative Health Sciences, Mayo Clinic, Rochester, MN, USA., (14) Department of Emergency Medicine, Center for Space Medicine, Baylor College of Medicine, Houston, TX, USA., (15) Department of Microbiology and Immunology, Department of Otolaryngology, Head and Neck Surgery, University of California San Francisco, San Francisco, CA, USA., (16) The Gilroy AstroBiology Research Group, The University of Wisconsin - Madison, Madison, WI, USA., (17) Weill Institute for Neurosciences, Department of Neurology, University of California San Francisco, San Francisco, CA, USA., (18) Data Science Analytics, Georgia Institute of Technology, Lima, Peru, (19) Hasso Plattner Institute for Digital Health at Mount Sinai, Department of Genetics and Genomic Sciences, Icahn School of Medicine at Mount Sinai, New York, NY, USA., (20) Center for Health AI, Department of Biochemistry and Molecular Genetics, University of Colorado School of Medicine, Anschutz Medical Campus, Aurora, CO, USA., (21) Center for Health AI, University of Colorado School of Medicine, Anschutz Medical Campus, Aurora, CO, USA., (22) Department of Neuroscience, University of Minnesota, Minneapolis, MN, USA., (23) Department of Computer Science, College of Science, San Jos\'e State University, San Jose, CA, USA., (24) Biorelate, Manchester, United Kingdom., (25) UC Space Health, Department of Orthopaedic Surgery, University of California, San Francisco, San Francisco, CA, USA., (26) Faculty of Dental Medicine and Oral Health Sciences, McGill University, Montreal, Quebec, Canada., (27) Faculty of Medicine, Dept of Surgery and Cancer, Imperial College London, London, United Kingdom., (28) SymbioSeq LLC, NASA Johnson Space Center, Ashburn, VA, USA., (29) Center for Data Driven Discovery, California Institute of Technology, Pasadena, CA, USA., (30) Waitt Advanced Biophotonics Center, Chan-Zuckerberg Imaging Scientist Fellow, Salk Institute for Biological Studies, La Jolla, CA, USA., (31) Human Research Program Cross Cutting Computational Modeling Project, NASA John H. Glenn Research Center, Cleveland, OH, USA., (32) Institute for Quantitative Health Science and Engineering, Department of Biochemistry and Molecular Biology, Michigan State University, East Lansing, MI, USA., (33) Department of Urology, Department of Radiology, Stanford University School of Medicine, Stanford, CA, USA., (34) Low Exploration Gravity Technology, NASA John H. Glenn Research Center, Cleveland, OH, USA., (35) Universities Space Research Association (USRA), Human Research Program Cross-cutting Computational Modeling Project, NASA John H. Glenn Research Center, Cleveland, OH, USA., (36) Mortality Research & Consulting, Inc., Houston, TX, USA., (37) Logyx, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (38) Computer Science, Statistics, and Health Policy, Johns Hopkins University, Baltimore, MD, USA., (39) ML, AI and Healthcare Lab, Bayesian Health, New York, NY, USA., (40) Biotechnology and Planetary Protection Group, Jet Propulsion Laboratory, Pasadena, CA, USA., (41) SPHES, Medical Faculty, King's College London, London, United Kingdom., (42) Department of Genetics, Stanford School of Medicine, Stanford, CA USA., (43) Department of Preventive Medicine and Community Health, UTMB, Galveston, TX USA., (44) Human Health and Performance Directorate, NASA Johnson Space Center, Houston, TX, USA., (45) Department of Biology, California Institute of Technology, Pasadena, CA, USA., (46) ISS National Laboratory, Center for the Advancement of Science in Space, Melbourne, FL, USA., (47) UAB Center for Computational Biology and Data Science, University of Alabama, Birmingham, Birmingham, AL, USA., (48) Department of Biomedical Informatics, Harvard Medical School, Harvard Data Science, Broad Institute of MIT and Harvard, Harvard University, Boston, MA, USA., (49) Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA.)(参考訳) 宇宙生物学の研究は、生物に対する宇宙飛行の基本的な影響を理解し、深宇宙探査を支援する基礎知識を開発し、究極的には、植物、作物、微生物、動物、人類の生態系を安定させ、多惑星生命を維持することを目的としている。 これらの目的を進めるため、この分野は宇宙と地上の両方の研究から実験、プラットフォーム、データ、およびモデル生物を活用する。 研究は低軌道を超えて拡張されるため、実験とプラットフォームは、知識発見を迅速化するために、最大限の自律性、軽量、アジャイル、インテリジェントでなければならない。 ここでは、米国航空宇宙局(national aeronautics and space administration on artificial intelligence, machine learning, and modeling applications)が主催するワークショップにおいて、これらの宇宙生物学の課題に対する重要な解決策を提供するための推奨事項の概要を紹介する。 次の10年間で、人工知能の宇宙生物学分野への統合は、宇宙飛行効果の生物学的理解を深め、予測モデリングと分析を促進し、最大限に自律的かつ再現可能な実験をサポートし、宇宙データとメタデータを効率的に管理する。

Space biology research aims to understand fundamental effects of spaceflight on organisms, develop foundational knowledge to support deep space exploration, and ultimately bioengineer spacecraft and habitats to stabilize the ecosystem of plants, crops, microbes, animals, and humans for sustained multi-planetary life. To advance these aims, the field leverages experiments, platforms, data, and model organisms from both spaceborne and ground-analog studies. As research is extended beyond low Earth orbit, experiments and platforms must be maximally autonomous, light, agile, and intelligent to expedite knowledge discovery. Here we present a summary of recommendations from a workshop organized by the National Aeronautics and Space Administration on artificial intelligence, machine learning, and modeling applications which offer key solutions toward these space biology challenges. In the next decade, the synthesis of artificial intelligence into the field of space biology will deepen the biological understanding of spaceflight effects, facilitate predictive modeling and analytics, support maximally autonomous and reproducible experiments, and efficiently manage spaceborne data and metadata, all with the goal to enable life to thrive in deep space.
翻訳日:2021-12-25 05:28:59 公開日:2021-12-22
# (参考訳) 低地球軌道を超える:バイオモニタリング、人工知能、精密宇宙衛生

Beyond Low Earth Orbit: Biomonitoring, Artificial Intelligence, and Precision Space Health ( http://arxiv.org/abs/2112.12554v1 )

ライセンス: CC BY 4.0
Ryan T. Scott (1), Erik L. Antonsen (2), Lauren M. Sanders (3), Jaden J.A. Hastings (4), Seung-min Park (5), Graham Mackintosh (6), Robert J. Reynolds (7), Adrienne L. Hoarfrost (8), Aenor Sawyer (9), Casey S. Greene (10), Benjamin S. Glicksberg (11), Corey A. Theriot (12 and 13), Daniel C. Berrios (1), Jack Miller (1), Joel Babdor (14), Richard Barker (15), Sergio E. Baranzini (16), Afshin Beheshti (1), Stuart Chalk (17), Guillermo M. Delgado-Aparicio (18), Melissa Haendel (19), Arif A. Hamid (20), Philip Heller (21), Daniel Jamieson (22), Katelyn J. Jarvis (9), John Kalantari (23), Kia Khezeli (23), Svetlana V. Komarova (24), Matthieu Komorowski (25), Prachi Kothiyal (26), Ashish Mahabal (27), Uri Manor (28), Hector Garcia Martin (29 and 30 and 31), Christopher E. Mason (4), Mona Matar (32), George I. Mias (33), Jerry G. Myers, Jr. (32), Charlotte Nelson (16), Jonathan Oribello (3), Patricia Parsons-Wingerter (34), R. K. Prabhu (35), Amina Ann Qutub (36), Jon Rask (37), Amanda Saravia-Butler (38), Suchi Saria (39 and 40), Nitin Kumar Singh (41), Frank Soboczenski (42), Michael Snyder (43), Karthik Soman (16), David Van Valen (44), Kasthuri Venkateswaran (41), Liz Warren (45), Liz Worthey (46), Jason H. Yang (47), Marinka Zitnik (48), Sylvain V. Costes (49) ((1) KBR, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (2) Department of Emergency Medicine, Center for Space Medicine, Baylor College of Medicine, Houston, TX, USA., (3) Blue Marble Space Institute of Science, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (4) Department of Physiology and Biophysics, Weill Cornell Medicine, New York, NY, USA., (5) Department of Urology, Department of Radiology, Stanford University School of Medicine, Stanford, CA, USA., (6) Bay Area Environmental Research Institute, NASA Ames Research Center, Moffett Field, CA, USA., (7) Mortality Research & Consulting, Inc., Houston, TX, USA., (8) Universities Space Research Association (USRA), Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (9) UC Space Health, Department of Orthopaedic Surgery, University of California, San Francisco, San Francisco, CA, USA., (10) Center for Health AI, Department of Biochemistry and Molecular Genetics, University of Colorado School of Medicine, Anschutz Medical Campus, Aurora, CO, USA., (11) Hasso Plattner Institute for Digital Health at Mount Sinai, Department of Genetics and Genomic Sciences, Icahn School of Medicine at Mount Sinai, New York, NY, USA., (12) Department of Preventive Medicine and Community Health, UTMB, Galveston, TX, USA., (13) Human Health and Performance Directorate, NASA Johnson Space Center, Houston, TX, USA., (14) Department of Microbiology and Immunology, Department of Otolaryngology, Head and Neck Surgery, University of California San Francisco, San Francisco, CA, USA., (15) The Gilroy AstroBiology Research Group, The University of Wisconsin, Madison, Madison, WI, USA., (16) Weill Institute for Neurosciences, Department of Neurology, University of California San Francisco, San Francisco, CA, USA., (17) Department of Chemistry, University of North Florida, Jacksonville, FL, USA., (18) Data Science Analytics, Georgia Institute of Technology, Lima, Peru., (19) Center for Health AI, University of Colorado School of Medicine, Anschutz Medical Campus, Aurora, CO, USA., (20) Department of Neuroscience, University of Minnesota, Minneapolis, MN, USA., (21) Department of Computer Science, College of Science, San Jos\'e State University, San Jose, CA, USA., (22) Biorelate, Manchester, United Kingdom., (23) Center for Individualized Medicine, Department of Surgery, Department of Quantitative Health Sciences, Mayo Clinic, Rochester, MN, USA., (24) Faculty of Dental Medicine and Oral Health Sciences, McGill University, Montreal, Quebec, Canada., (25) Faculty of Medicine, Department of Surgery and Cancer, Imperial College London, London, United Kingdom., (26) SymbioSeq LLC, NASA Johnson Space Center, Ashburn, VA, USA., (27) Center for Data Driven Discovery, California Institute of Technology, Pasadena, CA, USA., (28) Waitt Advanced Biophotonics Center, Chan-Zuckerberg Imaging Scientist Fellow, Salk Institute for Biological Studies, La Jolla, CA, USA., (29) Biological Systems and Engineering Division, Lawrence Berkeley National Lab, Berkeley, CA, USA., (30) DOE Agile BioFoundry, Emeryville, CA, USA., (31) Joint BioEnergy Institute, Emeryville, CA, USA., (32) Human Research Program Cross-cutting Computational Modeling Project, NASA John H. Glenn Research Center, Cleveland, OH, USA., (33) Institute for Quantitative Health Science and Engineering, Department of Biochemistry and Molecular Biology, Michigan State University, East Lansing, MI, USA., (34) Low Exploration Gravity Technology, NASA John H. Glenn Research Center, Cleveland, OH, USA., (35) Universities Space Research Association (USRA), Human Research Program Cross-cutting Computational Modeling Project, NASA John H. Glenn Research Center, Cleveland, OH, USA., (36) AI MATRIX Consortium, Department of Biomedical Engineering, University of Texas, San Antonio and UT Health Sciences, San Antonio, TX, USA., (37) Office of the Center Director, NASA Ames Research Center, Moffett Field, CA, USA., (38) Logyx, Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA., (39) Computer Science, Statistics, and Health Policy, Johns Hopkins University, Baltimore, MD, USA., (40) ML, AI and Healthcare Lab, Bayesian Health, New York, NY, USA., (41) Biotechnology and Planetary Protection Group, Jet Propulsion Laboratory, Pasadena, CA, USA., (42) SPHES, Medical Faculty, King's College London, London, United Kingdom., (43) Department of Genetics, Stanford School of Medicine, Stanford, CA, USA., (44) Department of Biology, California Institute of Technology, Pasadena, CA, USA., (45) ISS National Laboratory, Center for the Advancement of Science in Space, Melbourne, FL, USA., (46) UAB Center for Computational Biology and Data Science, University of Alabama, Birmingham, Birmingham, AL, USA., (47) Center for Emerging and Re-Emerging Pathogens, Department of Microbiology, Biochemistry and Molecular Genetics, Rutgers New Jersey Medical School, Newark, NJ, USA., (48) Department of Biomedical Informatics, Harvard Medical School, Harvard Data Science, Broad Institute of MIT and Harvard, Harvard University, Boston, MA, USA., (49) Space Biosciences Division, NASA Ames Research Center, Moffett Field, CA, USA.)(参考訳) 低軌道を超える人類の宇宙探査には、かなりの距離と期間のミッションが伴う。 宇宙の健康リスクを効果的に軽減するためには、データと宇宙の健康システムにおけるパラダイムシフトが地球依存ではなく地球依存を可能にするために必要である。 人工知能と生物学と健康のための機械学習の分野における発展の促進は、これらのニーズに対処できる。 バイオメディカル状態の監視、集計、評価、パーソナライズされた有害な健康結果の分析と予測、新たに蓄積されたデータへの適応と対応、そして個々の深宇宙乗組員に対する予防的、行動可能、タイムリーな洞察、そして乗組員の医療士官への反復的な決定支援を提供する、適切に自律的でインテリジェントな宇宙医療システムを提案する。 本稿では,米国航空宇宙局が主催する,宇宙生物学と健康における人工知能の今後の応用に関するワークショップからの提案について概説する。 今後10年で、バイオモニター技術、バイオマーカー科学、宇宙船ハードウェア、インテリジェントソフトウェア、そして合理化されたデータ管理が成熟し、人類が深宇宙で育つための精密宇宙健康システムに織り込まれなければならない。

Human space exploration beyond low Earth orbit will involve missions of significant distance and duration. To effectively mitigate myriad space health hazards, paradigm shifts in data and space health systems are necessary to enable Earth-independence, rather than Earth-reliance. Promising developments in the fields of artificial intelligence and machine learning for biology and health can address these needs. We propose an appropriately autonomous and intelligent Precision Space Health system that will monitor, aggregate, and assess biomedical statuses; analyze and predict personalized adverse health outcomes; adapt and respond to newly accumulated data; and provide preventive, actionable, and timely insights to individual deep space crew members and iterative decision support to their crew medical officer. Here we present a summary of recommendations from a workshop organized by the National Aeronautics and Space Administration, on future applications of artificial intelligence in space biology and health. In the next decade, biomonitoring technology, biomarker science, spacecraft hardware, intelligent software, and streamlined data management must mature and be woven together into a Precision Space Health system to enable humanity to thrive in deep space.
翻訳日:2021-12-25 05:05:20 公開日:2021-12-22
# (参考訳) 光グラフデジタル表面モデルによる河面標高推定のためのニューロ進化深層学習アーキテクチャ [全文訳有]

Neuroevolution deep learning architecture search for estimation of river surface elevation from photogrammetric Digital Surface Models ( http://arxiv.org/abs/2112.12510v1 )

ライセンス: CC BY 4.0
Rados{\l}aw Szostak, Marcin Pietro\'n, Miros{\l}aw Zimnoch, Przemys{\l}aw Wachniew, Pawe{\l} \'Cwi\k{a}ka{\l}a, Edyta Puniach(参考訳) 新しい表面水観測法の開発は、地球温暖化や水需要の増加に関連する水文学的事象の頻繁化の観点から重要である。 uavフォトグラメトリーによって得られたオルソ写真とデジタル表面モデル(dsms)は、川の水面高度(wse)を決定するのに使うことができる。 しかし、この課題は、光グラム法アルゴリズムの限界によるDSM上の水面の乱れにより困難である。 本研究では,乱れたフォトグラムデータからwse値を抽出するために機械学習を用いた。 この目的のために、水文学とフォトグラムメトリーの専門家によって、新しいデータセットが作られた。 新たな手法は,高空間分解能と時間分解能で水面レベル測定を自動化するための重要なステップである。 このようなデータは、特に洪水や干ばつのような極端で危険な事象を予測し、より正確な水文、水文、流体力学モデルの検証と校正に利用することができる。 私たちの知る限り、これはこの目的のためにデータセットを作成し、このタスクにディープラーニングモデルを使用した最初のアプローチです。 さらに、局所最適モデルを見つけるために異なるアーキテクチャを探索するために神経進化アルゴリズムが設定され、モデルパラメータを微調整するために非段階探索が行われた。 得られた結果は、フォトグラムDSMからWSEを決定する手作業よりも精度がよい。

Development of the new methods of surface water observation is crucial in the perspective of increasingly frequent extreme hydrological events related to global warming and increasing demand for water. Orthophotos and digital surface models (DSMs) obtained using UAV photogrammetry can be used to determine the Water Surface Elevation (WSE) of a river. However, this task is difficult due to disturbances of the water surface on DSMs caused by limitations of photogrammetric algorithms. In this study, machine learning was used to extract a WSE value from disturbed photogrammetric data. A brand new dataset has been prepared specifically for this purpose by hydrology and photogrammetry experts. The new method is an important step toward automating water surface level measurements with high spatial and temporal resolution. Such data can be used to validate and calibrate of hydrological, hydraulic and hydrodynamic models making hydrological forecasts more accurate, in particular predicting extreme and dangerous events such as floods or droughts. For our knowledge this is the first approach in which dataset was created for this purpose and deep learning models were used for this task. Additionally, neuroevolution algorithm was set to explore different architectures to find local optimal models and non-gradient search was performed to fine-tune the model parameters. The achieved results have better accuracy compared to manual methods of determining WSE from photogrammetric DSMs.
翻訳日:2021-12-25 05:04:05 公開日:2021-12-22
# (参考訳) 変分オートエンコーダを用いた温室効果ガス感受性のエミュレーション [全文訳有]

Emulation of greenhouse-gas sensitivities using variational autoencoders ( http://arxiv.org/abs/2112.12524v1 )

ライセンス: CC BY 4.0
Laura Cartwright, Andrew Zammit-Mangion, and Nicholas M. Deutscher(参考訳) フラックスインバージョン(英: Flux inversion)は、ガスモル分率の観測からガスの源とシンクを特定する過程である。 インバージョンはしばしば、空間的関心領域上で観測とフラックスの間の感度を生み出すためにラグランジュ粒子分散モデル(LPDM)を実行する。 LPDMは全てのガス測定に間に合うように逆向きに実行されなければならない。 そこで我々は,畳み込み変分オートエンコーダ(CVAE)を用いて構築したLPDM感性のための新しい時空間エミュレータを開発した。 CVAEのエンコーダセグメントを用いて、低次元空間における潜伏変数上の近似(変分)後方分布を求める。 次に,低次元空間上の時空間ガウス過程エミュレータを用いて,予測位置と時刻の新しい変数をエミュレートする。 エミュレートされた変数はCVAEのデコーダセグメントを通過し、エミュレートされた感度を得る。 cvaeベースのエミュレータは,経験的直交関数を用いた従来型エミュレータよりも優れており,異なるlpdmで使用することができる。 このエミュレーションに基づく手法は,高分解能フラックスインバージョンにおいてLPDM出力を生成するのに必要な計算時間を確実に削減することができる。

Flux inversion is the process by which sources and sinks of a gas are identified from observations of gas mole fraction. The inversion often involves running a Lagrangian particle dispersion model (LPDM) to generate sensitivities between observations and fluxes over a spatial domain of interest. The LPDM must be run backward in time for every gas measurement, and this can be computationally prohibitive. To address this problem, here we develop a novel spatio-temporal emulator for LPDM sensitivities that is built using a convolutional variational autoencoder (CVAE). With the encoder segment of the CVAE, we obtain approximate (variational) posterior distributions over latent variables in a low-dimensional space. We then use a spatio-temporal Gaussian process emulator on the low-dimensional space to emulate new variables at prediction locations and time points. Emulated variables are then passed through the decoder segment of the CVAE to yield emulated sensitivities. We show that our CVAE-based emulator outperforms the more traditional emulator built using empirical orthogonal functions and that it can be used with different LPDMs. We conclude that our emulation-based approach can be used to reliably reduce the computing time needed to generate LPDM outputs for use in high-resolution flux inversions.
翻訳日:2021-12-25 04:53:35 公開日:2021-12-22
# (参考訳) NVS-MonoDepth:新しいビュー合成による単分子深さ予測の改善 [全文訳有]

NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis ( http://arxiv.org/abs/2112.12577v1 )

ライセンス: CC BY 4.0
Zuria Bauer and Zuoyue Li and Sergio Orts-Escolano and Miguel Cazorla and Marc Pollefeys and Martin R. Oswald(参考訳) 近年の新規なビュー合成の進歩を基盤として,単分子深度推定の改良手法を提案する。 特に,3つのステップに分かれた新しいトレーニング手法を提案する。 まず、単眼深度ネットワークの予測結果を追加の視点にワープする。 次に,ワープされたRGB画像の品質を補正し,改善する画像合成ネットワークを提案する。 このネットワークの出力は、画素単位のRGB再構成誤差を最小限に抑えることにより、地平線ビューと可能な限り類似している必要がある。 第3に、合成された第2の視点に同じ単分子深度推定を適用し、深度予測が関連する基底真理深度と一致していることを保証する。 実験により,KITTIおよびNYU-Depth-v2データセット上で,軽量でシンプルなVanilla U-Netアーキテクチャを用いて,最先端ないし同等の性能を実現することを確認した。

Building upon the recent progress in novel view synthesis, we propose its application to improve monocular depth estimation. In particular, we propose a novel training method split in three main steps. First, the prediction results of a monocular depth network are warped to an additional view point. Second, we apply an additional image synthesis network, which corrects and improves the quality of the warped RGB image. The output of this network is required to look as similar as possible to the ground-truth view by minimizing the pixel-wise RGB reconstruction error. Third, we reapply the same monocular depth estimation onto the synthesized second view point and ensure that the depth predictions are consistent with the associated ground truth depth. Experimental results prove that our method achieves state-of-the-art or comparable performance on the KITTI and NYU-Depth-v2 datasets with a lightweight and simple vanilla U-Net architecture.
翻訳日:2021-12-25 04:26:08 公開日:2021-12-22
# (参考訳) 合併木のユニバーサル$\ell^p$-メトリック [全文訳有]

The Universal $\ell^p$-Metric on Merge Trees ( http://arxiv.org/abs/2112.12165v1 )

ライセンス: CC BY 4.0
Robert Cardona, Justin Curry, Tung Lam, Michael Lesnick(参考訳) bjerkevik と lesnick の定義をマルチパラメータの永続化モジュールに適用し、マージツリー上のインターリービング距離の $\ell^p$-type 拡張を導入する。 我々の距離は計量であり、関連するバーコード間の$p$-ワッサーシュタイン距離を上界にしていることを示す。 それぞれの$p\in[1,\infty]$に対して、この距離はセル下層濾過に関して安定であり、この安定性特性を満たす普遍的(すなわち最大の)距離であることを示す。 p =infty$ の場合、これはマージ木上のインターリーブ距離に対する普遍性の新たな証明を与える。

Adapting a definition given by Bjerkevik and Lesnick for multiparameter persistence modules, we introduce an $\ell^p$-type extension of the interleaving distance on merge trees. We show that our distance is a metric, and that it upper-bounds the $p$-Wasserstein distance between the associated barcodes. For each $p\in[1,\infty]$, we prove that this distance is stable with respect to cellular sublevel filtrations and that it is the universal (i.e., largest) distance satisfying this stability property. In the $p=\infty$ case, this gives a novel proof of universality for the interleaving distance on merge trees.
翻訳日:2021-12-25 04:00:37 公開日:2021-12-22
# (参考訳) クロスアテンショントランスフォーマーとビヘイビアエンコーディングを用いたマルチモーダルパーソナリティ認識 [全文訳有]

Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding ( http://arxiv.org/abs/2112.12180v1 )

ライセンス: CC BY 4.0
Tanay Agrawal, Dhruv Agarwal, Michal Balazia, Neelabh Sinha, Francois Bremond(参考訳) パーソナリティコンピューティングと感情コンピューティングは多くの研究領域で近年関心を集めている。 タスクのデータセットは一般的に、ビデオ、オーディオ、言語、バイオシグナルなどの複数のモードを持つ。 本稿では,利用可能なデータをすべて活用したフレキシブルなタスクモデルを提案する。 この課題は複雑な関係を伴い、特にビデオ処理に大規模なモデルを用いることを避けるために、モデルの変更を最小限に抑えて性能を高める行動符号化法を提案する。 近年,変圧器を用いたクロスアテンションが普及し,様々なモダリティの融合に利用されている。 長期関係が存在する可能性があるため、入力をチャンクに分割することは望ましいものではなく、提案したモデルが入力全体を一緒に処理する。 以上の各貢献の重要性を示す実験を行った。

Personality computing and affective computing have gained recent interest in many research areas. The datasets for the task generally have multiple modalities like video, audio, language and bio-signals. In this paper, we propose a flexible model for the task which exploits all available data. The task involves complex relations and to avoid using a large model for video processing specifically, we propose the use of behaviour encoding which boosts performance with minimal change to the model. Cross-attention using transformers has become popular in recent times and is utilised for fusion of different modalities. Since long term relations may exist, breaking the input into chunks is not desirable, thus the proposed model processes the entire input together. Our experiments show the importance of each of the above contributions
翻訳日:2021-12-25 03:40:07 公開日:2021-12-22
# (参考訳) 外部・秋の2次元キーポイント検出の改善 -入力回転と運動モデルの組み合わせ- [全文訳有]

Improved 2D Keypoint Detection in Out-of-Balance and Fall Situations -- combining input rotations and a kinematic model ( http://arxiv.org/abs/2112.12193v1 )

ライセンス: CC BY 4.0
Michael Zw\"olfer and Dieter Heinrich and Kurt Schindelwig and Bastian Wandt and Helge Rhodin and Joerg Spoerri and Werner Nachbauer(参考訳) 損傷解析は、深層学習に基づく人間のポーズ推定の最も有益な応用の1つである。 この話題のさらなる研究を容易にするため、全533枚の画像をカバーするアルペンスキー用2Dデータセットを提供する。 さらに,回転情報と単純な運動モデルを組み合わせたポスト処理ルーチンを提案する。 我々は,PCK@0.2測定値に関して,秋の状況における検出結果を最大21%改善することができる。

Injury analysis may be one of the most beneficial applications of deep learning based human pose estimation. To facilitate further research on this topic, we provide an injury specific 2D dataset for alpine skiing, covering in total 533 images. We further propose a post processing routine, that combines rotational information with a simple kinematic model. We could improve detection results in fall situations by up to 21% regarding the PCK@0.2 metric.
翻訳日:2021-12-25 03:24:45 公開日:2021-12-22
# (参考訳) 関数的負荷の進化とトレードオフダイナミクス [全文訳有]

Evolution and trade-off dynamics of functional load ( http://arxiv.org/abs/2112.12224v1 )

ライセンス: CC BY 4.0
Erich Round and Rikker Dockum and Robin J. Ryder(参考訳) 関数負荷(FL)は、レキシコンを横断する区別に対する音韻学的コントラストによる寄与を定量化する。 従来の研究は、FLの特に低い値と音の変化を結びつけてきた。 ここでは,問合せの範囲をflに拡大し,その進化をあらゆる価値に広げる。 オーストラリア・パマ・ニュンガン族(PN)の90言語にまたがるFLの経時的進化を調べるために系統学的手法を適用した。 FLの系統信号は高い値を示した。 音韻学などの音韻構造については系統的信号が報告されているが、音韻機能の測定における検出は新鮮である。 また、母音長のFLと後続の子音との有意な負の相関関係、すなわち、現代のPN言語における既知のアロフォニーと、その過去の補償音の変化を関連づける深い時間的歴史的トレードオフダイナミクスを見出した。 この発見は、音韻のサブシステム間のコントラスト性の流れを特徴付けるトランスフォノロマイゼーションと類似した歴史的なダイナミクスを明らかにする。 大陸全体と数千年に及ぶ時間深度にまたがる言語族にまたがって、我々の発見は、歴史的に関連のある言語で偶然に平行な開発を行う、サピルの「ドリフト」仮説の最も魅力的な例の1つである。

Function Load (FL) quantifies the contributions by phonological contrasts to distinctions made across the lexicon. Previous research has linked particularly low values of FL to sound change. Here we broaden the scope of enquiry into FL, to its evolution at all values. We apply phylogenetic methods to examine the diachronic evolution of FL across 90 languages of the Pama-Nyungan (PN) family of Australia. We find a high degree of phylogenetic signal in FL. Though phylogenetic signal has been reported for phonological structures, such as phonotactics, its detection in measures of phonological function is novel. We also find a significant, negative correlation between the FL of vowel length and of the following consonant, that is, a deep-time historical trade-off dynamic, which we relate to known allophony in modern PN languages and compensatory sound changes in their past. The finding reveals a historical dynamic, similar to transphonologization , which we characterize as a flow of contrastiveness between subsystems of the phonology. Recurring across a language family which spans a whole continent and many millennia of time depth, our finding provides one of the most compelling examples yet of Sapir's 'drift' hypothesis, of non-accidentally parallel development in historically related languages.
翻訳日:2021-12-25 03:18:25 公開日:2021-12-22
# (参考訳) 無人航空機の物体検出における合成データの利用 [全文訳有]

Leveraging Synthetic Data in Object Detection on Unmanned Aerial Vehicles ( http://arxiv.org/abs/2112.12252v1 )

ライセンス: CC BY 4.0
Benjamin Kiefer, David Ott, Andreas Zell(参考訳) 無人航空機(UAV)の深層学習に基づく物体検出装置(deep learning-based object detectors)を訓練するためのデータを取得するのは費用がかかり、時間を要する。 一方、合成データは高速でアクセスが容易である。 本稿では,様々なアプリケーション環境におけるuavからのオブジェクト検出における合成データの利用の可能性について検討する。 そのため、オープンソースのフレームワークであるDeepGTAVをUAVシナリオに拡張しています。 我々は,様々な領域の大規模高分解能合成データセットをキャプチャし,複数のモデルにまたがる複数のトレーニング戦略を解析し,uavによる実世界の物体検出におけるそれらの利用を実証する。 さらに、複数の異なるデータ生成パラメータとサンプリングパラメータを分析し、さらなる科学的研究に有効なエンジニアリングアドバイスを提供する。 deepgtavフレームワークはhttps://git.io/jyf5j で利用可能である。

Acquiring data to train deep learning-based object detectors on Unmanned Aerial Vehicles (UAVs) is expensive, time-consuming and may even be prohibited by law in specific environments. On the other hand, synthetic data is fast and cheap to access. In this work, we explore the potential use of synthetic data in object detection from UAVs across various application environments. For that, we extend the open-source framework DeepGTAV to work for UAV scenarios. We capture various large-scale high-resolution synthetic data sets in several domains to demonstrate their use in real-world object detection from UAVs by analyzing multiple training strategies across several models. Furthermore, we analyze several different data generation and sampling parameters to provide actionable engineering advice for further scientific research. The DeepGTAV framework is available at https://git.io/Jyf5j .
翻訳日:2021-12-25 03:00:00 公開日:2021-12-22
# ProBF: バリア機能を持つ確率的安全証明書の学習

ProBF: Learning Probabilistic Safety Certificates with Barrier Functions ( http://arxiv.org/abs/2112.12210v1 )

ライセンス: Link先を確認
Sulin Liu, Athindran Ramesh Kumar, Jaime F. Fisac, Ryan P. Adams, Peter J. Ramadge(参考訳) 安全クリティカルなアプリケーションは、高い信頼性で安全性を保証できるコントローラ/ポリティシーを必要とする。 制御障壁関数は、地上システムダイナミクスへのアクセス権があれば安全性を保証するための便利なツールである。 実際には、システムダイナミクスに関する不正確な知識があり、未モデリングの残留ダイナミクスによる安全でない振る舞いにつながる可能性がある。 決定論的機械学習モデルによる残留ダイナミクスの学習は、安全でない動作を防止できるが、予測が不完全な場合には失敗する可能性がある。 この状況では、予測の不確かさを理由とする確率的学習手法は、堅牢な安全性マージンを提供するのに役立つ。 本研究では,制御障壁関数への残留力学の射影をモデル化するためにガウス過程を用いる。 安全性を高い確率で保証できる安全制御を生成するための新しい最適化手法を提案する。 安全フィルタは、GPからの予測の不確かさを推論する機能を備えている。 本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。 提案する確率論的アプローチは,ニューラルネットワークを用いた決定論的アプローチと比較して,安全性違反の数を大幅に削減することができる。

Safety-critical applications require controllers/policies that can guarantee safety with high confidence. The control barrier function is a useful tool to guarantee safety if we have access to the ground-truth system dynamics. In practice, we have inaccurate knowledge of the system dynamics, which can lead to unsafe behaviors due to unmodeled residual dynamics. Learning the residual dynamics with deterministic machine learning models can prevent the unsafe behavior but can fail when the predictions are imperfect. In this situation, a probabilistic learning method that reasons about the uncertainty of its predictions can help provide robust safety margins. In this work, we use a Gaussian process to model the projection of the residual dynamics onto a control barrier function. We propose a novel optimization procedure to generate safe controls that can guarantee safety with high probability. The safety filter is provided with the ability to reason about the uncertainty of the predictions from the GP. We show the efficacy of this method through experiments on Segway and Quadrotor simulations. Our proposed probabilistic approach is able to reduce the number of safety violations significantly as compared to the deterministic approach with a neural network.
翻訳日:2021-12-24 16:37:24 公開日:2021-12-22
# 制約付き強化学習による直接行動仕様

Direct Behavior Specification via Constrained Reinforcement Learning ( http://arxiv.org/abs/2112.12228v1 )

ライセンス: Link先を確認
Julien Roy, Roger Girgis, Joshua Romoff, Pierre-Luc Bacon and Christopher Pal(参考訳) 強化学習の標準的な定式化には、許容される行動と禁止される行動を特定する実践的な方法が欠けている。 多くの場合、実践者は報酬関数を手作業で設計することで行動仕様のタスクに取り掛かる。 本研究は, 安全なRLにのみ使用されている制約付きRLが, 応用強化学習プロジェクトにおいて, 報酬仕様に費やされる作業量を大幅に削減する可能性についても論じる。 そこで本研究では,エージェントのポリシーとラグランジアン乗算器との間の最小限の問題を解くためのラグランジアン手法を用いて,CMDPフレームワークにおける行動選好を規定し,それぞれの行動制約を自動的に評価する手法を提案する。 具体的には,動作制約の集合に固執しながら,目標に基づく課題を解くためにCMDPをどのように適用できるかを考察し,いくつかの制約に対処するためのSAC-ラグランジアンアルゴリズムの修正を提案する。 ビデオゲームにおけるNPC設計のための強化学習の適用に関連する一連の連続制御タスクについて,本フレームワークの評価を行った。

The standard formulation of Reinforcement Learning lacks a practical way of specifying what are admissible and forbidden behaviors. Most often, practitioners go about the task of behavior specification by manually engineering the reward function, a counter-intuitive process that requires several iterations and is prone to reward hacking by the agent. In this work, we argue that constrained RL, which has almost exclusively been used for safe RL, also has the potential to significantly reduce the amount of work spent for reward specification in applied Reinforcement Learning projects. To this end, we propose to specify behavioral preferences in the CMDP framework and to use Lagrangian methods, which seek to solve a min-max problem between the agent's policy and the Lagrangian multipliers, to automatically weigh each of the behavioral constraints. Specifically, we investigate how CMDPs can be adapted in order to solve goal-based tasks while adhering to a set of behavioral constraints and propose modifications to the SAC-Lagrangian algorithm to handle the challenging case of several constraints. We evaluate this framework on a set of continuous control tasks relevant to the application of Reinforcement Learning for NPC design in video games.
翻訳日:2021-12-24 16:37:07 公開日:2021-12-22
# 解釈可能な高次元変数選択のための正規化多変量解析フレームワーク

Regularized Multivariate Analysis Framework for Interpretable High-Dimensional Variable Selection ( http://arxiv.org/abs/2112.12249v1 )

ライセンス: Link先を確認
Sergio Mu\~noz-Romero and Vanessa G\'omez-Verdejo and Jer\'onimo Arenas-Garc\'ia(参考訳) 多変量解析(mva)は、データを表す入力変数間の相関を利用した特徴抽出のためのよく知られた手法である。 このような方法で楽しむ重要な特性の1つは、抽出された特徴の非相関である。 近年、MVA法の正規化バージョンが文献に登場し、主に解の解釈可能性の向上を目的としている。 これらの場合、解はもはや閉じた方法では得られず、2つのステップの反復に依存するより複雑な最適化手法が頻繁に用いられる。 本稿では,この反復問題を効率的に解くための代替手法に再帰する。 このアプローチの主な斬新さは、元のメソッドのいくつかの特性、特に抽出された特徴の相関性を保存することである。 本稿では,l-21ノルムを利用して特徴抽出プロセス中に変数選択を行う新しい手法を提案する。 異なる問題に対する実験結果は, 提案した定式化の利点と, 定式化の状況とを相関させる。

Multivariate Analysis (MVA) comprises a family of well-known methods for feature extraction which exploit correlations among input variables representing the data. One important property that is enjoyed by most such methods is uncorrelation among the extracted features. Recently, regularized versions of MVA methods have appeared in the literature, mainly with the goal to gain interpretability of the solution. In these cases, the solutions can no longer be obtained in a closed manner, and more complex optimization methods that rely on the iteration of two steps are frequently used. This paper recurs to an alternative approach to solve efficiently this iterative problem. The main novelty of this approach lies in preserving several properties of the original methods, most notably the uncorrelation of the extracted features. Under this framework, we propose a novel method that takes advantage of the l-21 norm to perform variable selection during the feature extraction process. Experimental results over different problems corroborate the advantages of the proposed formulation in comparison to state of the art formulations.
翻訳日:2021-12-24 16:36:46 公開日:2021-12-22
# 深層強化学習を用いたニューズベンドルモデル

Newsvendor Model with Deep Reinforcement Learning ( http://arxiv.org/abs/2112.12544v1 )

ライセンス: Link先を確認
Dylan K. Goetting(参考訳) 本稿では,確率的需要分布から得られる利益を最適化するNewsvendorモデルと呼ばれる数学的問題に対する深層強化学習(RL)ソリューションを提案する。 より現実的で複雑な状況を反映して、需要分布は週ごとに変化し、最適な行動を変えることができる。 Twin-Delayed Deep Deterministic Policy Gradient Agent(完全にオリジナルコードとして書かれる)をアクターと批評家ネットワークの両方で使用して、この問題を解決しました。 エージェントは、問題の分析解と一致する最適な振る舞いを学習することができ、週の異なる日に異なる確率分布を識別し、それに応じて振る舞うことができた。

I present a deep reinforcement learning (RL) solution to the mathematical problem known as the Newsvendor model, which seeks to optimize profit given a probabilistic demand distribution. To reflect a more realistic and complex situation, the demand distribution can change for different days of the week, thus changing the optimum behavior. I used a Twin-Delayed Deep Deterministic Policy Gradient agent (written as completely original code) with both an actor and critic network to solve this problem. The agent was able to learn optimal behavior consistent with the analytical solution of the problem, and could identify separate probability distributions for different days of the week and behave accordingly.
翻訳日:2021-12-24 16:34:38 公開日:2021-12-22
# エントロピー正規化部分観察マルコフ決定過程

Entropy-Regularized Partially Observed Markov Decision Processes ( http://arxiv.org/abs/2112.12255v1 )

ライセンス: Link先を確認
Timothy L. Molloy, Girish N. Nair(参考訳) 状態, 観測, 制御の不確実性を記述するエントロピー項で定式化されたコスト関数を持つ部分観測マルコフ決定過程(POMDP)について検討した。 標準的なPOMDP技術は、これらのエントロピー規則化されたPOMDPに対して、正規化が状態の合同エントロピー、観測、制御軌道を含む正確な解を提供する。 我々の連立エントロピーは, アクティブ状態推定の新しい定式化を構成するため, 特に驚くべき結果である。

We investigate partially observed Markov decision processes (POMDPs) with cost functions regularized by entropy terms describing state, observation, and control uncertainty. Standard POMDP techniques are shown to offer bounded-error solutions to these entropy-regularized POMDPs, with exact solutions when the regularization involves the joint entropy of the state, observation, and control trajectories. Our joint-entropy result is particularly surprising since it constitutes a novel, tractable formulation of active state estimation.
翻訳日:2021-12-24 16:26:39 公開日:2021-12-22
# 化学空間はどのくらい覆われていますか。 分子生成における候補集合の多様性の測定と改善

How Much of the Chemical Space Has Been Covered? Measuring and Improving the Variety of Candidate Set in Molecular Generation ( http://arxiv.org/abs/2112.12542v1 )

ライセンス: Link先を確認
Yutong Xie, Ziqiao Xu, Jiaqi Ma, Qiaozhu Mei(参考訳) 様々な類似化合物を含む高品質な分子候補集合を形成することは、創薬の成功に不可欠である。 しかし, 化学物質の最適化を目的とした研究と比較すると, 薬剤候補の種類を計測し, 改善する方法は比較的未検討である。 本稿では,まず,分子の多様性を公理的解析枠組みと経験的研究の両方を通して適切に測定する問題について検討する。 分子の多様性を評価するには,既存の測定方法が適していないことが示唆された。 また,本分析に基づく新しい多様性尺度を提案する。 さらに,提案手法を分子生成モデルの最適化目標と明確に統合する。 実験の結果, 新たな最適化目標は分子生成モデルにラガー化学空間をカバーする化合物を探索させ, 下流の段階においてより特異な薬物候補が選択できることを示す。

Forming a high-quality molecular candidate set that contains a wide range of dissimilar compounds is crucial to the success of drug discovery. However, comparing to the research aiming at optimizing chemical properties, how to measure and improve the variety of drug candidates is relatively understudied. In this paper, we first investigate the problem of properly measuring the molecular variety through both an axiomatic analysis framework and an empirical study. Our analysis suggests that many existing measures are not suitable for evaluating the variety of molecules. We also propose new variety measures based on our analysis. We further explicitly integrate the proposed variety measures into the optimization objective of molecular generation models. Our experiment results demonstrate that this new optimization objective can guide molecular generation models to find compounds that cover a lager chemical space, providing the downstream phases with more distinctive drug candidate choices.
翻訳日:2021-12-24 16:23:39 公開日:2021-12-22
# 適応フィルタの組合せ

Combinations of Adaptive Filters ( http://arxiv.org/abs/2112.12245v1 )

ライセンス: Link先を確認
Jer\'onimo Arenas-Garc\'ia and Luis A. Azpicueta-Ruiz and Magno T.M. Silva and Vitor H. Nascimento and Ali H. Sayed(参考訳) アダプティブフィルタは、音響ノイズ抑圧、エコーキャンセラレーション、アレイビームフォーミング、チャネル等化、監視、ターゲットローカライゼーション、トラッキングといった、多くの信号処理アプリケーションの中核にある。 この方向のトレンドのアプローチは、個々のノードが適応ルールを実装し、その推定をネットワークに拡散するネットワーク内分散処理に再帰することである。 フィルタリングシナリオに関する事前知識が限定的あるいは不正確である場合には、最も適切なフィルタ構造を選択し、パラメータを調整することが困難な課題となり、誤った選択が性能の低下につながる可能性がある。 この困難に対処するためには、適応構造の組み合わせに依存する方法がある。 アダプティブフィルタの組み合わせは、機械学習コミュニティ(例えば、バッグやブースティングにおいて)がうまく活用したのと同じ分割と征服原理をある程度利用している。 特に、いくつかの学習アルゴリズム(専門家の混合)の出力を組み合わせる問題は、異なる視点で計算学習分野において研究されており、混合の期待性能を研究するのではなく、決定論的境界を導出し、個々のシーケンスに適用し、最悪のシナリオを反映している。 これらの境界は、一般的に適応フィルタリングで使用されるものと異なる仮定を必要とする。 これらの組み合わせスキームの背後にある重要なアイデアと原則を、設計ルールに重点を置いてレビューする。 また、そのパフォーマンスをさまざまな例で説明します。

Adaptive filters are at the core of many signal processing applications, ranging from acoustic noise supression to echo cancelation, array beamforming, channel equalization, to more recent sensor network applications in surveillance, target localization, and tracking. A trending approach in this direction is to recur to in-network distributed processing in which individual nodes implement adaptation rules and diffuse their estimation to the network. When the a priori knowledge about the filtering scenario is limited or imprecise, selecting the most adequate filter structure and adjusting its parameters becomes a challenging task, and erroneous choices can lead to inadequate performance. To address this difficulty, one useful approach is to rely on combinations of adaptive structures. The combination of adaptive filters exploits to some extent the same divide and conquer principle that has also been successfully exploited by the machine-learning community (e.g., in bagging or boosting). In particular, the problem of combining the outputs of several learning algorithms (mixture of experts) has been studied in the computational learning field under a different perspective: rather than studying the expected performance of the mixture, deterministic bounds are derived that apply to individual sequences and, therefore, reflect worst-case scenarios. These bounds require assumptions different from the ones typically used in adaptive filtering, which is the emphasis of this overview article. We review the key ideas and principles behind these combination schemes, with emphasis on design rules. We also illustrate their performance with a variety of examples.
翻訳日:2021-12-24 16:23:00 公開日:2021-12-22
# フィルタバンクの監視設計のための非負のOPLS:画像と音声の特徴抽出への応用

Nonnegative OPLS for Supervised Design of Filter Banks: Application to Image and Audio Feature Extraction ( http://arxiv.org/abs/2112.12280v1 )

ライセンス: Link先を確認
Sergio Mu\~noz-Romero and Jer\'onimo Arenas Garc\'ia and Vanessa G\'omez-Verdejo(参考訳) 音声または視覚データ分析タスクは通常、高次元および非負の信号を扱う必要がある。 しかし、多くのデータ分析手法は、データが数次元以上の次元で、次元の縮小前処理を必要とする場合、過剰フィッティングや数値問題に苦しむ。 さらに、特にエネルギーやスペクトル信号が関与している場合、フィルタがどのように、なぜオーディオや視覚的用途で機能するのかを解釈することは望ましい特性である。 これらの場合、これらの信号の性質から、フィルタ重みの非負性は、その働きをよりよく理解するために望ましい性質である。 これら2つの必要条件により,データの次元性を低減し,解の非否定性と解釈可能性を保証するための異なる手法を提案する。 特に,非負データを扱うアプリケーションに対して,教師付き方法でフィルタバンクを設計するための一般化手法を提案し,正則化部分最小二乗法の非負バージョンからなる目的関数の解法について検討する。 提案手法を用いて得られた特徴の判別能力を分析し,テクスチャ分類と音楽ジャンル分類の2つの応用について検討した。 さらに,本手法で達成したフィルタバンクと,特徴抽出用に特別に設計された他の最先端手法を比較した。

Audio or visual data analysis tasks usually have to deal with high-dimensional and nonnegative signals. However, most data analysis methods suffer from overfitting and numerical problems when data have more than a few dimensions needing a dimensionality reduction preprocessing. Moreover, interpretability about how and why filters work for audio or visual applications is a desired property, especially when energy or spectral signals are involved. In these cases, due to the nature of these signals, the nonnegativity of the filter weights is a desired property to better understand its working. Because of these two necessities, we propose different methods to reduce the dimensionality of data while the nonnegativity and interpretability of the solution are assured. In particular, we propose a generalized methodology to design filter banks in a supervised way for applications dealing with nonnegative data, and we explore different ways of solving the proposed objective function consisting of a nonnegative version of the orthonormalized partial least-squares method. We analyze the discriminative power of the features obtained with the proposed methods for two different and widely studied applications: texture and music genre classification. Furthermore, we compare the filter banks achieved by our methods with other state-of-the-art methods specifically designed for feature extraction.
翻訳日:2021-12-24 16:22:35 公開日:2021-12-22
# ml4co: gcnnは必要か? グラフ畳み込みニューラルネットワークは、適切なデータに基づいて、適切に調整および訓練された場合の組合せ最適化問題の強力なベースラインを生成する

ML4CO: Is GCNN All You Need? Graph Convolutional Neural Networks Produce Strong Baselines For Combinatorial Optimization Problems, If Tuned and Trained Properly, on Appropriate Data ( http://arxiv.org/abs/2112.12251v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi and Yong Zhang(参考訳) 2021 NeurIPS Machine Learning for Combinatorial Optimization (ML4CO)コンペティションは、キーヒューリスティックコンポーネントを機械学習モデルに置き換えることによって、最先端の組合せ最適化ソリューションを改善することを目的として設計された。 機械学習は、歴史的データが利用可能である場合に、特定の問題分布に関する従来の組合せ最適化ソルバを改善するための実行可能な選択肢か? これは、多くの現実的なシナリオにおいて、データは組合せ最適化問題の繰り返しの間にわずかにしか変化せず、機械学習モデルが特に強力である領域であるという事実によって動機づけられた。 本稿では,Huawei EI-OROASチームによる2つの課題の解決と教訓を要約する。 私たちのチームの応募は、最終ランキングで2位となり、第1位に非常に近かった。 さらに、我々のソリューションは、最終評価の前に毎週のリーダーボード更新でトップにランクインした。 我々は、多数の実験から得られた知見を提供し、訓練とチューニングが適切に行えば、単純なグラフ畳み込みニューラルネットワーク(gcnn)が最先端の結果を達成できると主張する。

The 2021 NeurIPS Machine Learning for Combinatorial Optimization (ML4CO) competition was designed with the goal of improving state-of-the-art combinatorial optimization solvers by replacing key heuristic components with machine learning models. The competition's main scientific question was the following: is machine learning a viable option for improving traditional combinatorial optimization solvers on specific problem distributions, when historical data is available? This was motivated by the fact that in many practical scenarios, the data changes only slightly between the repetitions of a combinatorial optimization problem, and this is an area where machine learning models are particularly powerful at. This paper summarizes the solution and lessons learned by the Huawei EI-OROAS team in the dual task of the competition. The submission of our team achieved the second place in the final ranking, with a very close distance to the first spot. In addition, our solution was ranked first consistently for several weekly leaderboard updates before the final evaluation. We provide insights gained from a large number of experiments, and argue that a simple Graph Convolutional Neural Network (GCNNs) can achieve state-of-the-art results if trained and tuned properly.
翻訳日:2021-12-24 14:59:06 公開日:2021-12-22
# ドローンによるトラベリングセールスマン問題の解決のための深層強化学習手法

A Deep Reinforcement Learning Approach for Solving the Traveling Salesman Problem with Drone ( http://arxiv.org/abs/2112.12545v1 )

ライセンス: Link先を確認
Aigerim Bogyrbayeva. Taehyun Yoon, Hanbum Ko, Sungbin Lim, Hyokun Yun, Changhyun Kwon(参考訳) 強化学習は、多くの組合せ最適化問題における品質ソリューションを学ぶことに有望である。 特に注意に基づくエンコーダ・デコーダモデルはトラベルセールスマン問題(tsp)を含む様々なルーティング問題に対して高い有効性を示す。 残念なことに、TSP with Drone(TSP-D)は、トラックとドローンを連携させるために異種車両をルーティングする必要がある。 TSP-Dでは、両車両はタンデムで移動しており、他の車両が合流するのを待つ必要がある。 ステートレス注意に基づくデコーダは、車両間の調整に失敗する。 本稿では,アテンションエンコーダ-LSTMデコーダハイブリッドモデルを提案する。 このようなハイブリッドモデルが,ソリューションの品質と計算効率の両方において,純粋に注意に基づくモデルを改善することを実証的に実証する。 min-max Capacitated Vehicle Routing Problem (mmCVRP) に関する実験により、ハイブリッドモデルは注意ベースモデルよりも複数車両の協調ルーティングに適していることを確認した。

Reinforcement learning has recently shown promise in learning quality solutions in many combinatorial optimization problems. In particular, the attention-based encoder-decoder models show high effectiveness on various routing problems, including the Traveling Salesman Problem (TSP). Unfortunately, they perform poorly for the TSP with Drone (TSP-D), requiring routing a heterogeneous fleet of vehicles in coordination -- a truck and a drone. In TSP-D, the two vehicles are moving in tandem and may need to wait at a node for the other vehicle to join. State-less attention-based decoder fails to make such coordination between vehicles. We propose an attention encoder-LSTM decoder hybrid model, in which the decoder's hidden state can represent the sequence of actions made. We empirically demonstrate that such a hybrid model improves upon a purely attention-based model for both solution quality and computational efficiency. Our experiments on the min-max Capacitated Vehicle Routing Problem (mmCVRP) also confirm that the hybrid model is more suitable for coordinated routing of multiple vehicles than the attention-based model.
翻訳日:2021-12-24 14:58:28 公開日:2021-12-22
# 機械学習における大規模データセットのアルゴリズム的確率と単純気泡問題

Algorithmic Probability of Large Datasets and the Simplicity Bubble Problem in Machine Learning ( http://arxiv.org/abs/2112.12275v1 )

ライセンス: Link先を確認
Felipe S. Abrah\~ao, Hector Zenil, Fabio Porto, Klaus Wehmuth(参考訳) 新しいデータを予測するために大規模なデータセットをマイニングする場合、統計機械学習の背後にある原則の限界は、ビッグデータの崩壊だけでなく、データ生成プロセスがアルゴリズムの複雑さの低さに偏っているという従来の仮定にも深刻な課題をもたらす。 有限データセット生成器における単純さに対するアルゴリズム情報バイアスを仮定しても、疑似ランダム生成器へのアクセスの有無に関わらず、計算可能な学習アルゴリズム、特に機械学習(ディープラーニングを含む)の現在のアプローチで使用される統計的性質のアルゴリズムは、十分大きなデータセットによって、自然または人工的に、常に欺くことができる。 特に、任意の有限学習アルゴリズムに対して、予測不可能な十進法のアルゴリズム確率が、他の大きなデータセットのアルゴリズム確率の上限(学習アルゴリズムにのみ依存する乗算定数まで)であるような十分に大きなデータセットサイズが存在することを示す。 言い換えれば、非常に大きく複雑なデータセットは、他の特定のデータセットと同様に、学習アルゴリズムを「単純なバブル」に騙す傾向にある。 これらの決定データセットは、任意の予測が高アルゴリズム・複雑度グローバル最適解から分岐し、低アルゴリズム・複雑度局所最適解に向かって収束することを保証している。 本稿では,統計的機械学習から,アルゴリズム情報理論と計算可能性理論の本質的な力に基づく,あるいは動機付けられた,より強力な機械学習へと移行し,この誤認現象を回避するための枠組みと経験的条件について論じる。

When mining large datasets in order to predict new data, limitations of the principles behind statistical machine learning pose a serious challenge not only to the Big Data deluge, but also to the traditional assumptions that data generating processes are biased toward low algorithmic complexity. Even when one assumes an underlying algorithmic-informat ional bias toward simplicity in finite dataset generators, we show that fully automated, with or without access to pseudo-random generators, computable learning algorithms, in particular those of statistical nature used in current approaches to machine learning (including deep learning), can always be deceived, naturally or artificially, by sufficiently large datasets. In particular, we demonstrate that, for every finite learning algorithm, there is a sufficiently large dataset size above which the algorithmic probability of an unpredictable deceiver is an upper bound (up to a multiplicative constant that only depends on the learning algorithm) for the algorithmic probability of any other larger dataset. In other words, very large and complex datasets are as likely to deceive learning algorithms into a "simplicity bubble" as any other particular dataset. These deceiving datasets guarantee that any prediction will diverge from the high-algorithmic-com plexity globally optimal solution while converging toward the low-algorithmic-comp lexity locally optimal solution. We discuss the framework and empirical conditions for circumventing this deceptive phenomenon, moving away from statistical machine learning towards a stronger type of machine learning based on, or motivated by, the intrinsic power of algorithmic information theory and computability theory.
翻訳日:2021-12-24 14:55:12 公開日:2021-12-22
# 再帰か 参加か コンボルブか? 行動認識におけるクロスドメインロバスト性のためのフレーム依存モデル

Recur, Attend or Convolve? Frame Dependency Modeling Matters for Cross-Domain Robustness in Action Recognition ( http://arxiv.org/abs/2112.12175v1 )

ライセンス: Link先を確認
Sofia Broom\'e, Ernest Pokropek, Boyu Li, Hedvig Kjellstr\"om(参考訳) 今日、ほとんどの行動認識モデルは高度にパラメータ化されており、主に空間的に異なるクラスを持つデータセットで評価されている。 単一画像に対する以前の結果は、2次元畳み込みニューラルネットワーク(CNN)が様々なコンピュータビジョンタスク(Geirhos et al., 2019)の形状よりもテクスチャに偏りがあることを示し、一般化を減らしている。 これは、大きなビデオモデルが時間とともに関連した形状を追跡し、それらの動きから一般化可能な意味を推測するよりも、刺激的な相関関係を学習しているという疑いを提起する。 時間とともに視覚パターンを学ぶとき、パラメータの爆発を避ける自然な方法は、時間軸を越えて繰り返しを利用することである。 本稿では、繰り返し、注意に基づく、及び畳み込みのビデオモデルに対するドメイン間ロバスト性について実証研究を行い、このロバスト性がフレーム依存性モデリングの影響について考察する。 提案する新しい時相形状データセットは,単一フレームから明らかにされない時相形状を一般化する能力を評価するための軽量データセットとして提案されている。 性能と層構造を制御する場合、再帰モデルでは、畳み込みモデルや注目モデルよりも時間形状データセットの領域外一般化能力が優れていることが分かる。 さらに, コンボリューションモデルとアテンションモデルでは, 繰り返しモデルよりもダイビング48のテクスチャバイアスが高いことが示された。

Most action recognition models today are highly parameterized, and evaluated on datasets with predominantly spatially distinct classes. Previous results for single images have shown that 2D Convolutional Neural Networks (CNNs) tend to be biased toward texture rather than shape for various computer vision tasks (Geirhos et al., 2019), reducing generalization. Taken together, this raises suspicion that large video models learn spurious correlations rather than to track relevant shapes over time and infer generalizable semantics from their movement. A natural way to avoid parameter explosion when learning visual patterns over time is to make use of recurrence across the time-axis. In this article, we empirically study the cross-domain robustness for recurrent, attention-based and convolutional video models, respectively, to investigate whether this robustness is influenced by the frame dependency modeling. Our novel Temporal Shape dataset is proposed as a light-weight dataset to assess the ability to generalize across temporal shapes which are not revealed from single frames. We find that when controlling for performance and layer structure, recurrent models show better out-of-domain generalization ability on the Temporal Shape dataset than convolution- and attention-based models. Moreover, our experiments indicate that convolution- and attention-based models exhibit more texture bias on Diving48 than recurrent models.
翻訳日:2021-12-24 14:51:23 公開日:2021-12-22
# 隠れ層化と多群学習のための単純・近最適アルゴリズム

Simple and near-optimal algorithms for hidden stratification and multi-group learning ( http://arxiv.org/abs/2112.12181v1 )

ライセンス: Link先を確認
Christopher Tosh and Daniel Hsu(参考訳) 多集団無依存学習は、集団のサブグループ内の予測者の条件付きリスクに関する正式な学習基準である。 この基準は、サブグループフェアネスや隠れ階層化のような最近の実用的な懸念に対処する。 本稿では,多群学習問題に対する解の構造を考察し,学習問題に対する単純で近似的なアルゴリズムを提案する。

Multi-group agnostic learning is a formal learning criterion that is concerned with the conditional risks of predictors within subgroups of a population. The criterion addresses recent practical concerns such as subgroup fairness and hidden stratification. This paper studies the structure of solutions to the multi-group learning problem, and provides simple and near-optimal algorithms for the learning problem.
翻訳日:2021-12-24 14:27:52 公開日:2021-12-22
# 変分焼成重要度サンプリングのためのサロゲート様相

Surrogate Likelihoods for Variational Annealed Importance Sampling ( http://arxiv.org/abs/2112.12194v1 )

ライセンス: Link先を確認
Martin Jankowiak, Du Phan(参考訳) 変分推論は、モデル学習やデータサブサンプリングなど、多くの魅力的な特性を持つ近似ベイズ推論の強力なパラダイムである。 対照的に、ハミルトンモンテカルロのようなMCMC法はこれらの性質を共有していないが、パラメトリック法とは対照的に、MCMCは漸近的に偏りがない。 これらの理由から、研究者は両方のアルゴリズムの強みを組み合わせようとしており、最近のアプローチはこのビジョンの実現に近づいている。 しかし、これらのハイブリッド手法でデータサブサンプリングをサポートすることは課題であり、我々は他の変動パラメータと共同で学習できるサロゲート可能性を導入することで対処する欠点である。 理論的には,提案アルゴリズムは,推論の忠実度と計算コストとの直感的なトレードオフを可能にする。 広範囲にわたる経験的比較の結果,本手法は実効性が高く,確率的プログラミングフレームワークにおけるブラックボックス推論に適していることが示された。

Variational inference is a powerful paradigm for approximate Bayesian inference with a number of appealing properties, including support for model learning and data subsampling. By contrast MCMC methods like Hamiltonian Monte Carlo do not share these properties but remain attractive since, contrary to parametric methods, MCMC is asymptotically unbiased. For these reasons researchers have sought to combine the strengths of both classes of algorithms, with recent approaches coming closer to realizing this vision in practice. However, supporting data subsampling in these hybrid methods can be a challenge, a shortcoming that we address by introducing a surrogate likelihood that can be learned jointly with other variational parameters. We argue theoretically that the resulting algorithm permits the user to make an intuitive trade-off between inference fidelity and computational cost. In an extensive empirical comparison we show that our method performs well in practice and that it is well-suited for black-box inference in probabilistic programming frameworks.
翻訳日:2021-12-24 14:27:45 公開日:2021-12-22
# 誤った予測の最大エントロピー(meep) : 医用画像分割のためのモデルキャリブレーションの改善

Maximum Entropy on Erroneous Predictions (MEEP): Improving model calibration for medical image segmentation ( http://arxiv.org/abs/2112.12218v1 )

ライセンス: Link先を確認
Agostina Larrazabal, Cesar Martinez, Jose Dolz, Enzo Ferrante(参考訳) 現代のディープニューラルネットワークは、医療画像分割タスクにおいて顕著な進歩を遂げている。 しかし、最近は不確実度の高い状況でも自信過剰な推定を生じる傾向があり、不正確で信頼性の低いモデルに繋がる傾向があることが観測されている。 本研究では,過密予測を選択的にペナルティ化するセグメンテーションネットワークのためのトレーニング戦略であるerroneous predictions (meep) の最大エントロピーを導入する。 特に、誤った予測に対して高いエントロピー後方を奨励し、複雑なシナリオにおけるネットワークの不確実性を高める正規化項を設計する。 本手法はニューラルアーキテクチャに依存せず,モデルの複雑さを増すことなく,複数のセグメンテーション損失関数と結合することができる。 脳の磁気共鳴画像(MRI)における白質高強度病変と、心臓MRIにおける心房細動の2つの課題について、提案手法をベンチマークした。 実験結果から,MEEPと標準セグメンテーション損失の結合がモデル校正だけでなく,セグメンテーション品質の向上につながることが示された。

Modern deep neural networks have achieved remarkable progress in medical image segmentation tasks. However, it has recently been observed that they tend to produce overconfident estimates, even in situations of high uncertainty, leading to poorly calibrated and unreliable models. In this work we introduce Maximum Entropy on Erroneous Predictions (MEEP), a training strategy for segmentation networks which selectively penalizes overconfident predictions, focusing only on misclassified pixels. In particular, we design a regularization term that encourages high entropy posteriors for wrong predictions, increasing the network uncertainty in complex scenarios. Our method is agnostic to the neural architecture, does not increase model complexity and can be coupled with multiple segmentation loss functions. We benchmark the proposed strategy in two challenging medical image segmentation tasks: white matter hyperintensity lesions in magnetic resonance images (MRI) of the brain, and atrial segmentation in cardiac MRI. The experimental results demonstrate that coupling MEEP with standard segmentation losses leads to improvements not only in terms of model calibration, but also in segmentation quality.
翻訳日:2021-12-24 14:25:14 公開日:2021-12-22
# MC-DGCNN:マルチカテゴリ点集合分類のための新しいDNNアーキテクチャ

MC-DGCNN: A Novel DNN Architecture for Multi-Category Point Set Classification ( http://arxiv.org/abs/2112.12219v1 )

ライセンス: Link先を確認
Majid Farhadloo, Carl Molnar, Gaoxiang Luo, Yan Li, Shashi Shekhar, Rachel L. Maus, Svetomir N. Markovic, Raymond Moore, and Alexey Leontovich(参考訳) ポイントセット分類は、ポイントセットデータの空間的およびカテゴリー的構成を区別する表現学習モデルを構築することを目的としている。 この問題は免疫学や微生物生態学といった多くの応用分野において社会的に重要である。 この問題は、点のカテゴリ間の相互作用が必ずしも等しいとは限らないため、表現学習モデルは最も関連する多カテゴリー関係を選択的に学習する必要がある。 関連研究は,(1) 異なる多カテゴリー関係,特に高次相互作用の重要性の学習において限定的であり,(2) 相対距離の測定やフィードフォワードニューラルネットワークの座標への応用以上の点の空間分布を十分に活用していない。 これらの制限を克服するために、動的グラフ畳み込みニューラルネットワーク(DGCNN)アーキテクチャを活用し、新しいマルチカテゴリDGCNN(MC-DGCNN)を設計し、複数カテゴリのポイントセット分類に位置表現とポイントペアアテンション層に寄与する。 MC-DGCNNは各点対のカテゴリー的重要性を識別し、これをN方向空間関係に拡張し、DGCNNのすべての特性と利点(例えば微分可能性)を保っている。 実験の結果,提案アーキテクチャは計算効率が高く,実世界のデータセット上でのディープラーニングアーキテクチャよりも大幅に優れていた。

Point set classification aims to build a representation learning model that distinguishes between spatial and categorical configurations of point set data. This problem is societally important since in many applications domains such as immunology, and microbial ecology. This problem is challenging since the interactions between different categories of points are not always equal; as a result, the representation learning model must selectively learn the most relevant multi-categorical relationships. The related works are limited (1) in learning the importance of different multi-categorical relationships, especially for high-order interactions, and (2) do not fully exploit the spatial distribution of points beyond simply measuring relative distance or applying a feed-forward neural network to coordinates. To overcome these limitations, we leverage the dynamic graph convolutional neural network (DGCNN) architecture to design a novel multi-category DGCNN (MC-DGCNN), contributing location representation and point pair attention layers for multi-categorical point set classification. MC-DGCNN has the ability to identify the categorical importance of each point pair and extends this to N-way spatial relationships, while still preserving all the properties and benefits of DGCNN (e.g., differentiability). Experimental results show that the proposed architecture is computationally efficient and significantly outperforms current deep learning architectures on real-world datasets.
翻訳日:2021-12-24 14:24:51 公開日:2021-12-22
# 自己教師型ニューラルネットワークを用いた手首加速度計の人間の活動認識

Human Activity Recognition on wrist-worn accelerometers using self-supervised neural networks ( http://arxiv.org/abs/2112.12272v1 )

ライセンス: Link先を確認
Niranjan Sridhar, Lance Myers(参考訳) 日常生活活動の指標 (ADL) は, 健康の指標として重要であるが, 生体内測定は困難である。 手首加速度計を用いた人体行動認識(HAR)の自動化と高精度化により、ADLの実用的かつ費用対効果の高い遠隔監視が可能となる。 高品質なharを開発する上で重要な障害は、大規模なラベル付きデータセットの欠如と、小さなキュレーションデータセットでトレーニングされたモデルを実生活における異種データの連続ストリームに適用する際のパフォーマンス損失である。 本研究は,加速度センサデータの堅牢な表現を,デバイスや対象にまたがって一般化可能な自己教師型学習パラダイムを設計する。 我々は,この表現が日常生活の活動を分離し,非常に少ないラベルを用いてhar精度(複数のベンチマークデータセット上で)を達成することを実証する。 また,実生活データ上でのsalientアクティビティのセグメントを識別し,har精度を向上させるセグメンテーションアルゴリズムを提案する。

Measures of Activity of Daily Living (ADL) are an important indicator of overall health but difficult to measure in-clinic. Automated and accurate human activity recognition (HAR) using wrist-worn accelerometers enables practical and cost efficient remote monitoring of ADL. Key obstacles in developing high quality HAR is the lack of large labeled datasets and the performance loss when applying models trained on small curated datasets to the continuous stream of heterogeneous data in real-life. In this work we design a self-supervised learning paradigm to create a robust representation of accelerometer data that can generalize across devices and subjects. We demonstrate that this representation can separate activities of daily living and achieve strong HAR accuracy (on multiple benchmark datasets) using very few labels. We also propose a segmentation algorithm which can identify segments of salient activity and boost HAR accuracy on continuous real-life data.
翻訳日:2021-12-24 14:24:27 公開日:2021-12-22
# きめ細かいマルチモーダル自己監督学習

Fine-grained Multi-Modal Self-Supervised Learning ( http://arxiv.org/abs/2112.12182v1 )

ライセンス: Link先を確認
Duo Wang, Salah Karout(参考訳) ビデオからのマルチモーダル自己監視学習は、様々な下流タスクにおけるモデルの性能を改善することが示されている。 しかし、このようなセルフスーパービジョン事前学習には、未処理データに存在するノイズのため、大きなバッチサイズと大量の計算資源が必要である。 これは、ビデオクリップ全体を表すベクトルや自然言語文が類似性を計算するために使用される粗粒度設定で、一般的なトレーニングスキームがトレーニングされているためでもある。 このようなスキームにより、ビデオクリップの一部としてのトレーニングノイズは、テキスト記述のような他のモダリティ入力と完全に相関しない。 本稿では,細かなスケールでの埋め込み(個々の特徴マップの埋め込みやフレーズの埋め込みなど)間の類似性を計算し,注意機構を用いて損失関数におけるノイズペアの重み付けを低減させる,細粒度マルチモーダル自己教師付き学習手法を提案する。 提案する事前学習方式により,より小さいバッチサイズで計算資源の少ない,より小さなモデルを訓練することで,動作認識やテキスト画像検索などのタスクにおいて,最先端に匹敵するダウンストリームタスクのパフォーマンスを実現することができることを示す。

Multi-Modal Self-Supervised Learning from videos has been shown to improve model's performance on various downstream tasks. However, such Self-Supervised pre-training requires large batch sizes and a large amount of computation resources due to the noise present in the uncurated data. This is partly due to the fact that the prevalent training scheme is trained on coarse-grained setting, in which vectors representing the whole video clips or natural language sentences are used for computing similarity. Such scheme makes training noisy as part of the video clips can be totally not correlated with the other-modality input such as text description. In this paper, we propose a fine-grained multi-modal self-supervised training scheme that computes the similarity between embeddings at finer-scale (such as individual feature map embeddings and embeddings of phrases), and uses attention mechanisms to reduce noisy pairs' weighting in the loss function. We show that with the proposed pre-training scheme, we can train smaller models, with smaller batch-size and much less computational resources to achieve downstream tasks performances comparable to State-Of-The-Art, for tasks including action recognition and text-image retrievals.
翻訳日:2021-12-24 14:06:41 公開日:2021-12-22
# (参考訳) AdaptPose:学習可能なモーション生成による3次元人物姿勢推定のためのクロスデータセット適応 [全文訳有]

AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by Learnable Motion Generation ( http://arxiv.org/abs/2112.11593v1 )

ライセンス: CC BY 4.0
Mohsen Gholami, Bastian Wandt, Helge Rhodin, Rabab Ward, and Z. Jane Wang(参考訳) 本稿では,3次元ポーズ推定モデルのデータセット間一般化の問題に対処する。 トレーニング済みの3Dポーズ推定器を新しいデータセットでテストすると、大きなパフォーマンス低下が発生する。 従来はトレーニングデータの多様性を向上させることでこの問題に対処してきた。 我々は、多様性だけでは不十分であり、トレーニングデータの特徴は、カメラの視点、位置、人間の行動、体の大きさなどの新しいデータセットに適応する必要があると主張している。 この目的のために、ソースデータセットから合成された3D人間の動きを生成し、3Dポーズ推定器を微調整する、エンドツーエンドのフレームワークAdaptPoseを提案する。 AdaptPoseは敵のトレーニングスキームに従う。 ソース3Dポーズからジェネレータは、3Dポーズのシーケンスと、生成されたポーズを新しいビューに投影するために使用されるカメラ向きを生成する。 AdaptPoseは、ターゲットデータセットから合成された3Dポーズを作成するのに成功し、2Dポーズでのみ訓練される。 Human3.6M, MPI-INF-3DHP, 3DPW, Ski-Poseを用いた実験では, 部分的な3Dアノテーションを用いた従来の半教師あり学習手法よりも16%向上した。

This paper addresses the problem of cross-dataset generalization of 3D human pose estimation models. Testing a pre-trained 3D pose estimator on a new dataset results in a major performance drop. Previous methods have mainly addressed this problem by improving the diversity of the training data. We argue that diversity alone is not sufficient and that the characteristics of the training data need to be adapted to those of the new dataset such as camera viewpoint, position, human actions, and body size. To this end, we propose AdaptPose, an end-to-end framework that generates synthetic 3D human motions from a source dataset and uses them to fine-tune a 3D pose estimator. AdaptPose follows an adversarial training scheme. From a source 3D pose the generator generates a sequence of 3D poses and a camera orientation that is used to project the generated poses to a novel view. Without any 3D labels or camera information AdaptPose successfully learns to create synthetic 3D poses from the target dataset while only being trained on 2D poses. In experiments on the Human3.6M, MPI-INF-3DHP, 3DPW, and Ski-Pose datasets our method outperforms previous work in cross-dataset evaluations by 14% and previous semi-supervised learning methods that use partial 3D annotations by 16%.
翻訳日:2021-12-23 23:07:25 公開日:2021-12-22
# (参考訳) 次元解析と記号回帰を用いた外惑星トランジット分光のモデル化 [全文訳有]

Analytical Modelling of Exoplanet Transit Specroscopy with Dimensional Analysis and Symbolic Regression ( http://arxiv.org/abs/2112.11600v1 )

ライセンス: CC BY 4.0
Konstantin T. Matchev, Katia Matcheva and Alexander Roman(参考訳) 新たに発見された太陽系外惑星の物理特性と大気化学組成は、放射移動の複雑な数値モデルから得られる遷移スペクトルからしばしば推測される。 あるいは、単純な分析式は関連する大気過程に対する洞察力のある物理的直感を与える。 ディープラーニング革命は、そのような分析結果をデータに適合するコンピュータアルゴリズムで直接導出するための扉を開いた。 概念実証として, 一般のホットジュピター系外惑星の遷移半径の合成データに記号回帰を用いることで, 対応する解析式を導出することに成功した。 プリプロセッシングのステップとして,変数の関連する次元のない組合せを次元解析により同定し,独立な入力数を減らすことにより,記号回帰の性能を向上させる。 この次元解析により、トランジット分光による太陽系外惑星大気のキャラクタリゼーションに影響を及ぼす入力大気パラメータのうち、最も一般的な退化系列を数学的に導出し、適切にパラメータ化することができる。

The physical characteristics and atmospheric chemical composition of newly discovered exoplanets are often inferred from their transit spectra which are obtained from complex numerical models of radiative transfer. Alternatively, simple analytical expressions provide insightful physical intuition into the relevant atmospheric processes. The deep learning revolution has opened the door for deriving such analytical results directly with a computer algorithm fitting to the data. As a proof of concept, we successfully demonstrate the use of symbolic regression on synthetic data for the transit radii of generic hot Jupiter exoplanets to derive a corresponding analytical formula. As a preprocessing step, we use dimensional analysis to identify the relevant dimensionless combinations of variables and reduce the number of independent inputs, which improves the performance of the symbolic regression. The dimensional analysis also allowed us to mathematically derive and properly parametrize the most general family of degeneracies among the input atmospheric parameters which affect the characterization of an exoplanet atmosphere through transit spectroscopy.
翻訳日:2021-12-23 22:50:35 公開日:2021-12-22
# (参考訳) ベイズネットワーク分布の混合物の同定

Identifying Mixtures of Bayesian Network Distributions ( http://arxiv.org/abs/2112.11602v1 )

ライセンス: CC BY 4.0
Spencer L. Gordon, Bijan Mazaheri, Yuval Rabani, Leonard J. Schulman(参考訳) ベイズネットワーク(英: Bayesian Network、略称: BND)は、有向非巡回グラフ(DAG)であり、そのグラフ上のマルコビアンであるrv上の確率分布である。 そのようなモデルの有限混合は、より大きなグラフ上の bnd のこれらの変数上の射影であり、追加の "hidden" (または "latent") 確率変数 $u$ を持ち、$\{1,\ldots,k\}$ と、$u$ から他のすべての頂点への有向辺を持つ。 このタイプのモデルは因果推論において基礎的な研究であり、$U$は相反する効果をモデル化する。 非常に特殊な例として、理論文献に長年関心を寄せてきた「空グラフ」がある。 そのような分布は単に$k$の積分布の混合である。 長年の問題は、製品分布のそれぞれとその混合重量を識別するために、$k$の製品分布の混合分布が一緒に分布していることにある。 1)$k$の製品分布の混合を$\exp(O(k^2))$から$\exp(O(k \log k))$に識別するためのサンプル複雑性(およびランタイム)を改善します。 これは、既知の $\exp(\Omega(k))$ lower bound の観点からは最もよい。 (2) 空でないグラフの場合の最初のアルゴリズムを与える。 最大次数$\Delta$のグラフの複雑性は$\exp(O(k(\Delta^2 + \log k))$である。 (上記の複雑さは近似的であり、二次パラメータへの依存を抑える。)

A Bayesian Network is a directed acyclic graph (DAG) on a set of $n$ random variables (identified with the vertices); a Bayesian Network Distribution (BND) is a probability distribution on the rv's that is Markovian on the graph. A finite mixture of such models is the projection on these variables of a BND on the larger graph which has an additional "hidden" (or "latent") random variable $U$, ranging in $\{1,\ldots,k\}$, and a directed edge from $U$ to every other vertex. Models of this type are fundamental to research in Causal Inference, where $U$ models a confounding effect. One extremely special case has been of longstanding interest in the theory literature: the empty graph. Such a distribution is simply a mixture of $k$ product distributions. A longstanding problem has been, given the joint distribution of a mixture of $k$ product distributions, to identify each of the product distributions, and their mixture weights. Our results are: (1) We improve the sample complexity (and runtime) for identifying mixtures of $k$ product distributions from $\exp(O(k^2))$ to $\exp(O(k \log k))$. This is almost best possible in view of a known $\exp(\Omega(k))$ lower bound. (2) We give the first algorithm for the case of non-empty graphs. The complexity for a graph of maximum degree $\Delta$ is $\exp(O(k(\Delta^2 + \log k)))$. (The above complexities are approximate and suppress dependence on secondary parameters.)
翻訳日:2021-12-23 22:30:22 公開日:2021-12-22
# (参考訳) EyePAD++: 近視画像を用いた共同眼球認証と提示検出のための蒸留法 [全文訳有]

EyePAD++: A Distillation-based approach for joint Eye Authentication and Presentation Attack Detection using Periocular Images ( http://arxiv.org/abs/2112.11610v1 )

ライセンス: CC BY 4.0
Prithviraj Dhar, Amit Kumar, Kirsten Kaplan, Khushi Gupta, Rakesh Ranjan, Rama Chellappa(参考訳) エッジデバイスをターゲットにした実用的なアイ認証(EA)システムは、認証を実行し、計算と遅延効率を保ちながら、プレゼンテーションアタックに対して堅牢である必要がある。 しかし、既存のアイベースのフレームワーク a)独立して認証・提示攻撃検出(PAD)を行う b) アイリス領域を抽出するための重要な前処理ステップを含む。 本稿では,眼周囲画像を用いたEAとPADのジョイントフレームワークを提案する。 深層マルチタスク学習(MTL)ネットワークは両方のタスクを実行できるが、EAとPADのトレーニングデータセットが切り離されているため、MTLは忘れる効果に悩まされる。 そこで本研究では,EA と PAD の単一ネットワークを学習する蒸留方式である PAD (EyePAD) によるアイ認証を提案する。 EAの性能をさらに向上させるため、EyePAD++と呼ばれる新しい手法を導入し、EAデータとPADデータの両方でMTLネットワークをトレーニングし、EyePADネットワークの「可逆性」を蒸留工程を通じて蒸留する。 提案手法はPADにおいてSOTAよりも優れており,眼目検証において,前処理なしでSOTAに近い性能が得られる。 また,ネットワークバックボーン間のPADによるユーザ間検証におけるEyePADとEyePAD++の有効性を示す。

A practical eye authentication (EA) system targeted for edge devices needs to perform authentication and be robust to presentation attacks, all while remaining compute and latency efficient. However, existing eye-based frameworks a) perform authentication and Presentation Attack Detection (PAD) independently and b) involve significant pre-processing steps to extract the iris region. Here, we introduce a joint framework for EA and PAD using periocular images. While a deep Multitask Learning (MTL) network can perform both the tasks, MTL suffers from the forgetting effect since the training datasets for EA and PAD are disjoint. To overcome this, we propose Eye Authentication with PAD (EyePAD), a distillation-based method that trains a single network for EA and PAD while reducing the effect of forgetting. To further improve the EA performance, we introduce a novel approach called EyePAD++ that includes training an MTL network on both EA and PAD data, while distilling the `versatility' of the EyePAD network through an additional distillation step. Our proposed methods outperform the SOTA in PAD and obtain near-SOTA performance in eye-to-eye verification, without any pre-processing. We also demonstrate the efficacy of EyePAD and EyePAD++ in user-to-user verification with PAD across network backbones and image quality.
翻訳日:2021-12-23 22:28:33 公開日:2021-12-22
# (参考訳) エントロピー・ハーディング [全文訳有]

Entropic Herding ( http://arxiv.org/abs/2112.11616v1 )

ライセンス: CC BY 4.0
Hiroshi Yamashita, Hideyuki Suzuki, and Kazuyuki Aihara(参考訳) herdingは、入力モーメント条件を満たすランダムサンプルと見なされるデータポイントを生成する決定論的アルゴリズムである。 このアルゴリズムは、高次元力学系の複雑な挙動に基づいており、統計推論の最大エントロピー原理に触発されている。 本稿では,点ではなく分布列を生成するエントロピック・ハーディング(entropic herding)と呼ばれるアルゴリズムの拡張を提案する。 最大エントロピー原理から得られる対象関数の最適化としてエントロピーハーディングが導出される。 提案手法をフレームワークとして,提案手法と最大エントロピー原理との密接な関係を論じる。 具体的には,本アルゴリズムをエントロピック・ハーディングの抽出可能なバージョンと解釈し,その理想的な出力分布を数学的に表現する。 さらに,Herdingアルゴリズムの複雑な挙動が最適化にどう貢献するかを議論する。 提案手法は,確率的モデリングへの応用を拡張したものである。 オリジナルのハーディングとは対照的に、エントロピーシェディングは、効率的な確率密度計算とサンプル生成の両方が可能な滑らかな分布を生成することができる。 そこで本研究では,合成データと実データの両方について,従来の手法との比較を含む数値実験を行った。

Herding is a deterministic algorithm used to generate data points that can be regarded as random samples satisfying input moment conditions. The algorithm is based on the complex behavior of a high-dimensional dynamical system and is inspired by the maximum entropy principle of statistical inference. In this paper, we propose an extension of the herding algorithm, called entropic herding, which generates a sequence of distributions instead of points. Entropic herding is derived as the optimization of the target function obtained from the maximum entropy principle. Using the proposed entropic herding algorithm as a framework, we discuss a closer connection between herding and the maximum entropy principle. Specifically, we interpret the original herding algorithm as a tractable version of entropic herding, the ideal output distribution of which is mathematically represented. We further discuss how the complex behavior of the herding algorithm contributes to optimization. We argue that the proposed entropic herding algorithm extends the application of herding to probabilistic modeling. In contrast to original herding, entropic herding can generate a smooth distribution such that both efficient probability density calculation and sample generation become possible. To demonstrate the viability of these arguments in this study, numerical experiments were conducted, including a comparison with other conventional methods, on both synthetic and real data.
翻訳日:2021-12-23 22:05:47 公開日:2021-12-22
# (参考訳) Diformer: ニューラルネットワーク翻訳のための方向変換器 [全文訳有]

Diformer: Directional Transformer for Neural Machine Translation ( http://arxiv.org/abs/2112.11632v1 )

ライセンス: CC BY 4.0
Minghan Wang, Jiaxin Guo, Yuxia Wang, Daimeng Wei, Hengchao Shang, Chang Su, Yimeng Chen, Yinglu Li, Min Zhang, Shimin Tao, Hao Yang(参考訳) Autoregressive (AR) と Non-autoregressive (NAR) モデルは、パフォーマンスとレイテンシにおいて、それぞれ独自の優位性を持っている。 現在の組み合わせフレームワークは、Masked Language Modelのような統合された生成モデルと複数の復号パラダイムの統合に焦点を当てている。 しかし、学習目標と推論のギャップにより、一般化が性能に悪影響を及ぼす可能性がある。 本稿では,AR と NAR の本来の目的を統一的な枠組みの下で維持することにより,そのギャップを埋めることを目的とする。 具体的には,AR と NAR を新たに導入した方向変数(左から右,右から右,ストレート)で3世代にモデル化し,各トークンの予測を制御し,その方向下で特定の依存関係を持つようにすることで,方向変換器(Diformer)を提案する。 方向によって達成された統一は、ARとNARで使われる依存性の仮定をうまく保存し、一般化と性能の両方を維持する。 4つのWMTベンチマークの実験では、Diformerは現在の統一モデリング作業よりも、ARとNARデコードの両方で1.5 BLEUポイント以上の性能を発揮しており、最先端の独立したARとNARモデルと競合している。

Autoregressive (AR) and Non-autoregressive (NAR) models have their own superiority on the performance and latency, combining them into one model may take advantage of both. Current combination frameworks focus more on the integration of multiple decoding paradigms with a unified generative model, e.g. Masked Language Model. However, the generalization can be harmful to the performance due to the gap between training objective and inference. In this paper, we aim to close the gap by preserving the original objective of AR and NAR under a unified framework. Specifically, we propose the Directional Transformer (Diformer) by jointly modelling AR and NAR into three generation directions (left-to-right, right-to-left and straight) with a newly introduced direction variable, which works by controlling the prediction of each token to have specific dependencies under that direction. The unification achieved by direction successfully preserves the original dependency assumption used in AR and NAR, retaining both generalization and performance. Experiments on 4 WMT benchmarks demonstrate that Diformer outperforms current united-modelling works with more than 1.5 BLEU points for both AR and NAR decoding, and is also competitive to the state-of-the-art independent AR and NAR models.
翻訳日:2021-12-23 21:23:56 公開日:2021-12-22
# (参考訳) 文脈的類似点からの一貫性とコヒーレンス [全文訳有]

Consistency and Coherence from Points of Contextual Similarity ( http://arxiv.org/abs/2112.11638v1 )

ライセンス: CC BY 4.0
Oleg Vasilyev, John Bohannon(参考訳) 実測一貫性は重要な要約評価次元の1つであり、特に要約生成がより流動的で一貫性のあるものになると顕著である。 近年提案されているエスタイム尺度は, 辞書の重複度が高いテキスト・要約ペアの評価に制限されているが, 一貫性と流動性の両方において, 人間のエキスパートスコアとの相関度が高い。 これは現在の要約方式には問題はないが、将来の要約システムやテキストに対する任意のクレーム評価において障害となる可能性がある。 本研究では,本手法を一般化し,任意のテキスト-要約ペアに適用する。 ESTIMEはコンテキストの類似点を使用するため、異なるBERT層から取得した情報の有用性に関する洞察を提供する。 我々は,いくつかの最下位層を除いて,ほぼすべての層に有用な情報が存在することを観察する。 一貫性とフラレンシ - ローカルテキストの詳細に焦点を当てた品質 - 最も有用なレイヤは(トップではなく)トップに近づき、一貫性と関連性のために、より複雑で興味深い図を見つけました。

Factual consistency is one of important summary evaluation dimensions, especially as summary generation becomes more fluent and coherent. The ESTIME measure, recently proposed specifically for factual consistency, achieves high correlations with human expert scores both for consistency and fluency, while in principle being restricted to evaluating such text-summary pairs that have high dictionary overlap. This is not a problem for current styles of summarization, but it may become an obstacle for future summarization systems, or for evaluating arbitrary claims against the text. In this work we generalize the method, making it applicable to any text-summary pairs. As ESTIME uses points of contextual similarity, it provides insights into usefulness of information taken from different BERT layers. We observe that useful information exists in almost all of the layers except the several lowest ones. For consistency and fluency - qualities focused on local text details - the most useful layers are close to the top (but not at the top); for coherence and relevance we found a more complicated and interesting picture.
翻訳日:2021-12-23 21:05:42 公開日:2021-12-22
# (参考訳) 非自己回帰型ニューラルマシン翻訳のための自己蒸留混合訓練 [全文訳有]

Self-Distillation Mixup Training for Non-autoregressive Neural Machine Translation ( http://arxiv.org/abs/2112.11640v1 )

ライセンス: CC BY 4.0
Jiaxin Guo, Minghan Wang, Daimeng Wei, Hengchao Shang, Yuxia Wang, Zongyao Li, Zhengzhe Yu, Zhanglin Wu, Yimeng Chen, Chang Su, Min Zhang, Lizhi Lei, shimin tao and Hao Yang(参考訳) 近年、非自己回帰(NAT)モデルは出力を並列に予測し、自己回帰(AT)モデルと比較して生成速度を大幅に改善している。 生データでより悪い処理を行う一方で、ほとんどのnatモデルは、シーケンスレベルの知識蒸留として知られるat教師モデルによって生成された蒸留データの生徒モデルとして訓練される。 ATモデルの性能を向上させるための効果的なトレーニング戦略は、生データ上でモデルを事前訓練し、事前訓練されたモデル自身で蒸留データを生成し、最終的に生データと蒸留データの組み合わせに基づいてモデルを再訓練する自己蒸留混合訓練(SDM)である。 本研究では,NATモデルにSDMを直接適用することを目的としているが,翻訳品質の面では改善されていない。 注意深い分析により、AT教師モデルとNAT学生モデルの間のモデリング多様性と確認バイアスの相関が観察される。 これらの知見に基づいて,従来のSDMに2つの段階を追加することで,SDMRTと呼ばれる拡張戦略を提案し,その1つは自己蒸留データに対する事前参照であり,もう1つはフィルタ教師蒸留データに対するファインチューンである。 結果は複数のnatモデルで0.6から1.2 bleuのベースラインを上回った。 別のボーナスとして、反復リファインメントNATモデルでは、本手法は半繰り返し数でベースラインを上回り、つまり2倍の加速を達成できる。

Recently, non-autoregressive (NAT) models predict outputs in parallel, achieving substantial improvements in generation speed compared to autoregressive (AT) models. While performing worse on raw data, most NAT models are trained as student models on distilled data generated by AT teacher models, which is known as sequence-level Knowledge Distillation. An effective training strategy to improve the performance of AT models is Self-Distillation Mixup (SDM) Training, which pre-trains a model on raw data, generates distilled data by the pre-trained model itself and finally re-trains a model on the combination of raw data and distilled data. In this work, we aim to view SDM for NAT models, but find directly adopting SDM to NAT models gains no improvements in terms of translation quality. Through careful analysis, we observe the invalidation is correlated to Modeling Diversity and Confirmation Bias between the AT teacher model and the NAT student models. Based on these findings, we propose an enhanced strategy named SDMRT by adding two stages to classic SDM: one is Pre-Rerank on self-distilled data, the other is Fine-Tune on Filtered teacher-distilled data. Our results outperform baselines by 0.6 to 1.2 BLEU on multiple NAT models. As another bonus, for Iterative Refinement NAT models, our methods can outperform baselines within half iteration number, which means 2X acceleration.
翻訳日:2021-12-23 20:54:23 公開日:2021-12-22
# (参考訳) 自律運転における知覚システムの可視性評価指標の探索 [全文訳有]

Exploring Credibility Scoring Metrics of Perception Systems for Autonomous Driving ( http://arxiv.org/abs/2112.11643v1 )

ライセンス: CC BY 4.0
Viren Khandal, Arth Vidyarthi(参考訳) 自動運転車と半自律車両の認識アルゴリズムは、道路上の物体の誤分類などの誤った物体検出の状況に遭遇し、安全違反や致命的な結果につながる可能性がある。 オブジェクト検出アルゴリズムとオンラインメトリック学習の堅牢性には大きな成果があるが、潜在的な誤分類の指標を決定するためにメトリクスをスコア付けする研究は少ない。 AVがリアルタイムの制約に応じて知覚に基づく意思決定を可能にするために、これらの評価指標をオンラインで取得する可能性を探ることに重点を置いている。 本研究では,知覚アルゴリズムと物体検出装置が故障した際のオンライン指標として機能する指標を探索する。 我々の研究は、オブジェクト検出器の信頼性を正確に評価するために、オンラインメトリクスの設計原則と特性に関する洞察を提供する。 提案手法では,画像に対する非敵対的かつ現実的な摂動を用いて,様々な定量的指標を評価する。 オフラインのメトリクスは、悪天候などの現実世界の腐敗を考慮し、そのようなメトリクスの分析がオンラインのメトリクスの設計に一役買うことができることが分かりました。 これは、エラーのない自動運転車の認識と、より安全な時間クリティカルかつ安全クリティカルな意思決定を可能にするため、明らかな次のステップである。

Autonomous and semi-autonomous vehicles' perception algorithms can encounter situations with erroneous object detection, such as misclassification of objects on the road, which can lead to safety violations and potentially fatal consequences. While there has been substantial work in the robustness of object detection algorithms and online metric learning, there is little research on benchmarking scoring metrics to determine any possible indicators of potential misclassification. An emphasis is put on exploring the potential of taking these scoring metrics online in order to allow the AV to make perception-based decisions given real-time constraints. In this work, we explore which, if any, metrics act as online indicators of when perception algorithms and object detectors are failing. Our work provides insight on better design principles and characteristics of online metrics to accurately evaluate the credibility of object detectors. Our approach employs non-adversarial and realistic perturbations to images, on which we evaluate various quantitative metrics. We found that offline metrics can be designed to account for real-world corruptions such as poor weather conditions and that the analysis of such metrics can provide a segue into designing online metrics. This is a clear next step as it can allow for error-free autonomous vehicle perception and safer time-critical and safety-critical decision-making.
翻訳日:2021-12-23 20:37:42 公開日:2021-12-22
# (参考訳) 炭素捕獲設計最適化のための潜時空間シミュレーション [全文訳有]

Latent Space Simulation for Carbon Capture Design Optimization ( http://arxiv.org/abs/2112.11656v1 )

ライセンス: CC BY 4.0
Brian Bartoldson, Rui Wang, Yucheng Fu, David Widemann, Sam Nguyen, Jie Bao, Zhijie Xu, Brenda Ng(参考訳) 溶剤系炭素捕獲システム(CCS)のCO2捕捉効率は、ガス溶性界面領域(IA)に依存し、IAの最大化はCCS設計の基本的な課題である。 計算流体力学(CFD)シミュレーションにより、特定のCCS設計に関連するIAを推定できるが、CFDを用いて多数のCCS設計に関連するIAを導出するのは、非常にコストがかかる。 幸いなことに、Deep Fluids (DF) (Kim et al., 2019)のような以前の研究は、CFDシミュレータをニューラルネットワーク(NN)サロゲートに置き換え、CFDシミュレーションプロセスを忠実に模倣することで、大規模なシミュレーションスピードアップを実現することができることを示した。 これにより、CFDシミュレータの高速かつ正確な置換が可能となり、CCS設計の最適化に必要なIAAの効率的な近似が可能となる。 そこで本研究では, 複雑な炭素回収cfdシミュレーションに適用可能なサロゲートを開発するためのdf手法を構築した。 最適化されたDF型サロゲートは、トレーニング設定の範囲内にある未確認CCS構成に対して、IA相対誤差を4%以下に抑えながら、大きなスピードアップ(4000x)を発生させる。 これは、CCS設計最適化問題に対するNNサロゲートの約束を示唆している。 それにもかかわらず、DF は CCS の設計に関して本質的に制限がある(例えば、訓練されたモデルの新しい CCS パッケージへの移植可能性に制限がある)。 これらの課題に対処するためのアイデアで締めくくります。

The CO2 capture efficiency in solvent-based carbon capture systems (CCSs) critically depends on the gas-solvent interfacial area (IA), making maximization of IA a foundational challenge in CCS design. While the IA associated with a particular CCS design can be estimated via a computational fluid dynamics (CFD) simulation, using CFD to derive the IAs associated with numerous CCS designs is prohibitively costly. Fortunately, previous works such as Deep Fluids (DF) (Kim et al., 2019) show that large simulation speedups are achievable by replacing CFD simulators with neural network (NN) surrogates that faithfully mimic the CFD simulation process. This raises the possibility of a fast, accurate replacement for a CFD simulator and therefore efficient approximation of the IAs required by CCS design optimization. Thus, here, we build on the DF approach to develop surrogates that can successfully be applied to our complex carbon-capture CFD simulations. Our optimized DF-style surrogates produce large speedups (4000x) while obtaining IA relative errors as low as 4% on unseen CCS configurations that lie within the range of training configurations. This hints at the promise of NN surrogates for our CCS design optimization problem. Nonetheless, DF has inherent limitations with respect to CCS design (e.g., limited transferability of trained models to new CCS packings). We conclude with ideas to address these challenges.
翻訳日:2021-12-23 20:27:50 公開日:2021-12-22
# (参考訳) 空間時間グラフ情報を用いた再生可能な最適潮流の深部強化学習 [全文訳有]

Deep Reinforcement Learning for Optimal Power Flow with Renewables Using Spatial-Temporal Graph Information ( http://arxiv.org/abs/2112.11461v1 )

ライセンス: CC BY 4.0
Jinhao Li and Ruichang Zhang and Hao Wang and Zhi Liu and Hongyang Lai and Yanru Zhang(参考訳) 再生可能エネルギー資源(RER)は、特に大規模配電ネットワーク(DN)において、現代の電力システムに統合されつつある。 本稿では,RERの獲得率が高いDNにおいて,最適動作点,すなわち最適電力フロー(OPF)を動的に探索する深部強化学習(DRL)に基づくアプローチを提案する。 RERによる不確実性と電圧変動の問題を考慮すると、OPFを多目的最適化(MOO)問題に定式化する。 このMOO問題を解決するために,分散ネットワークのグラフィカル情報を利用した新しいDRLアルゴリズムを開発した。 具体的には、最新のDRLアルゴリズム、すなわち、深い決定論的ポリシー勾配(DDPG)を用いて、OPFの最適戦略を学習する。 DNにおける電力フロー再配置は、ノードが時間的および空間的ビューで自己相関し相互関係を持つ連続的なプロセスであるため、DNのグラフィカル情報を完全に活用するために、空間時空間グラフ情報抽出のための多粒度注意に基づく空間時空間グラフ畳み込みネットワーク(MG-ASTGCN)を開発し、そのシーケンシャルDDPGに備える。 改良型IEEE 33, 69, 118バスラジアル分布系(RDS)におけるDRLベースのアプローチの有効性を検証し, DRLベースのアプローチが他のベンチマークアルゴリズムよりも優れていることを示す。 実験の結果,MG-ASTGCN は DDPG トレーニングプロセスを大幅に加速し,OPF における DDPG の効率を向上させることができることがわかった。 DRLに基づく提案手法は、特に大規模DNに対するノード故障の存在下でのDNsの安定性を促進する。

Renewable energy resources (RERs) have been increasingly integrated into modern power systems, especially in large-scale distribution networks (DNs). In this paper, we propose a deep reinforcement learning (DRL)-based approach to dynamically search for the optimal operation point, i.e., optimal power flow (OPF), in DNs with a high uptake of RERs. Considering uncertainties and voltage fluctuation issues caused by RERs, we formulate OPF into a multi-objective optimization (MOO) problem. To solve the MOO problem, we develop a novel DRL algorithm leveraging the graphical information of the distribution network. Specifically, we employ the state-of-the-art DRL algorithm, i.e., deep deterministic policy gradient (DDPG), to learn an optimal strategy for OPF. Since power flow reallocation in the DN is a consecutive process, where nodes are self-correlated and interrelated in temporal and spatial views, to make full use of DNs' graphical information, we develop a multi-grained attention-based spatial-temporal graph convolution network (MG-ASTGCN) for spatial-temporal graph information extraction, preparing for its sequential DDPG. We validate our proposed DRL-based approach in modified IEEE 33, 69, and 118-bus radial distribution systems (RDSs) and show that our DRL-based approach outperforms other benchmark algorithms. Our experimental results also reveal that MG-ASTGCN can significantly accelerate the DDPG training process and improve DDPG's capability in reallocating power flow for OPF. The proposed DRL-based approach also promotes DNs' stability in the presence of node faults, especially for large-scale DNs.
翻訳日:2021-12-23 20:12:37 公開日:2021-12-22
# (参考訳) ブラックボックスNLP分類器に対するアテンションスコアベースアタック [全文訳有]

An Attention Score Based Attacker for Black-box NLP Classifier ( http://arxiv.org/abs/2112.11660v1 )

ライセンス: CC BY 4.0
Yueyang Liu, Hunmin Lee, Zhipeng Cai(参考訳) ディープニューラルネットワークは、様々な現実世界のタスクを解くための幅広い応用があり、コンピュータビジョン、画像分類、自然言語処理などの領域で満足な結果を得た。 一方で、ニューラルネットワークのセキュリティと堅牢性は、さまざまな研究がニューラルネットワークの脆弱な側面を示しているため、必須となっている。 この場合、自然言語処理タスクでは、ニューラルネットワークは注意的に修正されたテキストによって騙される可能性がある。 前回の研究では、ほとんどの研究は画像領域に焦点を当てており、画像敵対攻撃とは異なり、テキストは離散シーケンスで表現されるが、従来の画像攻撃法はNLPフィールドには適用されない。 本稿では,自己認識機構に基づく単語選択法と,単語置換のための欲求探索アルゴリズムを含む,単語レベルのNLP感情分類器攻撃モデルを提案する。 我々は,IMDBデータセット上でGRUと1D-CNNの被害者モデルを攻撃し,攻撃モデルを実験した。 実験の結果, 単語選択アルゴリズムの効率が向上し, 単語置換数が最小化され, 攻撃成功率が高く, 従来手法よりも効率的であることが判明した。 また、我々のモデルは転送可能であり、いくつかの変更を加えて画像領域で使用することができる。

Deep neural networks have a wide range of applications in solving various real-world tasks and have achieved satisfactory results, in domains such as computer vision, image classification, and natural language processing. Meanwhile, the security and robustness of neural networks have become imperative, as diverse researches have shown the vulnerable aspects of neural networks. Case in point, in Natural language processing tasks, the neural network may be fooled by an attentively modified text, which has a high similarity to the original one. As per previous research, most of the studies are focused on the image domain; Different from image adversarial attacks, the text is represented in a discrete sequence, traditional image attack methods are not applicable in the NLP field. In this paper, we propose a word-level NLP sentiment classifier attack model, which includes a self-attention mechanism-based word selection method and a greedy search algorithm for word substitution. We experiment with our attack model by attacking GRU and 1D-CNN victim models on IMDB datasets. Experimental results demonstrate that our model achieves a higher attack success rate and more efficient than previous methods due to the efficient word selection algorithms are employed and minimized the word substitute number. Also, our model is transferable, which can be used in the image domain with several modifications.
翻訳日:2021-12-23 19:33:47 公開日:2021-12-22
# (参考訳) 非一様ハイパーグラフ確率ブロックモデルにおける部分回復と弱一貫性

Partial recovery and weak consistency in the non-uniform hypergraph Stochastic Block Model ( http://arxiv.org/abs/2112.11671v1 )

ライセンス: CC BY 4.0
Ioana Dumitriu, Haixiao Wang and Yizhe Zhu(参考訳) 本研究では,非一様ハイパーグラフ確率ブロックモデル(HSBM)に基づくスパース・ランダム・ハイパーグラフにおけるコミュニティ検出問題について考察する。 ランダムハイパーグラフが有界次数を持つ場合、少なくとも$\gamma$区切りを正しく分類した頂点を出力するスペクトルアルゴリズムを提供し、$\gamma\in (0.5,1)$はモデルの信号-雑音比(SNR)に依存する。 頂点数が無限に近づくにつれてSNRが緩やかに増加すると、我々のアルゴリズムは弱い一貫性を達成し、非一様HSBMに対するGhoshdastidar と Dukkipati (2017) の以前の結果を改善する。 スペクトルアルゴリズムは,(1)ハイパーエッジ選択:誘導サブハイパーグラフの最大信号対雑音比を提供するために,一定の大きさのハイパーエッジを選択する;(2)スペクトル分割:正規化隣接行列を構築し,特異ベクトルに基づく近似分割を得る;(3)補正とマージ:隣接テンソルからのハイパーエッジ情報を取り込んでエラー率保証をアップグレードする。 本アルゴリズムの理論的解析は,非一様非一様ハイパーグラフに対する隣接行列の濃度と正則化に依存する。

We consider the community detection problem in sparse random hypergraphs under the non-uniform hypergraph stochastic block model (HSBM), a general model of random networks with community structure and higher-order interactions. When the random hypergraph has bounded expected degrees, we provide a spectral algorithm that outputs a partition with at least a $\gamma$ fraction of the vertices classified correctly, where $\gamma\in (0.5,1)$ depends on the signal-to-noise ratio (SNR) of the model. When the SNR grows slowly as the number of vertices goes to infinity, our algorithm achieves weak consistency, which improves the previous results in Ghoshdastidar and Dukkipati (2017) for non-uniform HSBMs. Our spectral algorithm consists of three major steps: (1) Hyperedge selection: select hyperedges of certain sizes to provide the maximal signal-to-noise ratio for the induced sub-hypergraph; (2) Spectral partition: construct a regularized adjacency matrix and obtain an approximate partition based on singular vectors; (3) Correction and merging: incorporate the hyperedge information from adjacency tensors to upgrade the error rate guarantee. The theoretical analysis of our algorithm relies on the concentration and regularization of the adjacency matrix for sparse non-uniform random hypergraphs, which can be of independent interest.
翻訳日:2021-12-23 19:23:19 公開日:2021-12-22
# (参考訳) コスト集約は、最小限のセグメンテーションに必要なすべてである [全文訳有]

Cost Aggregation Is All You Need for Few-Shot Segmentation ( http://arxiv.org/abs/2112.11685v1 )

ライセンス: CC BY 4.0
Sunghwan Hong, Seokju Cho, Jisu Nam, Seungryong Kim(参考訳) コンボリューションとトランスフォーマーの両方を用いて,クエリとサポートの間の高次元相関マップを効率的に処理することで,数ショットのセグメンテーションタスクに取り組むために,VAT(Volumetric Aggregation with Transformers)と呼ばれる新しいコスト集約ネットワークを導入する。 具体的には, ボリューム埋め込みモジュールからなるエンコーダを提案し, 相関写像をよりトラクタブルなサイズに変換するだけでなく, コストアグリゲーションのための畳み込み帰納バイアスと体積変換モジュールを注入する。 我々のエンコーダはピラミッド構造を持ち、粗いレベルを集約してより細かいレベルをガイドし、相補的なマッチングスコアを学習できるようにします。 次に、出力をアフィニティ対応デコーダに入力し、プロジェクションされた特徴マップと合わせてセグメント化プロセスの導出を行う。 これらのコンポーネントを組み合わせることで,提案手法の有効性を実証する実験を行い,本手法は,全標準ベンチマークに対して,数発のセグメンテーションタスクで新たな最先端を設定できる。 さらに,提案手法は,意味対応タスクの標準ベンチマークにおいても,そのタスクに特化して設計されていないものの,最先端性能を実現する。 また、アーキテクチャの選択を検証するための広範なアブレーション調査も行います。 トレーニングされたウェイトとコードは以下の通りである。

We introduce a novel cost aggregation network, dubbed Volumetric Aggregation with Transformers (VAT), to tackle the few-shot segmentation task by using both convolutions and transformers to efficiently handle high dimensional correlation maps between query and support. In specific, we propose our encoder consisting of volume embedding module to not only transform the correlation maps into more tractable size but also inject some convolutional inductive bias and volumetric transformer module for the cost aggregation. Our encoder has a pyramidal structure to let the coarser level aggregation to guide the finer level and enforce to learn complementary matching scores. We then feed the output into our affinity-aware decoder along with the projected feature maps for guiding the segmentation process. Combining these components, we conduct experiments to demonstrate the effectiveness of the proposed method, and our method sets a new state-of-the-art for all the standard benchmarks in few-shot segmentation task. Furthermore, we find that the proposed method attains state-of-the-art performance even for the standard benchmarks in semantic correspondence task although not specifically designed for this task. We also provide an extensive ablation study to validate our architectural choices. The trained weights and codes are available at: https://seokju-cho.g ithub.io/VAT/.
翻訳日:2021-12-23 19:20:55 公開日:2021-12-22
# (参考訳) 分割認識による高精度RGB-D顔認識とマスク誘導注意ネットワーク

High-Accuracy RGB-D Face Recognition via Segmentation-Aware Face Depth Estimation and Mask-Guided Attention Network ( http://arxiv.org/abs/2112.11713v1 )

ライセンス: CC BY 4.0
Meng-Tzu Chiu, Hsun-Ying Cheng, Chien-Yi Wang, Shang-Hong Lai(参考訳) ディープラーニングアプローチは、非常に大きな顔画像データセットでモデルをトレーニングすることで、極めて正確な顔認識を実現している。 大規模な2D顔画像データセットが利用可能であるのと異なり、大規模な3D顔データセットが公開されていない。 既存の3d顔データセットは通常、ごく少数の被験者で収集され、過剰フィッティング問題を引き起こした。 本稿では,RGB-D顔認識タスクを改善するための2つのCNNモデルを提案する。 1つ目はDepthNetと呼ばれるセグメンテーション対応深度推定ネットワークで、より正確な顔領域のローカライゼーションのためのセグメンテーション情報を含むRGBの顔画像から深度マップを推定する。 もう1つは、rgb認識ブランチ、深度マップ認識ブランチ、空間注意モジュールを備えた補助セグメンテーションマスクブランチを含む、新しいマスク誘導型rgb-d顔認識モデルである。 我々のDepthNetは、大きな2次元顔画像データセットを大きなRGB-D顔データセットに拡張するために使用され、正確なRGB-D顔認識モデルのトレーニングに使用される。 さらに,提案するマスク誘導型rgb-d顔認識モデルでは,深度マップとセグメンテーションマスク情報を十分に活用でき,従来の手法よりもポーズ変動に対して頑健である。 実験結果から,DepthNetは分割マスクを用いた顔画像からより信頼性の高い深度マップを作成できることがわかった。 マスク誘導顔認識モデルは、いくつかの公開3次元顔データセットにおいて最先端の手法より優れている。

Deep learning approaches have achieved highly accurate face recognition by training the models with very large face image datasets. Unlike the availability of large 2D face image datasets, there is a lack of large 3D face datasets available to the public. Existing public 3D face datasets were usually collected with few subjects, leading to the over-fitting problem. This paper proposes two CNN models to improve the RGB-D face recognition task. The first is a segmentation-aware depth estimation network, called DepthNet, which estimates depth maps from RGB face images by including semantic segmentation information for more accurate face region localization. The other is a novel mask-guided RGB-D face recognition model that contains an RGB recognition branch, a depth map recognition branch, and an auxiliary segmentation mask branch with a spatial attention module. Our DepthNet is used to augment a large 2D face image dataset to a large RGB-D face dataset, which is used for training an accurate RGB-D face recognition model. Furthermore, the proposed mask-guided RGB-D face recognition model can fully exploit the depth map and segmentation mask information and is more robust against pose variation than previous methods. Our experimental results show that DepthNet can produce more reliable depth maps from face images with the segmentation mask. Our mask-guided face recognition model outperforms state-of-the-art methods on several public 3D face datasets.
翻訳日:2021-12-23 18:59:38 公開日:2021-12-22
# (参考訳) Bitcoinにおける悪意あるアドレス識別を目指して [全文訳有]

Towards Malicious address identification in Bitcoin ( http://arxiv.org/abs/2112.11721v1 )

ライセンス: CC BY 4.0
Deepesh Chaudhari, Rachit Agarwal, Sandeep Kumar Shukla(参考訳) ブロックチェーントランザクションの時間的側面により、アドレスの振る舞いを調査でき、不正なアクティビティに関与しているかどうかを検出できます。 しかし、変更アドレス(リプレイ攻撃に使用される)の概念のため、時間的側面はbitcoinブロックチェーンでは直接適用されない。 このような時間的側面を利用する前に、いくつかの前処理ステップを実行する必要がある。 私たちは、Bitcoinトランザクションネットワークを調査し、バースト、魅力、イベント間時間などの時間的特徴と、ノードの度合いやクラスタリング係数などのグラフベースのプロパティを使用して、ビットコインブロックチェーン上の他のブロックチェーンブロックチェーンで知られている既存のアプローチの適用性を検証しています。 時間的および非時間的特徴集合を生成し、機械学習(ml)アルゴリズムを異なる時間的粒度で訓練し、最先端の手法を検証する。 データセットの時間的粒度の異なるアドレスの挙動について検討する。 変更適応クラスタリングを適用した後、Bitcoinでは、既存の時間的特徴を抽出し、MLアプローチを適用することができる。 結果の比較分析によると、EthereumとBitcoinのアドレスの振る舞いは、インディグリー、アウトディグリー、インターイベントタイムと似ている。 さらに,時間的粒度の異なる有害な行動を示す3人の被疑者を同定した。 これらの容疑者はBitcoinでは悪意がない。

The temporal aspect of blockchain transactions enables us to study the address's behavior and detect if it is involved in any illicit activity. However, due to the concept of change addresses (used to thwart replay attacks), temporal aspects are not directly applicable in the Bitcoin blockchain. Several pre-processing steps should be performed before such temporal aspects are utilized. We are motivated to study the Bitcoin transaction network and use the temporal features such as burst, attractiveness, and inter-event time along with several graph-based properties such as the degree of node and clustering coefficient to validate the applicability of already existing approaches known for other cryptocurrency blockchains on the Bitcoin blockchain. We generate the temporal and non-temporal feature set and train the Machine Learning (ML) algorithm over different temporal granularities to validate the state-of-the-art methods. We study the behavior of the addresses over different time granularities of the dataset. We identify that after applying change-address clustering, in Bitcoin, existing temporal features can be extracted and ML approaches can be applied. A comparative analysis of results show that the behavior of addresses in Ethereum and Bitcoin is similar with respect to in-degree, out-degree and inter-event time. Further, we identify 3 suspects that showed malicious behavior across different temporal granularities. These suspects are not marked as malicious in Bitcoin.
翻訳日:2021-12-23 18:58:27 公開日:2021-12-22
# (参考訳) 運動ベクトル領域におけるビデオステガナリシスの局所最適化 [全文訳有]

Generalized Local Optimality for Video Steganalysis in Motion Vector Domain ( http://arxiv.org/abs/2112.11729v1 )

ライセンス: CC BY 4.0
Liming Zhai, Lina Wang, Yanzhen Ren and Yang Liu(参考訳) 動きベクトルの局所的最適性(MVs)はビデオ符号化における固有の性質であり、MVへの変更は必然的にこの最適性を破壊し、MV領域におけるステガノグラフィーの感度指標となる。 したがって、局所最適性はステガナリシスの特徴を設計するために一般的に用いられ、局所最適性の推定はビデオステグアナリシスにおいて最優先事項となっている。 しかし、既存の作品の局所的最適性はしばしば不正確または不合理な仮定を用いて推定され、ステガナリシスの能力を制限する。 本稿では,より合理的で包括的な方法で局所最適性を推定し,二つの側面から局所最適性の概念を一般化する。 まず、速度歪感で測定された局所最適度をMVと予測運動ベクトル(PMV)で共同で決定し、PMVの変動性は局所最適度の推定に影響を及ぼす。 したがって、局所最適性は静的推定から動的推定へと一般化する。 第二に、MVはMVの特殊な場合であり、MVの埋め込みトレースを反映することもできる。 したがって、MV領域からMV領域への局所最適性を一般化する。 局所最適性の2つの一般化に基づき、新しいタイプのステガナリシス特徴を構築し、特徴次元を減らすための特徴対称性規則を提案する。 3つのデータベース上で行った大規模な実験により,提案手法の有効性が実証され,様々な条件下での精度とロバスト性を両立させることができた。

The local optimality of motion vectors (MVs) is an intrinsic property in video coding, and any modifications to the MVs will inevitably destroy this optimality, making it a sensitive indicator of steganography in the MV domain. Thus the local optimality is commonly used to design steganalytic features, and the estimation for local optimality has become a top priority in video steganalysis. However, the local optimality in existing works is often estimated inaccurately or using an unreasonable assumption, limiting its capability in steganalysis. In this paper, we propose to estimate the local optimality in a more reasonable and comprehensive fashion, and generalize the concept of local optimality in two aspects. First, the local optimality measured in a rate-distortion sense is jointly determined by MV and predicted motion vector (PMV), and the variability of PMV will affect the estimation for local optimality. Hence we generalize the local optimality from a static estimation to a dynamic one. Second, the PMV is a special case of MV, and can also reflect the embedding traces in MVs. So we generalize the local optimality from the MV domain to the PMV domain. Based on the two generalizations of local optimality, we construct new types of steganalytic features and also propose feature symmetrization rules to reduce feature dimension. Extensive experiments performed on three databases demonstrate the effectiveness of the proposed features, which achieve state-of-the-art in both accuracy and robustness in various conditions, including cover source mismatch, video prediction methods, video codecs, and video resolutions.
翻訳日:2021-12-23 18:45:02 公開日:2021-12-22
# (参考訳) GameRLand3D環境におけるグラフ強化深部強化学習

Graph augmented Deep Reinforcement Learning in the GameRLand3D environment ( http://arxiv.org/abs/2112.11731v1 )

ライセンス: CC BY 4.0
Edward Beeching, Maxim Peter, Philippe Marcotte, Jilles Debangoye, Olivier Simonin, Joshua Romoff, Christian Wolf(参考訳) 特別行動を用いたエージェントが到達可能な非接続領域の地図を特徴とする3Dゲームにおける計画とナビゲーションの課題に対処する。 この設定では、古典的な記号プランナーは適用できないか、適応が難しい。 強化学習で訓練された低レベルポリシーとグラフに基づく高レベル古典プランナを組み合わせたハイブリッド手法を提案する。 人間の解釈可能な経路を提供することに加えて、この手法は、未確認の地図におけるエンドツーエンドアプローチの一般化性能を改善し、1km×1kmの大規模地図では、ポイント・ツー・ポイント・ナビゲーションタスクにおいて、繰り返しエンド・ツー・エンドエージェントよりも20%絶対的な成功率の向上を達成する。 In-deepth experimental study, we quantify the limit of end-to-end Deep RL approach in vast environment and we also also introduced "GameRLand3D, a new benchmark and soon to release environment can generate complex procedural 3D map for navigation task。

We address planning and navigation in challenging 3D video games featuring maps with disconnected regions reachable by agents using special actions. In this setting, classical symbolic planners are not applicable or difficult to adapt. We introduce a hybrid technique combining a low level policy trained with reinforcement learning and a graph based high level classical planner. In addition to providing human-interpretable paths, the approach improves the generalization performance of an end-to-end approach in unseen maps, where it achieves a 20% absolute increase in success rate over a recurrent end-to-end agent on a point to point navigation task in yet unseen large-scale maps of size 1km x 1km. In an in-depth experimental study, we quantify the limitations of end-to-end Deep RL approaches in vast environments and we also introduce "GameRLand3D", a new benchmark and soon to be released environment can generate complex procedural 3D maps for navigation tasks.
翻訳日:2021-12-23 18:15:56 公開日:2021-12-22
# (参考訳) 理論的複雑性とブール満足性について

On Theoretical Complexity and Boolean Satisfiability ( http://arxiv.org/abs/2112.11769v1 )

ライセンス: CC0 1.0
Mohamed Ghanem, Dauod Siniora(参考訳) 理論的複雑性は計算機科学の重要な分野であり、計算を数学的に調査し、計算問題の性質に関する多くの興味深い質問に答えることができる。 計算の時間と空間の要求を評価する理論的ツールと、問題の難易度を評価するツールを提供する。 また、数学において最も重要な問題、すなわち$\textbf{P vs. NP}$ millennium 問題の中核となる問題にも着目している。 本質的にこの問題は、ソリューションと検証が2つの異なる難易度レベルに存在するかどうかを問うものである。 本稿では,計算理論において最も中心的な概念をいくつか紹介し,チューリングマシンを用いた計算の抽象化について概説する。 さらに、最も有名な2つの問題複雑性クラスである$\textbf{p}$と$\textbf{np}$をそれらの関係とともに紹介する。 さらに,問題削減の概念と,異なる問題間の硬度比較を行うための重要なツールについて解説する。 その後、NP完全問題の中心に位置するブール満足度(SAT)の問題を示す。 次に,Hhorn-SAT や 3-SAT などの抽出可能な変種を探索する。 最後に、3SATから有名なNP完全グラフ問題(Clique Finding, Hamiltonian Cycle Finding, 3-Coloring)への多項式時間短縮を確立する。

Theoretical complexity is a vital subfield of computer science that enables us to mathematically investigate computation and answer many interesting queries about the nature of computational problems. It provides theoretical tools to assess time and space requirements of computations along with assessing the difficultly of problems - classifying them accordingly. It also garners at its core one of the most important problems in mathematics, namely, the $\textbf{P vs. NP}$ millennium problem. In essence, this problem asks whether solution and verification reside on two different levels of difficulty. In this thesis, we introduce some of the most central concepts in the Theory of Computing, giving an overview of how computation can be abstracted using Turing machines. Further, we introduce the two most famous problem complexity classes $\textbf{P}$ and $\textbf{NP}$ along with the relationship between them. In addition, we explicate the concept of problem reduction and how it is an essential tool for making hardness comparisons between different problems. Later, we present the problem of Boolean Satisfiability (SAT) which lies at the center of NP-complete problems. We then explore some of its tractable as well as intractable variants such as Horn-SAT and 3-SAT, respectively. Last but not least, we establish polynomial-time reductions from 3-SAT to some of the famous NP-complete graph problems, namely, Clique Finding, Hamiltonian Cycle Finding, and 3-Coloring.
翻訳日:2021-12-23 18:15:06 公開日:2021-12-22
# (参考訳) シーケンスモデリングにおける電流入力の重要性 [全文訳有]

The Importance of the Current Input in Sequence Modeling ( http://arxiv.org/abs/2112.11776v1 )

ライセンス: CC BY 4.0
Christian Oliva and Luis F. Lago-Fern\'andez(参考訳) シーケンスモデリングの最後の進歩は、主にディープラーニングアプローチに基づいている。 この技術の現状には、標準のLSTMアーキテクチャのバリエーションの使用と、トレーニングされたニューラルネットワークの最終予測率を改善するいくつかのトリックが含まれている。 しかし、場合によっては、これらの適応は、対処されている特定の問題に対して余りに調整される可能性がある。 本稿では,入力と出力を直接接続する,再帰モジュールをスキップする,非常に単純なアイデアが,自然言語処理に関連するシーケンスモデリング問題における予測精度の向上につながることを示す。 異なる問題で実施された実験は、この種のネットワークへの接続が、アーキテクチャやトレーニング特有の詳細に関わらず、常に結果を改善することを示している。 このアイデアがフィールドを導くモデルに導入されると、結果のネットワークは言語モデリング問題において新しい最先端のパープレキシティを実現する。

The last advances in sequence modeling are mainly based on deep learning approaches. The current state of the art involves the use of variations of the standard LSTM architecture, combined with several tricks that improve the final prediction rates of the trained neural networks. However, in some cases, these adaptations might be too much tuned to the particular problems being addressed. In this article, we show that a very simple idea, to add a direct connection between the input and the output, skipping the recurrent module, leads to an increase of the prediction accuracy in sequence modeling problems related to natural language processing. Experiments carried out on different problems show that the addition of this kind of connection to a recurrent network always improves the results, regardless of the architecture and training-specific details. When this idea is introduced into the models that lead the field, the resulting networks achieve a new state-of-the-art perplexity in language modeling problems.
翻訳日:2021-12-23 18:13:58 公開日:2021-12-22
# (参考訳) YOLO-Z:自動運転車用YOLOv5の小型物体検出の改良 [全文訳有]

YOLO-Z: Improving small object detection in YOLOv5 for autonomous vehicles ( http://arxiv.org/abs/2112.11798v1 )

ライセンス: CC BY 4.0
Aduen Benjumea, Izzedin Teeti, Fabio Cuzzolin, Andrew Bradley(参考訳) 自動運転車や自動運転レースの人気が高まるにつれ、より高速で正確な検知器も必要になる。 私たちの裸眼は、ほぼ瞬時に、たとえ遠くからでもコンテキスト情報を抽出することができるが、画像解像度と計算資源の制限により、小さなオブジェクト(つまり、入力画像の小さなピクセル領域を占めるオブジェクト)の検出は、マシンと幅広い研究分野において真に困難なタスクとなる。 本研究は, YOLOv5物体検出器を改良して, 小型物体の検出性能を向上し, 自律走行に応用する方法について検討した。 そこで本研究では,モデルの構造的要素(接続やパラメータなど)の置き換えが,性能や推論時間に与える影響について検討する。 そこで我々は,小型物体を50%IOUで検出した場合のmAPの最大6.9%の改善を,従来のYOLOv5に比べてわずか3msの推算時間で示した。 我々の目標は、YOLOv5のような一般的な検出器を調整して特定のタスクに対処し、特定の変化が小さな物体検出にどのように影響するかを、将来の研究に知らせることである。 このような発見は、自動運転車の広い文脈に適用され、そのようなシステムで利用可能なコンテキスト情報量を増やす可能性がある。

As autonomous vehicles and autonomous racing rise in popularity, so does the need for faster and more accurate detectors. While our naked eyes are able to extract contextual information almost instantly, even from far away, image resolution and computational resources limitations make detecting smaller objects (that is, objects that occupy a small pixel area in the input image) a genuinely challenging task for machines and a wide-open research field. This study explores how the popular YOLOv5 object detector can be modified to improve its performance in detecting smaller objects, with a particular application in autonomous racing. To achieve this, we investigate how replacing certain structural elements of the model (as well as their connections and other parameters) can affect performance and inference time. In doing so, we propose a series of models at different scales, which we name `YOLO-Z', and which display an improvement of up to 6.9% in mAP when detecting smaller objects at 50% IOU, at the cost of just a 3ms increase in inference time compared to the original YOLOv5. Our objective is to inform future research on the potential of adjusting a popular detector such as YOLOv5 to address specific tasks and provide insights on how specific changes can impact small object detection. Such findings, applied to the broader context of autonomous vehicles, could increase the amount of contextual information available to such systems.
翻訳日:2021-12-23 18:01:37 公開日:2021-12-22
# (参考訳) sterEO:オープンアクセス公開で科学テキストを再利用 [全文訳有]

STEREO: Scientific Text Reuse in Open Access Publications ( http://arxiv.org/abs/2112.11800v1 )

ライセンス: CC BY-SA 4.0
Lukas Gienapp, Wolfgang Kircheis, Bjarne Sievers, Benno Stein, Martin Potthast(参考訳) Webis-STEREO-21データセットは,オープンアクセス出版物における学術テキスト再利用の膨大なコレクションである。 4200万のユニークな公開出版物で見つかった9100万件以上の再利用されたテキストパスが含まれている。 科学的規律や多種多様な再利用を包括的に網羅し、それぞれのケースを文脈化するための包括的メタデータを備えているため、我々のデータセットは科学的な文章に関する過去の論文の最も顕著な欠点に対処する。 Webis-STEREO-21は、様々な科学的背景から幅広い研究課題に取り組むことができ、この現象の質的および定量的分析と、科学出版物におけるテキスト再利用のベースレートに基づく最初の基礎となる。

We present the Webis-STEREO-21 dataset, a massive collection of Scientific Text Reuse in Open-access publications. It contains more than 91 million cases of reused text passages found in 4.2 million unique open-access publications. Featuring a high coverage of scientific disciplines and varieties of reuse, as well as comprehensive metadata to contextualize each case, our dataset addresses the most salient shortcomings of previous ones on scientific writing. Webis-STEREO-21 allows for tackling a wide range of research questions from different scientific backgrounds, facilitating both qualitative and quantitative analysis of the phenomenon as well as a first-time grounding on the base rate of text reuse in scientific publications.
翻訳日:2021-12-23 17:47:25 公開日:2021-12-22
# (参考訳) 分類器データ品質:自動ベースラインと洞察生成のための幾何学的複雑性に基づく手法 [全文訳有]

Classifier Data Quality: A Geometric Complexity Based Method for Automated Baseline And Insights Generation ( http://arxiv.org/abs/2112.11832v1 )

ライセンス: CC BY 4.0
George Kour, Marcel Zalmanovici, Orna Raz, Samuel Ackerman, Ateret Anaby-Tavor(参考訳) 機械学習(ML)モデルとAIIA(AI-Infused Applications)、あるいはMLモデルを含むシステムをテストすることは非常に難しい。 古典的ソフトウェアをテストする上での課題に加えて、統計MLモデルは時に誤った結果を出力することが許容され、期待できる。 主な課題は、モデル精度や分類器のF1スコアなどの誤りのレベルが受け入れられているか、そうでないかを決定することである。 しきい値を提供するビジネス要件に加えて、決定木のような単純なベースラインモデルを上回るパフォーマンスを実現するため、提案されたMLソリューションを必要とするのはベストプラクティスです。 我々は、与えられた観測値が真のクラスラベルに割り当てるのがいかに困難であるかを定量化する複雑性尺度を開発し、これらの尺度をベースライン性能閾値を自動決定するために使用することができる。 これらの尺度は、線形計算コストにおいて、各観測者の分類の複雑さを説明可能な形式で定量化するのに使用される分類器モデルに関係なく、ベストプラクティスのベースラインよりも優れている。 数値合成データと実自然言語チャットボットデータの両方を用いた実験により、複雑性測定がデータ領域と誤分類される可能性のある観測を効果的に強調することを示した。

Testing Machine Learning (ML) models and AI-Infused Applications (AIIAs), or systems that contain ML models, is highly challenging. In addition to the challenges of testing classical software, it is acceptable and expected that statistical ML models sometimes output incorrect results. A major challenge is to determine when the level of incorrectness, e.g., model accuracy or F1 score for classifiers, is acceptable and when it is not. In addition to business requirements that should provide a threshold, it is a best practice to require any proposed ML solution to out-perform simple baseline models, such as a decision tree. We have developed complexity measures, which quantify how difficult given observations are to assign to their true class label; these measures can then be used to automatically determine a baseline performance threshold. These measures are superior to the best practice baseline in that, for a linear computation cost, they also quantify each observation' classification complexity in an explainable form, regardless of the classifier model used. Our experiments with both numeric synthetic data and real natural language chatbot data demonstrate that the complexity measures effectively highlight data regions and observations that are likely to be misclassified.
翻訳日:2021-12-23 17:29:53 公開日:2021-12-22
# (参考訳) エンド・ツー・エンドのソフトウェア工学研究 [全文訳有]

End to End Software Engineering Research ( http://arxiv.org/abs/2112.11858v1 )

ライセンス: CC BY 4.0
Idan Amit(参考訳) エンドツーエンドの学習は、機械学習が生のデータから始まり、必要な概念を予測し、すべてのステップが自動的に実行される。 ソフトウェア工学の文脈では、ソースコードから始まり、プロセスのメトリクスを予測するものと捉えています。 このフレームワークは、欠陥、コード品質、生産性などの予測に使用することができる。 エンドツーエンドは、ドメインの専門家を必要とせず、新しい知識を抽出することで、機能ベースの機械学習を改善する。 この目的のために構築された15kプロジェクトの5Mファイルのデータセットについて述べる。 データセットは、概念の予測だけでなく、その原因の調査も可能にする方法で構築されている。

End to end learning is machine learning starting in raw data and predicting a desired concept, with all steps done automatically. In software engineering context, we see it as starting from the source code and predicting process metrics. This framework can be used for predicting defects, code quality, productivity and more. End-to-end improves over features based machine learning by not requiring domain experts and being able to extract new knowledge. We describe a dataset of 5M files from 15k projects constructed for this goal. The dataset is constructed in a way that enables not only predicting concepts but also investigating their causes.
翻訳日:2021-12-23 17:20:11 公開日:2021-12-22
# (参考訳) flobc: 分散型ブロックチェーンベースのフェデレーション学習フレームワーク [全文訳有]

FLoBC: A Decentralized Blockchain-Based Federated Learning Framework ( http://arxiv.org/abs/2112.11873v1 )

ライセンス: CC BY 4.0
Mohamed Ghanem, Fadi Dawoud, Habiba Gamal, Eslam Soliman, Hossam Sharara, Tamer El-Batt(参考訳) 世界中のデータの急速な拡大は、より広範囲に機械学習を適用するために、より多くの分散ソリューションの必要性を招いている。 その結果、分散学習システムは様々な集中度を持つことができる。 本研究では,ブロックチェーン技術を用いた汎用分散型フェデレーション学習システムを構築するためのFLoBCソリューションを実証し,勾配降下最適化と互換性のある機械学習モデルを収容する。 本稿では,訓練者と検証者という2つの分散型アクタからなるシステム設計について,そのシステムの信頼性と効率的な動作を保証するための方法論について述べる。 最後に、FLoBCを実験用サンドボックスとして利用し、訓練者対バリケータ比、報奨金政策、モデル同期スキームがシステム全体の性能に与える影響を比較比較、比較し、最終的に、分散化されたフェデレート学習システムは、より集中的なアーキテクチャの代替となることを示す。

The rapid expansion of data worldwide invites the need for more distributed solutions in order to apply machine learning on a much wider scale. The resultant distributed learning systems can have various degrees of centralization. In this work, we demonstrate our solution FLoBC for building a generic decentralized federated learning system using blockchain technology, accommodating any machine learning model that is compatible with gradient descent optimization. We present our system design comprising the two decentralized actors: trainer and validator, alongside our methodology for ensuring reliable and efficient operation of said system. Finally, we utilize FLoBC as an experimental sandbox to compare and contrast the effects of trainer-to-validator ratio, reward-penalty policy, and model synchronization schemes on the overall system performance, ultimately showing by example that a decentralized federated learning system is indeed a feasible alternative to more centralized architectures.
翻訳日:2021-12-23 17:09:01 公開日:2021-12-22
# (参考訳) 確率的ブレグマン原始二分割アルゴリズムによる合成最適化

A Stochastic Bregman Primal-Dual Splitting Algorithm for Composite Optimization ( http://arxiv.org/abs/2112.11928v1 )

ライセンス: CC BY 4.0
Antonio Silveti-Falls, Cesare Molinari, Jalal Fadili(参考訳) 本研究は,bregman divergences と relative smoothness assumptions を用いて実回帰バナッハ空間上の凸凸鞍点問題を解くための確率的第一次原始双対法について検討し,アルゴリズム内の勾配項の計算において確率的誤差を許容する。 我々は, o(1/k) の速度でラグランジュ最適性ギャップを期待するエルゴード収束を示し, エルゴード列のほとんど確実に弱いクラスター点はすべて, 軽度の仮定の下での期待における鞍点であることを示した。 もう少し厳密な仮定の下では、ポイントワイズイテレートの弱収束がサドル点にほぼ確実に一致することを示す。 対象関数に対する相対的な強い凸性仮定と、ブレグマン発散のエントロピーに関する全凸性仮定の下で、ポイントワイドの強い収束性はほぼ確実にサドル点に収束する。 我々のフレームワークは一般的であり、アルゴリズムのブレグマン分岐を誘導するエントロピーの強い凸性を必要としない。 数値的応用としては、エントロピー的に正則化されたwasserstein barycenter問題やsimplex上の正則化逆問題などが挙げられる。

We study a stochastic first order primal-dual method for solving convex-concave saddle point problems over real reflexive Banach spaces using Bregman divergences and relative smoothness assumptions, in which we allow for stochastic error in the computation of gradient terms within the algorithm. We show ergodic convergence in expectation of the Lagrangian optimality gap with a rate of O(1/k) and that every almost sure weak cluster point of the ergodic sequence is a saddle point in expectation under mild assumptions. Under slightly stricter assumptions, we show almost sure weak convergence of the pointwise iterates to a saddle point. Under a relative strong convexity assumption on the objective functions and a total convexity assumption on the entropies of the Bregman divergences, we establish almost sure strong convergence of the pointwise iterates to a saddle point. Our framework is general and does not need strong convexity of the entropies inducing the Bregman divergences in the algorithm. Numerical applications are considered including entropically regularized Wasserstein barycenter problems and regularized inverse problems on the simplex.
翻訳日:2021-12-23 16:57:42 公開日:2021-12-22
# (参考訳) 縦断健康記録の連続学習 [全文訳有]

Continual learning of longitudinal health records ( http://arxiv.org/abs/2112.11944v1 )

ライセンス: CC BY 4.0
J. Armstrong, D. Clifton(参考訳) 連続学習とは、過去の経験から得られた知識を維持し、再利用しながら、新しい環境に適応できる機械学習の手法を指す。 このような方法では、非定常環境でモデルが直面する2つの問題に対処している。 これは、患者データが集団間だけでなく、時間の経過とともに連続的に共変変化を示す臨床場面で広く見られる問題である。 しかし, 画像領域では, 連続学習手法が初発的成功をおさめているが, クリティカルケア患者の記録における多変量逐次データの特徴についてはほとんど適用されていない。 本稿では,縦型ICUデータに対する連続的な学習手法を,一連の代表的な医療シナリオで評価する。 短期記憶を緩和する手法はいくつかあるが、ドメインシフトは大規模なタスクよりも難しい問題であり、リプレイベースのメソッドのみが安定した長期的なパフォーマンスを達成する。 すべての実験を再現するためのコードはhttps://github.com/i acobo/continual.comにある。

Continual learning denotes machine learning methods which can adapt to new environments while retaining and reusing knowledge gained from past experiences. Such methods address two issues encountered by models in non-stationary environments: ungeneralisability to new data, and the catastrophic forgetting of previous knowledge when retrained. This is a pervasive problem in clinical settings where patient data exhibits covariate shift not only between populations, but also continuously over time. However, while continual learning methods have seen nascent success in the imaging domain, they have been little applied to the multi-variate sequential data characteristic of critical care patient recordings. Here we evaluate a variety of continual learning methods on longitudinal ICU data in a series of representative healthcare scenarios. We find that while several methods mitigate short-term forgetting, domain shift remains a challenging problem over large series of tasks, with only replay based methods achieving stable long-term performance. Code for reproducing all experiments can be found at https://github.com/i acobo/continual
翻訳日:2021-12-23 16:56:36 公開日:2021-12-22
# (参考訳) 人工知的応用のための合成混合型縦型電子健康記録の作成

Generating Synthetic Mixed-type Longitudinal Electronic Health Records for Artificial Intelligent Applications ( http://arxiv.org/abs/2112.12047v1 )

ライセンス: CC BY 4.0
Jin Li, Benjamin J. Cairns, Jingsong Li, Tingting Zhu(参考訳) 近年の電子健康記録(EHR)は、人工知能(AI)アルゴリズムを開発する大きな機会となった。 しかし、患者のプライバシは、病院設定間でのデータ共有を制限し、その後AIの進歩を妨げる大きな懸念となっている。 生成モデルの発達と増殖の恩恵を受ける「textit{Synthetic data」は、実際の患者EHRデータに代わる有望な代用として機能している。 しかし、現在の生成モデルは、臨床データ(すなわち連続値または離散値のいずれか)の \textit{single type} のみを生成するため、制限されている。 本稿では,EHRデータを合成するEHR-M-GAN(generative adversarial network)を提案する。 EHR-M-GANは、患者軌跡の多次元、異質、相関した時間的ダイナミクスを捉えることができる。 EHR-M-GANは,141,488人のユニークな患者から記録された3つの医療単位データベース上で検証し,提案モデルのプライバシリスク評価を行った。 EHR-M-GANは、高忠実度で臨床時効を合成するための最先端ベンチマークよりも優れた性能を示した。 特に, EHR-M-GANを付加したトレーニングデータでは, 集中治療の結果の予測が有意に改善した。 EHR-M-GANは、リソース制限された設定におけるAIアルゴリズムの開発に使用することができ、患者のプライバシーを維持しながら、データ取得の障壁を低くすることができる。

The recent availability of electronic health records (EHRs) have provided enormous opportunities to develop artificial intelligence (AI) algorithms. However, patient privacy has become a major concern that limits data sharing across hospital settings and subsequently hinders the advances in AI. \textit{Synthetic data}, which benefits from the development and proliferation of generative models, has served as a promising substitute for real patient EHR data. However, the current generative models are limited as they only generate \textit{single type} of clinical data, i.e., either continuous-valued or discrete-valued. In this paper, we propose a generative adversarial network (GAN) entitled EHR-M-GAN which synthesizes \textit{mixed-type} timeseries EHR data. EHR-M-GAN is capable of capturing the multidimensional, heterogeneous, and correlated temporal dynamics in patient trajectories. We have validated EHR-M-GAN on three publicly-available intensive care unit databases with records from a total of 141,488 unique patients, and performed privacy risk evaluation of the proposed model. EHR-M-GAN has demonstrated its superiority in performance over state-of-the-art benchmarks for synthesizing clinical timeseries with high fidelity. Notably, prediction models for outcomes of intensive care performed significantly better when training data was augmented with the addition of EHR-M-GAN-generated timeseries. EHR-M-GAN may have use in developing AI algorithms in resource-limited settings, lowering the barrier for data acquisition while preserving patient privacy.
翻訳日:2021-12-23 16:38:50 公開日:2021-12-22
# (参考訳) 計算科学と工学のための機械学習 - 簡単な紹介と批判的疑問 [全文訳有]

Machine Learning for Computational Science and Engineering -- a brief introduction and some critical questions ( http://arxiv.org/abs/2112.12054v1 )

ライセンス: CC BY 4.0
Chennakesava Kadapa(参考訳) 人工知能(AI)は現在、科学、技術、工学、芸術、管理のあらゆるサブ分野に参入している。 研究資金の誇大宣伝と可用性のおかげで、多くの分野であまり考えずに採用されている。 CS&E(Computational Science and Engineering)は、計算工学の分野の一つ。 機械学習(ml)をcs&eに適用する際の課題と課題に関するいくつかの重要な疑問を強調することで、この貢献は、cs\&eおよび関連分野のアプリケーションにmlを適用することに関する洞察を提供したいと考えている。 この記事は、MLおよび/またはCS\&Eの分野に新しい一般読者と研究者向けに書かれた汎用的な記事である。 本研究は計算科学と工学における前方問題にのみ焦点をあてる。 基本的な方程式やmatlabのコードは、読者が基本を理解するのに役立つ。

Artificial Intelligence (AI) is now entering every sub-field of science, technology, engineering, arts, and management. Thanks to the hype and availability of research funds, it is being adapted in many fields without much thought. Computational Science and Engineering (CS&E) is one such sub-field. By highlighting some critical questions around the issues and challenges in adapting Machine Learning (ML) for CS&E, most of which are often overlooked in journal papers, this contribution hopes to offer some insights into the adaptation of ML for applications in CS\&E and related fields. This is a general-purpose article written for a general audience and researchers new to the fields of ML and/or CS\&E. This work focuses only on the forward problems in computational science and engineering. Some basic equations and MATLAB code are also provided to help the reader understand the basics.
翻訳日:2021-12-23 16:36:55 公開日:2021-12-22
# 非凸ミニマックス機械学習のためのアクセラレーション近位勾配勾配上昇

Accelerated Proximal Alternating Gradient-Descent-Asc ent for Nonconvex Minimax Machine Learning ( http://arxiv.org/abs/2112.11663v1 )

ライセンス: Link先を確認
Ziyi Chen, Shaocong Ma, Yi Zhou(参考訳) AltGDA(Alternating gradient-descent-asc ent)は、様々な機械学習アプリケーションでモデルトレーニングに広く用いられている最適化アルゴリズムである。 しかし,既存の研究では,非凸最小値最適化における計算複雑性に悩まされている。 本稿では,非凸ミニマックス最適化問題を解くために,近位勾配更新と運動量加速度を利用した単ループ高速altgda型アルゴリズムを開発した。 このアルゴリズムの固有リアプノフ関数を同定することにより、非凸ミニマックス最適化問題の臨界点に収束し、計算複雑性 $\mathcal{o}(\kappa^{1.5}\epsilon^{-2})$ を達成することを証明し、ここで $\epsilon$ は所望の精度のレベルであり、$\kappa$ は問題の条件数である。 このような計算複雑性は、シングルループGDAとAltGDAのアルゴリズムの最先端の複雑さを改善する(表1)。 逆深層学習実験により,本アルゴリズムの有効性を実証する。

Alternating gradient-descent-asc ent (AltGDA) is an optimization algorithm that has been widely used for model training in various machine learning applications, which aim to solve a nonconvex minimax optimization problem. However, the existing studies show that it suffers from a high computation complexity in nonconvex minimax optimization. In this paper, we develop a single-loop and fast AltGDA-type algorithm that leverages proximal gradient updates and momentum acceleration to solve regularized nonconvex minimax optimization problems. By identifying the intrinsic Lyapunov function of this algorithm, we prove that it converges to a critical point of the nonconvex minimax optimization problem and achieves a computation complexity $\mathcal{O}(\kappa^{1.5}\epsilon^{-2})$, where $\epsilon$ is the desired level of accuracy and $\kappa$ is the problem's condition number. Such a computation complexity improves the state-of-the-art complexities of single-loop GDA and AltGDA algorithms (see the summary of comparison in Table 1). We demonstrate the effectiveness of our algorithm via an experiment on adversarial deep learning.
翻訳日:2021-12-23 16:29:22 公開日:2021-12-22
# Squareplus:ソフトプラスの代数整流器

Squareplus: A Softplus-Like Algebraic Rectifier ( http://arxiv.org/abs/2112.11687v1 )

ライセンス: Link先を確認
Jonathan T. Barron(参考訳) これはsoftplusに似ているが、代数演算(加算、乗算、平方根)だけで計算できる活性化関数である。 平方プラスはCPU上のソフトプラスよりも6倍早く評価でき、超越関数へのアクセスを必要としないため、リソース制限のディープラーニングアプリケーションでは実用的価値がある。

We present squareplus, an activation function that resembles softplus, but which can be computed using only algebraic operations: addition, multiplication, and square-root. Because squareplus is ~6x faster to evaluate than softplus on a CPU and does not require access to transcendental functions, it may have practical value in resource-limited deep learning applications.
翻訳日:2021-12-23 16:29:00 公開日:2021-12-22
# 制約付き最小方形に対する投射勾配の漸近線形収束について

On Asymptotic Linear Convergence of Projected Gradient Descent for Constrained Least Squares ( http://arxiv.org/abs/2112.11760v1 )

ライセンス: Link先を確認
Trung Vu and Raviv Raich(参考訳) 最近の信号処理や、圧縮センシング、画像復元、マトリックス/テンソル回復、非負行列分解といった機械学習における多くの問題は、制約付き最適化としてキャストできる。 射影勾配降下はそのような制約付き最適化問題を解くための単純かつ効率的な方法である。 局所収束解析は解近傍の漸近的挙動の理解をさらに深め、大域収束解析と比較して収束率の境界を鋭くする。 しかし、ローカル保証は機械学習や信号処理の特定の問題領域に散在していることが多い。 この写本は、制約最小二乗の文脈における射影勾配降下の局所収束解析のための統一的な枠組みを提示する。 提案手法は,線形収束条件,収束領域,絶対漸近収束率,一定の精度に達するために必要なイテレーション数の境界など,重要な局所収束特性に関する知見を提供する。 提案手法の適用性を示すため,提案手法はPGDの収束解析のレシピを示し,本手法の基本的な4つの問題,すなわち線形に制約された最小二乗法,スパースリカバリ,単位ノルム制約付き最小二乗法,行列補完法を応用した。

Many recent problems in signal processing and machine learning such as compressed sensing, image restoration, matrix/tensor recovery, and non-negative matrix factorization can be cast as constrained optimization. Projected gradient descent is a simple yet efficient method for solving such constrained optimization problems. Local convergence analysis furthers our understanding of its asymptotic behavior near the solution, offering sharper bounds on the convergence rate compared to global convergence analysis. However, local guarantees often appear scattered in problem-specific areas of machine learning and signal processing. This manuscript presents a unified framework for the local convergence analysis of projected gradient descent in the context of constrained least squares. The proposed analysis offers insights into pivotal local convergence properties such as the condition of linear convergence, the region of convergence, the exact asymptotic rate of convergence, and the bound on the number of iterations needed to reach a certain level of accuracy. To demonstrate the applicability of the proposed approach, we present a recipe for the convergence analysis of PGD and demonstrate it via a beginning-to-end application of the recipe on four fundamental problems, namely, linearly constrained least squares, sparse recovery, least squares with the unit norm constraint, and matrix completion.
翻訳日:2021-12-23 16:28:54 公開日:2021-12-22
# エッジコンピューティングにおける分散タスクオフロード:マルチユーザマルチタスク帯域幅アプローチ

Decentralized Task Offloading in Edge Computing: A Multi-User Multi-Armed Bandit Approach ( http://arxiv.org/abs/2112.11818v1 )

ライセンス: Link先を確認
Xiong Wang, Jiancheng Ye, John C.S. Lui(参考訳) モバイルエッジコンピューティングは、計算タスクをエッジサーバにオフロードし、厳密な遅延要件を満たすことができる。 以前の作業は主に、システム側情報(例えば、サーバー処理速度、セルレート)が与えられるときのタスクオフロードや、システム不確実性の下で集中的なオフロードを探索する。 しかし、両者とも、動的で不確実な環境で、多くの既存ユーザーを含むタスク配置を扱うには、一般的には不足している。 本稿では,未知だが確率的なシステム側情報を考慮し,分散したユーザ主導型サービス配置を実現するマルチユーザオフロードフレームワークを開発した。 具体的には、オンラインマルチユーザマルチアームバンディットプロセスとして動的タスク配置を定式化し、ネットワーク遅延を受けるユーザの報酬を最適化する分散型エポックベースオフロード(DEBO)を提案する。 我々は、deboが最適なユーザサーバ割り当てを推論できることを示し、それによって、サービス性能が最適に近く、後悔を解消するo(log t)を締めくくることを可能にした。 さらに,denoを,未知の報酬ギャップ,クライアントの動的入退出,公平な報酬分配など,さまざまな一般的なシナリオに一般化するとともに,ユーザのオフロードタスクが異種コンピューティングリソースを必要とする場合の状況についても検討する。 特に、これらのインスタンスのそれぞれに対して、サブ線形後悔を達成しています。 実測値に基づく評価は,遅延に敏感な報酬の最適化において,最先端のアプローチよりもオフロード方式の優れていることを裏付ける。

Mobile edge computing facilitates users to offload computation tasks to edge servers for meeting their stringent delay requirements. Previous works mainly explore task offloading when system-side information is given (e.g., server processing speed, cellular data rate), or centralized offloading under system uncertainty. But both generally fall short to handle task placement involving many coexisting users in a dynamic and uncertain environment. In this paper, we develop a multi-user offloading framework considering unknown yet stochastic system-side information to enable a decentralized user-initiated service placement. Specifically, we formulate the dynamic task placement as an online multi-user multi-armed bandit process, and propose a decentralized epoch based offloading (DEBO) to optimize user rewards which are subjected under network delay. We show that DEBO can deduce the optimal user-server assignment, thereby achieving a close-to-optimal service performance and tight O(log T) offloading regret. Moreover, we generalize DEBO to various common scenarios such as unknown reward gap, dynamic entering or leaving of clients, and fair reward distribution, while further exploring when users' offloaded tasks require heterogeneous computing resources. Particularly, we accomplish a sub-linear regret for each of these instances. Real measurements based evaluations corroborate the superiority of our offloading schemes over state-of-the-art approaches in optimizing delay-sensitive rewards.
翻訳日:2021-12-23 16:28:32 公開日:2021-12-22
# 批評家コンセンサスを用いた映画レコメンダシステム

Movie Recommender System using critic consensus ( http://arxiv.org/abs/2112.11854v1 )

ライセンス: Link先を確認
A Nayan Varma, Kedareshwara Petluri(参考訳) レコメンデーションシステムは、おそらく現代のインターネットの世界における産業の成長にとって最も重要なエージェントの1つである。 レコメンデーションシステムに関する以前のアプローチには、コラボレーティブフィルタリングとコンテンツベースのフィルタリングレコメンデーションシステムがある。 これらの2つのメソッドは本質的には不整合であり、より良い推奨のためにユーザの好みを継続的に保存する必要がある。 両プロセスのより優れた統合を実現するため,コンテントベースのコンテンツの統合に基づくハイブリッドレコメンデーションシステムを提案し,批評家のコンセンサスと映画評価スコアを考慮に入れた。 ユーザの好みと批判的なコンセンサススコアの組み合わせに基づいて、映画を推奨する新しいモデルを提示したいと思います。

Recommendation systems are perhaps one of the most important agents for industry growth through the modern Internet world. Previous approaches on recommendation systems include collaborative filtering and content based filtering recommendation systems. These 2 methods are disjointed in nature and require the continuous storage of user preferences for a better recommendation. To provide better integration of the two processes, we propose a hybrid recommendation system based on the integration of collaborative and content-based content, taking into account the top critic consensus and movie rating score. We would like to present a novel model that recommends movies based on the combination of user preferences and critical consensus scores.
翻訳日:2021-12-23 16:28:06 公開日:2021-12-22
# GAN: フェイクログ生成に人工知能を使う

Catch Me If You GAN: Using Artificial Intelligence for Fake Log Generation ( http://arxiv.org/abs/2112.12006v1 )

ライセンス: Link先を確認
Christian Toemmel(参考訳) 人工知能(AI)が日常生活の様々な部分に関係するようになり、他の技術はすでに大量のデータを扱う新しい方法の影響を広く受けている。 既に広く普及しているが、AIは特にサイバーセキュリティ分野に時間的影響しか与えていない。 サイバーセキュリティの専門家が使用する多くの技術や技術は手作業で機能し、ログはシステム管理者によって潜在的に有害なキーワードとして手作業でレビューされる。 この研究は、ログ生成にGAN(Generative Adversarial Network)と呼ばれる特殊なタイプのAIを使用することを評価する。 より正確には、SqGAN、MaliGAN、CoTの3つの異なる生成敵ネットワークが、レッドチームのシステム管理者を欺く手段として、新しいログの生成に焦点をあてて、彼らのパフォーマンスに関する調査でレビューされている。 偽ログの静的ジェネレータは以前から存在していましたが、その生成物は通常、簡単に明らかにできます。 この問題に対するアプローチとしてAIを使用することは、広く研究されていない。 特定された課題はフォーマット、日付、時間、全体的な一貫性である。 結果を要約すると、GANは偽のログを生成するのに適していないようだ。 しかし、偽のログを検出する能力は、実際のシナリオで使用される可能性がある。

With artificial intelligence (AI) becoming relevant in various parts of everyday life, other technologies are already widely influenced by the new way of handling large amounts of data. Although widespread already, AI has had only punctual influences on the cybersecurity field specifically. Many techniques and technologies used by cybersecurity experts function through manual labor and barely draw on automation, e.g., logs are often reviewed manually by system admins for potentially malicious keywords. This work evaluates the use of a special type of AI called generative adversarial networks (GANs) for log generation. More precisely, three different generative adversarial networks, SeqGAN, MaliGAN, and CoT, are reviewed in this research regarding their performance, focusing on generating new logs as a means of deceiving system admins for red teams. Although static generators for fake logs have been around for a while, their produces are usually easy to reveal as such. Using AI as an approach to this problem has not been widely researched. Identified challenges consist of formatting, dates and times, and overall consistency. Summing up the results, GANs seem not to be a good fit for generating fake logs. Their capability to detect fake logs, however, might be of use in practical scenarios.
翻訳日:2021-12-23 16:27:58 公開日:2021-12-22
# ネットワーク侵入検知システムに対するブラックボックス攻撃の伝達可能性の検出と拒否

Detect & Reject for Transferability of Black-box Adversarial Attacks Against Network Intrusion Detection Systems ( http://arxiv.org/abs/2112.12095v1 )

ライセンス: Link先を確認
Islam Debicha, Thibault Debatty, Jean-Michel Dricot, Wim Mees, Tayeb Kenaza(参考訳) 過去10年間で、異常に基づく侵入検知システムにおける機械学習技術の使用は成功している。 しかし、近年の研究では、一般的な機械学習と特にディープラーニングは、攻撃者が欺く入力を提供することでモデルを騙そうとする敵の攻撃に対して脆弱であることが示されている。 この脆弱性が最初に発見されたコンピュータビジョンの研究は、特定のモデルを騙すために設計された敵対的イメージが、他の機械学習モデルをだますことができることを示した。 本稿では,複数の機械学習に基づく侵入検知システムに対する,対向ネットワークトラフィックの転送可能性について検討する。 さらに,攻撃の伝達性に対して,単一モデルよりも精度が優れていることで悪名高いアンサンブル侵入検知システムのロバスト性を分析する。 最後に,機械学習に基づく侵入検知システムに対する敵ネットワークトラフィックの移動性の影響を制限するための防御機構として,検出と拒否を検討する。

In the last decade, the use of Machine Learning techniques in anomaly-based intrusion detection systems has seen much success. However, recent studies have shown that Machine learning in general and deep learning specifically are vulnerable to adversarial attacks where the attacker attempts to fool models by supplying deceptive input. Research in computer vision, where this vulnerability was first discovered, has shown that adversarial images designed to fool a specific model can deceive other machine learning models. In this paper, we investigate the transferability of adversarial network traffic against multiple machine learning-based intrusion detection systems. Furthermore, we analyze the robustness of the ensemble intrusion detection system, which is notorious for its better accuracy compared to a single model, against the transferability of adversarial attacks. Finally, we examine Detect & Reject as a defensive mechanism to limit the effect of the transferability property of adversarial network traffic against machine learning-based intrusion detection systems.
翻訳日:2021-12-23 16:27:40 公開日:2021-12-22
# 正規ベクトル空間におけるオンライン最適化のための統一解析法

A Unified Analysis Method for Online Optimization in Normed Vector Space ( http://arxiv.org/abs/2112.12134v1 )

ライセンス: Link先を確認
Qingxin Meng, Jianwei Liu(参考訳) 本稿では,一般コサイン法と$\phi$-convexを基本ベクトル空間のオンライン最適化に用い,動的後悔を性能指標とする統一解析手法を提案する。 更新ルールを組み込む際、まず戦略$S$(Optimistic-FTRLに線形化損失を代理する2パラメータの戦略)から始め、緩和により$S$-I(type-I relaxation variant form of $S$)と$S$-II(type-II relaxation variant form of $S$, is Optimistic-MD)を得る。 s$-i と $s$-ii に対する後悔は可能な限り厳密である。 インスタンス化として、正規化指数化部分次数とグリーディ/ラザイ射影の後悔境界は、現在知られている最適結果よりも優れている。 オンラインゲームの損失をモノトーン演算子に置き換え,後悔の定義を延長することにより,オンライン凸最適化をオンラインモノトーン最適化に拡張し,アプリケーションの範囲を$S$-Iと$S$-IIに拡大する。

We present a unified analysis method that relies on the generalized cosine rule and $\phi$-convex for online optimization in normed vector space using dynamic regret as the performance metric. In combing the update rules, we start with strategy $S$ (a two-parameter variant strategy covering Optimistic-FTRL with surrogate linearized losses), and obtain $S$-I (type-I relaxation variant form of $S$) and $S$-II (type-II relaxation variant form of $S$, which is Optimistic-MD) by relaxation. Regret bounds for $S$-I and $S$-II are the tightest possible. As instantiations, regret bounds of normalized exponentiated subgradient and greedy/lazy projection are better than the currently known optimal results. We extend online convex optimization to online monotone optimization, by replacing losses of online game with monotone operators and extending the definition of regret, namely regret$^n$, and expand the application scope of $S$-I and $S$-II.
翻訳日:2021-12-23 16:27:28 公開日:2021-12-22
# RepBin:メタゲノミックバインディングのための制約に基づくグラフ表現学習

RepBin: Constraint-based Graph Representation Learning for Metagenomic Binning ( http://arxiv.org/abs/2112.11696v1 )

ライセンス: Link先を確認
Hansheng Xue, Vijini Mallawaarachchi, Yujia Zhang, Vaibhav Rajan, Yu Lin(参考訳) 混在する生物群集は多くの環境(人間の腸から海洋生態系まで)で見られ、人間の健康と環境に大きな影響を及ぼす可能性がある。 メタゲノミクス(Metagenomics)は、DNA配列を生成する高スループットシークエンシングを通じて、これらのコミュニティのゲノム物質を研究する。 ビンニングと呼ばれる標準ワークフローの根本的な問題は、未知の構成生物に関連するゲノムサブシーケンスのクラスターを発見することである。 サブシーケンスのノイズ、それらに課すべき様々な生物学的制約、および歪んだクラスタサイズ分布は、この教師なし学習問題の難しさを悪化させる。 本稿では,ノードがサブシーケンスであり,エッジがホモフィリー情報を表すグラフを用いた新しい定式化を提案する。 さらに,クラスタ化できないノードに関する異種信号を提供する生物学的制約をモデル化する。 新しいアルゴリズムを開発して バイナリー問題を解決し (i)ホモフィリー関係とヘテロフィリー制約の両方を保存するグラフ表現学習 (ii)歪むクラスタサイズ分布の問題に対処する制約に基づくグラフクラスタリング法。 実データと合成データに関する広範な実験は、repbinと呼ばれる我々のアプローチが、さまざまな競合する方法を上回ることを示している。 制約に基づくグラフ表現学習とクラスタリング手法は,他の領域でも有用であり,メダゲノミクスとグラフ表現学習の両分野における最先端を推し進める。

Mixed communities of organisms are found in many environments (from the human gut to marine ecosystems) and can have profound impact on human health and the environment. Metagenomics studies the genomic material of such communities through high-throughput sequencing that yields DNA subsequences for subsequent analysis. A fundamental problem in the standard workflow, called binning, is to discover clusters, of genomic subsequences, associated with the unknown constituent organisms. Inherent noise in the subsequences, various biological constraints that need to be imposed on them and the skewed cluster size distribution exacerbate the difficulty of this unsupervised learning problem. In this paper, we present a new formulation using a graph where the nodes are subsequences and edges represent homophily information. In addition, we model biological constraints providing heterophilous signal about nodes that cannot be clustered together. We solve the binning problem by developing new algorithms for (i) graph representation learning that preserves both homophily relations and heterophily constraints (ii) constraint-based graph clustering method that addresses the problems of skewed cluster size distribution. Extensive experiments, on real and synthetic datasets, demonstrate that our approach, called RepBin, outperforms a wide variety of competing methods. Our constraint-based graph representation learning and clustering methods, that may be useful in other domains as well, advance the state-of-the-art in both metagenomics binning and graph representation learning.
翻訳日:2021-12-23 16:26:29 公開日:2021-12-22
# DRFコード: ディープSNR-Robustフィードバックコード

DRF Codes: Deep SNR-Robust Feedback Codes ( http://arxiv.org/abs/2112.11789v1 )

ライセンス: Link先を確認
Mahdi Boloursaz Mashhadi, Deniz Gunduz, Alberto Perotti, and Branislav Popovic(参考訳) 本稿では,drf(deep snr-robust feedback)コードと呼ばれる,出力フィードバックを伴うチャネルのフェージングに対する新しいディープニューラルネットワーク(dnn)に基づく誤り訂正コードを提案する。 エンコーダでは、メッセージに基づいて長期記憶(LSTM)ネットワークによってパリティシンボルが生成され、送信者によって観測された過去の前方チャネル出力がノイズの多い方法で出力される。 復号器は双方向LSTMアーキテクチャと信号対雑音比(SNR)対応の注目NNを用いてメッセージを復号する。 提案するコードは、受動的出力フィードバックを伴うチャネル上で提案されているdnnベースのコードの2つの大きな欠点を克服する。 (i)デコーダにおけるSNR対応アテンション機構は、広範囲のSNR値に対して同一のトレーニングNNの信頼性の高い適用を可能にする。 (ii) バッチスケジューリングによるカリキュラムトレーニングは、生成したコードのsnr-robustnessを改善しながら、トレーニングのスピードアップと安定化に使用される。 付加的な白色ガウス雑音 (AWGN) チャネルにおけるSNR損耗率と誤り率の両面から, DRF符号の精度は有意に向上した。 drf符号は、受信機で完全な位相補償を行うフェージングチャネルにおいて、瞬時フェージング振幅(フィードバックによってエンコーダが利用できる)の知識を効率的に活用し、デコーダにおけるチャネル推定に伴うオーバーヘッドと複雑さを低減する。 最後に,線形フィードバック符号が厳密な準最適であることが知られているマルチキャストチャネルにおけるDRF符号の有効性を示す。

We present a new deep-neural-network (DNN) based error correction code for fading channels with output feedback, called deep SNR-robust feedback (DRF) code. At the encoder, parity symbols are generated by a long short term memory (LSTM) network based on the message as well as the past forward channel outputs observed by the transmitter in a noisy fashion. The decoder uses a bi-directional LSTM architecture along with a signal to noise ratio (SNR)-aware attention NN to decode the message. The proposed code overcomes two major shortcomings of the previously proposed DNN-based codes over channels with passive output feedback: (i) the SNR-aware attention mechanism at the decoder enables reliable application of the same trained NN over a wide range of SNR values; (ii) curriculum training with batch-size scheduling is used to speed up and stabilize training while improving the SNR-robustness of the resulting code. We show that the DRF codes significantly outperform state-of-the-art in terms of both the SNR-robustness and the error rate in additive white Gaussian noise (AWGN) channel with feedback. In fading channels with perfect phase compensation at the receiver, DRF codes learn to efficiently exploit knowledge of the instantaneous fading amplitude (which is available to the encoder through feedback) to reduce the overhead and complexity associated with channel estimation at the decoder. Finally, we show the effectiveness of DRF codes in multicast channels with feedback, where linear feedback codes are known to be strictly suboptimal.
翻訳日:2021-12-23 16:26:08 公開日:2021-12-22
# 断熱スピンダイナミクスのための機械学習非平衡電子力

Machine learning nonequilibrium electron forces for adiabatic spin dynamics ( http://arxiv.org/abs/2112.12124v1 )

ライセンス: Link先を確認
Puhan Zhang and Gia-Wei Chern(参考訳) ランダウ・リフシッツ方程式に対する非平衡トルクの一般化ポテンシャル理論を提案する。 2つのポテンシャルエネルギーの観点から交換力の一般的な定式化は、非平衡イテナント磁気系の断熱スピンダイナミクスの正確な機械学習モデルの実装を可能にする。 本手法を実証するために,非平衡グリーン関数法から計算した駆動s-dモデルの力の学習に成功したディープラーニングニューラルネットワークを開発した。 ニューラルネットモデルから予測される力を用いたランダウ・リフシッツ動力学シミュレーションにより,電圧駆動型ドメイン壁伝搬を再現できることが示されている。 本研究は,機械学習モデルに基づく一様磁石およびスピントロニクスにおける非平衡力学現象のマルチスケールモデリングのための新しい道を開く。

We present a generalized potential theory of nonequilibrium torques for the Landau-Lifshitz equation. The general formulation of exchange forces in terms of two potential energies allows for the implementation of accurate machine learning models for adiabatic spin dynamics of out-of-equilibrium itinerant magnetic systems. To demonstrate our approach, we develop a deep-learning neural network that successfully learns the forces in a driven s-d model computed from the nonequilibrium Green's function method. We show that the Landau-Lifshitz dynamics simulations with forces predicted from the neural-net model accurately reproduce the voltage-driven domain-wall propagation. Our work opens a new avenue for multi-scale modeling of nonequilibrium dynamical phenomena in itinerant magnets and spintronics based on machine-learning models.
翻訳日:2021-12-23 16:25:41 公開日:2021-12-22
# 水中のガス気泡振動を用いたニューラルエコー状態ネットワーク:マッキーグラス時系列予測による計算検証

Neural Echo State Network using oscillations of gas bubbles in water: Computational validation by Mackey-Glass time series forecasting ( http://arxiv.org/abs/2112.11592v1 )

ライセンス: Link先を確認
Ivan S. Maksymov and Andrey Pototsky and Sergey A. Suslov(参考訳) 物理貯水池コンピューティング(英: physical storage computing, RC)は、デジタルコンピュータ用に設計された機械学習アルゴリズムをアナログコンピュータのような非線形物理システムを用いて実行し、非線形微分方程式を用いて得られる時間依存量の予測に高い計算能力を提供する計算フレームワークである。 本稿では,水中で発振するガス気泡のクラスターの音響応答の非線形性と,非線形およびカオス時系列の予測に適した標準的なエコー状態ネットワーク(ESN)アルゴリズムを組み合わせることを提案する。 提案したRCシステムの妥当性を,ESNの効率でカオスなマッキーグラス時系列を予測できることを示し,計算的に検証した。

Physical reservoir computing (RC) is a computational framework, where machine learning algorithms designed for digital computers are executed using analog computer-like nonlinear physical systems that can provide high computational power for predicting time-dependent quantities that can be found using nonlinear differential equations. Here we suggest an RC system that combines the nonlinearity of an acoustic response of a cluster of oscillating gas bubbles in water with a standard Echo State Network (ESN) algorithm that is well-suited to forecast nonlinear and chaotic time series. We computationally confirm the plausibility of the proposed RC system by demonstrating its ability to forecast a chaotic Mackey-Glass time series with the efficiency of ESN.
翻訳日:2021-12-23 16:23:18 公開日:2021-12-22
# (参考訳) 深部ニューラルネットワークは超低遅延スパイクニューラルネットワークに変換できるか? [全文訳有]

Can Deep Neural Networks be Converted to Ultra Low-Latency Spiking Neural Networks? ( http://arxiv.org/abs/2112.12133v1 )

ライセンス: CC BY 4.0
Gourav Datta and Peter A. Beerel(参考訳) 時間をかけて分散するバイナリスパイクを介して動作するスパイキングニューラルネットワーク(SNN)は、リソース制約デバイスのための有望なエネルギー効率の高いMLパラダイムとして登場した。 しかし、現在のSOTA(State-of-the-ar t)SNNは、推測精度を許容し、スパイク活性を増大させ、結果としてエネルギー消費を増大させるために複数の時間ステップを必要とする。 SNNのSOTAトレーニング戦略には、非スパイキングディープニューラルネットワーク(DNN)からの変換が含まれる。 本稿では,DNN と SNN の事前活性化値が均一に分散されていることを誤って仮定するため,SOTA 変換戦略が極低レイテンシを実現することはできないと判断する。 そこで本研究では,DNNと変換SNNの誤差を最小限に抑えながら,これらの分布を正確にキャプチャする新たなトレーニングアルゴリズムを提案する。 その結果、SNNは超低レイテンシと高いアクティベーション間隔を持ち、計算効率が大幅に向上した。 特に,複数のVGGおよびResNetアーキテクチャ上でCIFAR-10およびCIFAR-100データセットから画像認識タスクのフレームワークを評価する。 CIFAR-100データセット上の2ステップで64.19%のTop-1精度が得られるが、計算エネルギーはIso-architecture標準のDNNに比べて159.2倍低い。 他のSOTA SNNモデルと比較して、我々のモデルは2.5-8倍高速な推論を行う。

Spiking neural networks (SNNs), that operate via binary spikes distributed over time, have emerged as a promising energy efficient ML paradigm for resource-constrained devices. However, the current state-of-the-art (SOTA) SNNs require multiple time steps for acceptable inference accuracy, increasing spiking activity and, consequently, energy consumption. SOTA training strategies for SNNs involve conversion from a non-spiking deep neural network (DNN). In this paper, we determine that SOTA conversion strategies cannot yield ultra low latency because they incorrectly assume that the DNN and SNN pre-activation values are uniformly distributed. We propose a new training algorithm that accurately captures these distributions, minimizing the error between the DNN and converted SNN. The resulting SNNs have ultra low latency and high activation sparsity, yielding significant improvements in compute efficiency. In particular, we evaluate our framework on image recognition tasks from CIFAR-10 and CIFAR-100 datasets on several VGG and ResNet architectures. We obtain top-1 accuracy of 64.19% with only 2 time steps on the CIFAR-100 dataset with ~159.2x lower compute energy compared to an iso-architecture standard DNN. Compared to other SOTA SNN models, our models perform inference 2.5-8x faster (i.e., with fewer time steps).
翻訳日:2021-12-23 16:22:35 公開日:2021-12-22
# リアルクレジットカード不正検出データベースにおける分類符号化手法の評価

Evaluating categorical encoding methods on a real credit card fraud detection database ( http://arxiv.org/abs/2112.12024v1 )

ライセンス: Link先を確認
Fran\c{c}ois de la Bourdonnaye and Fabrice Daniel(参考訳) 教師付き学習コンテキストにおけるカテゴリデータの正しい処理は依然として大きな問題である。 さらに、いくつかの機械学習手法は、カテゴリ的特徴を扱うための組み込みメソッドを具体化しているが、いくつかの改善をもたらすか、通常のカテゴリ的エンコーディング手法とどのように比較されるのかは不明である。 本稿では,対象統計と証拠の重みに基づく,よく知られた分類符号化手法について述べる。 大規模かつ実物のクレジットカード不正検出データベースに適用する。 次に,最先端勾配強調法を用いて符号化データベースを訓練し,その性能評価を行う。 分類的符号化法は一般にエンコーディングの欠如に関して大幅に改善される。 本研究の貢献は2つある:(1) 大規模データベース上で最先端の「礼儀正しい」分類法を比較し、(2) 実際のクレジットカード不正検出データベースを使用する。

Correctly dealing with categorical data in a supervised learning context is still a major issue. Furthermore, though some machine learning methods embody builtin methods to deal with categorical features, it is unclear whether they bring some improvements and how do they compare with usual categorical encoding methods. In this paper, we describe several well-known categorical encoding methods that are based on target statistics and weight of evidence. We apply them on a large and real credit card fraud detection database. Then, we train the encoded databases using state-of-the-art gradient boosting methods and evaluate their performances. We show that categorical encoding methods generally bring substantial improvements with respect to the absence of encoding. The contribution of this work is twofold: (1) we compare many state-of-the-art "lite" categorical encoding methods on a large scale database and (2) we use a real credit card fraud detection database.
翻訳日:2021-12-23 16:07:39 公開日:2021-12-22
# 形状の断片

Shape Fragments ( http://arxiv.org/abs/2112.11796v1 )

ライセンス: Link先を確認
Thomas Delva, Anastasia Dimou, Maxime Jakubowski, Jan Van den Bussche(参考訳) shexやshaclのようなrdfグラフの制約言語では、ノードに対する制約とそのrdfグラフにおける特性は「形状」と呼ばれる。 これらの言語のスキーマは、特定のターゲットノードがスキーマに準拠するためにグラフを満たす必要がある様々な形状をリストします。 本稿では, SHACLを用いて, 形状の集合を用いてRDFグラフからサブグラフを抽出し, いわゆる形状断片を抽出する新しい形状利用法を提案する。 提案するメカニズムはLinked Data Fragmentsのフレームワークに適合する。 この論文では (i)最近提案されたshacl形式に基づく抽出機構を正式に定義する。 (ii) データベースクエリの証明概念と形状フラグメントを関連付ける正当性特性を確立する。 (iii)シェープフラグメントとSPARQLクエリを比較します。 (iv)実装オプションについて議論し、 (v) 形状の断片が実現可能な新しいアイデアであることを示す実験を行った。

In constraint languages for RDF graphs, such as ShEx and SHACL, constraints on nodes and their properties in RDF graphs are known as "shapes". Schemas in these languages list the various shapes that certain targeted nodes must satisfy for the graph to conform to the schema. Using SHACL, we propose in this paper a novel use of shapes, by which a set of shapes is used to extract a subgraph from an RDF graph, the so-called shape fragment. Our proposed mechanism fits in the framework of Linked Data Fragments. In this paper, (i) we define our extraction mechanism formally, building on recently proposed SHACL formalizations; (ii) we establish correctness properties, which relate shape fragments to notions of provenance for database queries; (iii) we compare shape fragments with SPARQL queries; (iv) we discuss implementation options; and (v) we present initial experiments demonstrating that shape fragments are a feasible new idea.
翻訳日:2021-12-23 16:07:22 公開日:2021-12-22
# ベイズニューラルネットワークを用いたN体シミュレーションによる宇宙パラメータの制約

Constraining cosmological parameters from N-body simulations with Bayesian Neural Networks ( http://arxiv.org/abs/2112.11865v1 )

ライセンス: Link先を確認
Hector J. Hortua(参考訳) 本稿では,ベイズニューラルネットワークを用いて宇宙パラメータを抽出するために,The Quijoteシミュレーションを用いる。 この種のモデルは関連する不確実性を推定する顕著な能力を持ち、これは精密宇宙論の時代における最終的な目標の1つである。 より複雑な出力分布と非ガウス性情報をシミュレーションから抽出するBNNの利点を実証する。

In this paper, we use The Quijote simulations in order to extract the cosmological parameters through Bayesian Neural Networks. This kind of model has a remarkable ability to estimate the associated uncertainty, which is one of the ultimate goals in the precision cosmology era. We demonstrate the advantages of BNNs for extracting more complex output distributions and non-Gaussianities information from the simulations.
翻訳日:2021-12-23 16:07:10 公開日:2021-12-22
# 胸部X線解釈可能性法による放射線医の視線と衛生地図の比較

Comparing radiologists' gaze and saliency maps generated by interpretability methods for chest x-rays ( http://arxiv.org/abs/2112.11716v1 )

ライセンス: Link先を確認
Ricardo Bigolin Lanfredi, Ambuj Arora, Trafton Drew, Joyce D. Schroeder, Tolga Tasdizen(参考訳) 医用画像解析モデルの解釈性は重要な研究分野である。 5人の放射線科医による視線追跡データのデータセットを用いて、解釈可能性法の出力と、放射線科医が見た場所を表すヒートマップを比較した。 文献から選択した2つの手法(grad-camとententention map)で生成した塩分マップのクラス非依存解析を行う。 比較のために、固定位置からのバイアスを避けるシャッフルメトリクスを使用します。 この結果から,Grad-CAMによる画像に対する放射線技師の注意を反映したサリエンシマップの可能性を強調した。 また、データセットをサブセットに分割して、類似度が高い場合を評価する。

The interpretability of medical image analysis models is considered a key research field. We use a dataset of eye-tracking data from five radiologists to compare the outputs of interpretability methods against the heatmaps representing where radiologists looked. We conduct a class-independent analysis of the saliency maps generated by two methods selected from the literature: Grad-CAM and attention maps from an attention-gated model. For the comparison, we use shuffled metrics, which avoid biases from fixation locations. We achieve scores comparable to an interobserver baseline in one shuffled metric, highlighting the potential of saliency maps from Grad-CAM to mimic a radiologist's attention over an image. We also divide the dataset into subsets to evaluate in which cases similarities are higher.
翻訳日:2021-12-23 16:07:03 公開日:2021-12-22
# 軽量ガウスデノジングのための画像の周波数間誘導探索

Exploring Inter-frequency Guidance of Image for Lightweight Gaussian Denoising ( http://arxiv.org/abs/2112.11779v1 )

ライセンス: Link先を確認
Zhuang Jia(参考訳) 多くの画像やコンピュータビジョン関連領域において、画像の認知は極めて重要である。 コンピュータビジョンタスクにおいて強力な能力を示す畳み込みニューラルネットワークにより、画像の復調性能もCNNベースの手法によってもたらされた。 CNNベースのイメージデノイザは、このタスクで有望な結果を示すが、現在のCNNベースの手法のほとんどは、ノイズの多いイメージからクリーンなイメージへのマッピングを学習しようとしており、画像とノイズの事前の知識の明示的な探索を欠いている。 自然画像は相反力の法則に従うように観察され、画像の低周波帯域がエネルギーの大部分を占める傾向があることを示している。 したがって、AGWN (additive gaussian white noise) の劣化により、低周波帯域は高周波帯域よりも高いPSNRを維持する傾向にある。 異なる周波数帯域の空間的形態的整合性を考慮すると、より忠実な低周波帯域は、より汚染された高周波帯域を洗練するためのガイダンスとして用いられる。 この考え方に基づき,低帯域から高帯域までの周波数帯域を漸進的に洗練するために,ignetと呼ばれる新しいネットワークアーキテクチャを提案する。 まず、DWT(discrete wavelet transform)を用いて、特徴マップを高周波数サブバンドと低周波数サブバンドに分割し、各低帯域特徴を用いて高帯域特徴を洗練させる。 最後に、洗練された特徴マップをデコーダで処理してクリーンな結果を復元する。 この設計では、より周波数間先行と情報を利用するため、モデルサイズは軽量化でき、競争結果も維持できる。 いくつかの公開データセットの実験により、我々のモデルは、まだ軽量な構造を持つ他の最先端の手法と比較して、競争性能を得ることを示した。

Image denoising is of vital importance in many imaging or computer vision related areas. With the convolutional neural networks showing strong capability in computer vision tasks, the performance of image denoising has also been brought up by CNN based methods. Though CNN based image denoisers show promising results on this task, most of the current CNN based methods try to learn the mapping from noisy image to clean image directly, which lacks the explicit exploration of prior knowledge of images and noises. Natural images are observed to obey the reciprocal power law, implying the low-frequency band of image tend to occupy most of the energy. Thus in the condition of AGWN (additive gaussian white noise) deterioration, low-frequency band tend to preserve a higher PSNR than high-frequency band. Considering the spatial morphological consistency of different frequency bands, low-frequency band with more fidelity can be used as a guidance to refine the more contaminated high-frequency bands. Based on this thought, we proposed a novel network architecture denoted as IGNet, in order to refine the frequency bands from low to high in a progressive manner. Firstly, it decomposes the feature maps into high- and low-frequency subbands using DWT (discrete wavelet transform) iteratively, and then each low band features are used to refine the high band features. Finally, the refined feature maps are processed by a decoder to recover the clean result. With this design, more inter-frequency prior and information are utilized, thus the model size can be lightened while still perserves competitive results. Experiments on several public datasets show that our model obtains competitive performance comparing with other state-of-the-art methods yet with a lightweight structure.
翻訳日:2021-12-23 16:04:45 公開日:2021-12-22
# 縦型mriデータにおける脳転移検出とセグメンテーションのための深層学習

Deep learning for brain metastasis detection and segmentation in longitudinal MRI data ( http://arxiv.org/abs/2112.11833v1 )

ライセンス: Link先を確認
Yixing Huang, Christoph Bert, Philipp Sommer, Benjamin Frey, Udo Gaipl, Luitpold V. Distel, Thomas Weissmann, Michael Uder, Manuel A. Schmidt, Arnd D\"orfler, Andrreas Maier, Rainer Fietkau, Florian Putz(参考訳) 脳転移は転移性癌患者に頻繁に起こる。 脳転移の早期かつ正確な検出は放射線治療の計画と予後に極めて重要である。 深層学習による脳転移検出性能を向上させるために,(サブ)ボリュームレベルの個々の転移検出感度と特異度を評価するVSS(volume-level sensitivity-specific ity)と呼ばれるカスタム検出損失を提案する。 感度と精度は常に転移レベルでのトレードオフであるため、分節化転移のサイススコア係数を低下させることなくvss損失の重みを調整することにより、高感度または高精度のいずれかを達成することができる。 偽陽性転移として検出される転移様構造を減らすために、ニューラルネットワークの追加入力として時間的先行体積を提案する。 提案するvss損失は脳転移検出の感度を86.7%から95.5%に向上させる。 また、精度は68.8%から97.8%に向上する。 追加の時間的前容積では、偽陽性転移の約45%が高感度モデルで減少し、精度は高特異度モデルで99.6%に達する。 すべての転移に対する平均サイス係数は約0.81である。 高感度・高特異性モデルの合理化により、患者1人当たりの偽陽性転移は平均1.5例に過ぎず、真陽性転移の大部分は確認される。 アンサンブル学習は、特別な専門家レビューやさらなるフォローアップを必要とする転移候補と高い信頼性の真正の転移を区別することができ、実際の臨床実践における専門家支援の要求に特に適している。

Brain metastases occur frequently in patients with metastatic cancer. Early and accurate detection of brain metastases is very essential for treatment planning and prognosis in radiation therapy. To improve brain metastasis detection performance with deep learning, a custom detection loss called volume-level sensitivity-specific ity (VSS) is proposed, which rates individual metastasis detection sensitivity and specificity in (sub-)volume levels. As sensitivity and precision are always a trade-off in a metastasis level, either a high sensitivity or a high precision can be achieved by adjusting the weights in the VSS loss without decline in dice score coefficient for segmented metastases. To reduce metastasis-like structures being detected as false positive metastases, a temporal prior volume is proposed as an additional input of the neural network. Our proposed VSS loss improves the sensitivity of brain metastasis detection, increasing the sensitivity from 86.7% to 95.5%. Alternatively, it improves the precision from 68.8% to 97.8%. With the additional temporal prior volume, about 45% of the false positive metastases are reduced in the high sensitivity model and the precision reaches 99.6% for the high specificity model. The mean dice coefficient for all metastases is about 0.81. With the ensemble of the high sensitivity and high specificity models, on average only 1.5 false positive metastases per patient needs further check, while the majority of true positive metastases are confirmed. The ensemble learning is able to distinguish high confidence true positive metastases from metastases candidates that require special expert review or further follow-up, being particularly well-fit to the requirements of expert support in real clinical practice.
翻訳日:2021-12-23 16:04:16 公開日:2021-12-22
# GCoD: 述語アルゴリズムとアクセラレータ共設計によるグラフ畳み込みネットワーク高速化

GCoD: Graph Convolutional Network Acceleration via Dedicated Algorithm and Accelerator Co-Design ( http://arxiv.org/abs/2112.11594v1 )

ライセンス: Link先を確認
Haoran You, Tong Geng, Yongan Zhang, Ang Li, Yingyan Lin(参考訳) グラフ畳み込みネットワーク(GCN)が最先端のグラフ学習モデルとして登場した。 しかし、大規模なグラフデータセットに対してGCNを推論し、アプリケーションを大規模な現実世界のグラフに制限し、より深くより洗練されたGCNグラフの探索を妨げることで知られている。 これは、現実世界のグラフが非常に大きく、疎いためです。 さらに、GCNのノード次数は電力-法則分布に従う傾向にあり、従って非常に不規則な隣接行列を持ち、データ処理と移動の両方において非効率となり、GCN加速効率を著しく制限する。 そこで本研究では,上記GCNの不規則性を大幅に軽減し,GCNの推論効率を向上するGCNアルゴリズムとアクセラレータ共設計フレームワークGCoDを提案する。 特にアルゴリズムレベルでは、GCoDはGCNトレーニング戦略を分割し、グラフをモデル精度を損なうことなく、局所的により密度の高いグラフまたはスペーサーに分極する。 ハードウェアレベルでは、前述の密度の高いワークロードとスパルサーワークロードをそれぞれ処理するためのエンジンを分離した専用2段加速器を更に開発し、全体的な使用率と加速効率をさらに高めます。 GCoDはCPU,GPU,HyGCNやAWB-GCNといった先進的なGCNアクセラレータと比較して,それぞれ15286x,294x,7.8x,2.5 xの高速化を実現し,タスク精度の維持や改善を実現しています。

Graph Convolutional Networks (GCNs) have emerged as the state-of-the-art graph learning model. However, it can be notoriously challenging to inference GCNs over large graph datasets, limiting their application to large real-world graphs and hindering the exploration of deeper and more sophisticated GCN graphs. This is because real-world graphs can be extremely large and sparse. Furthermore, the node degree of GCNs tends to follow the power-law distribution and therefore have highly irregular adjacency matrices, resulting in prohibitive inefficiencies in both data processing and movement and thus substantially limiting the achievable GCN acceleration efficiency. To this end, this paper proposes a GCN algorithm and accelerator Co-Design framework dubbed GCoD which can largely alleviate the aforementioned GCN irregularity and boost GCNs' inference efficiency. Specifically, on the algorithm level, GCoD integrates a split and conquer GCN training strategy that polarizes the graphs to be either denser or sparser in local neighborhoods without compromising the model accuracy, resulting in graph adjacency matrices that (mostly) have merely two levels of workload and enjoys largely enhanced regularity and thus ease of acceleration. On the hardware level, we further develop a dedicated two-pronged accelerator with a separated engine to process each of the aforementioned denser and sparser workloads, further boosting the overall utilization and acceleration efficiency. Extensive experiments and ablation studies validate that our GCoD consistently reduces the number of off-chip accesses, leading to speedups of 15286x, 294x, 7.8x, and 2.5x as compared to CPUs, GPUs, and prior-art GCN accelerators including HyGCN and AWB-GCN, respectively, while maintaining or even improving the task accuracy.
翻訳日:2021-12-23 16:03:31 公開日:2021-12-22
# (参考訳) Open-Vocabulary Image Segmentation [全文訳有]

Open-Vocabulary Image Segmentation ( http://arxiv.org/abs/2112.12143v1 )

ライセンス: CC BY 4.0
Golnaz Ghiasi, Xiuye Gu, Yin Cui, Tsung-Yi Lin(参考訳) 任意のテキストで示される意味のある領域にイメージを整理するオープン語彙画像分割モデルを設計する。 近年のオープンボキャブラリモデルでは,画像中のものを認識しても,視覚概念を十分にローカライズできないことが判明した。 我々は、これらのモデルは視覚的なグループ化の重要なステップを見逃していると主張している。 上記の問題に対処するためにOpenSegを提案する。 まず、組織のためにセグメンテーションマスクを提案することを学ぶ。 そして、キャプション中の各単語を1つまたは複数の予測マスクに合わせることにより、視覚的なアライメントを学ぶ。 マスク表現は、キャプションからの学習をサポートするキーであり、データセットと語彙サイズをスケールアップすることを可能にする。 当社の作業は、ホールドアウトセグメンテーションデータセットでゼロショット転送を行う最初の作業です。 事前学習されたALIGNモデル上で,クラスアクティベーションマップを適用したり,ピクセルワイズラベルを微調整することで,2つの強いベースラインを設定した。 OpenSegはPASCAL-Contextでは3.4 mIoU(459クラス)、ADE-20kでは2.7 mIoU(847クラス)でこれらのベースラインを上回っている。

We design an open-vocabulary image segmentation model to organize an image into meaningful regions indicated by arbitrary texts. We identify that recent open-vocabulary models can not localize visual concepts well despite recognizing what are in an image. We argue that these models miss an important step of visual grouping, which organizes pixels into groups before learning visual-semantic alignments. We propose OpenSeg to address the above issue. First, it learns to propose segmentation masks for possible organizations. Then it learns visual-semantic alignments by aligning each word in a caption to one or a few predicted masks. We find the mask representations are the key to support learning from captions, making it possible to scale up the dataset and vocabulary sizes. Our work is the first to perform zero-shot transfer on holdout segmentation datasets. We set up two strong baselines by applying class activation maps or fine-tuning with pixel-wise labels on a pre-trained ALIGN model. OpenSeg outperforms these baselines by 3.4 mIoU on PASCAL-Context (459 classes) and 2.7 mIoU on ADE-20k (847 classes).
翻訳日:2021-12-23 16:00:05 公開日:2021-12-22
# Multi-View partial (MVP) Point Cloud Challenge 2021: Completion and Registration: Methods and Results

Multi-View Partial (MVP) Point Cloud Challenge 2021 on Completion and Registration: Methods and Results ( http://arxiv.org/abs/2112.12053v1 )

ライセンス: Link先を確認
Liang Pan, Tong Wu, Zhongang Cai, Ziwei Liu, Xumin Yu, Yongming Rao, Jiwen Lu, Jie Zhou, Mingye Xu, Xiaoyuan Luo, Kexue Fu, Peng Gao, Manning Wang, Yali Wang, Yu Qiao, Junsheng Zhou, Xin Wen, Peng Xiang, Yu-Shen Liu, Zhizhong Han, Yuanjie Yan, Junyi An, Lifa Zhu, Changwei Lin, Dongrui Liu, Xin Li, Francisco G\'omez-Fern\'andez, Qinlong Wang, Yang Yang(参考訳) 実走査点雲は、主に閉塞と視点により部分的であるため、不完全な観測に基づく完全な3次元形状の再構成はコンピュータビジョンの根本的な問題となる。 単一の不完全点クラウドでは、部分点クラウド完備化問題となる。 複数の異なる観測がなされると、3D再構成は部分的から部分的なクラウド登録によって対処できる。 最近、大規模マルチビュー部分的(mvp)ポイントクラウドデータセットがリリースされ、10万以上の高品質な仮想スキャン部分的ポイントクラウドで構成されている。 本稿では,mvpデータセットに基づいて,マルチビュー部分ポイントクラウドチャレンジ2021の完成と登録に関する手法と結果について報告する。 合計で128人の参加者が参加し、31チームが有効な応募を行った。 上位のソリューションを分析し、今後の研究の方向性について論じる。

As real-scanned point clouds are mostly partial due to occlusions and viewpoints, reconstructing complete 3D shapes based on incomplete observations becomes a fundamental problem for computer vision. With a single incomplete point cloud, it becomes the partial point cloud completion problem. Given multiple different observations, 3D reconstruction can be addressed by performing partial-to-partial point cloud registration. Recently, a large-scale Multi-View Partial (MVP) point cloud dataset has been released, which consists of over 100,000 high-quality virtual-scanned partial point clouds. Based on the MVP dataset, this paper reports methods and results in the Multi-View Partial Point Cloud Challenge 2021 on Completion and Registration. In total, 128 participants registered for the competition, and 31 teams made valid submissions. The top-ranked solutions will be analyzed, and then we will discuss future research directions.
翻訳日:2021-12-23 15:41:18 公開日:2021-12-22
# 自己監督型カリキュラム深層学習による皮膚病変認識の改善

Improved skin lesion recognition by a Self-Supervised Curricular Deep Learning approach ( http://arxiv.org/abs/2112.12086v1 )

ライセンス: Link先を確認
Kirill Sirotkin (1), Marcos Escudero Vi\~nolo (1), Pablo Carballeira (1), Juan Carlos SanMiguel (1) ((1) Universidad Aut\'onoma de Madrid, Escuela Polit\'ecnica Superior, Spain)(参考訳) 皮膚病変画像データセットの縮小による一般化限界を克服するため、皮膚病変認識のための最先端のディープラーニングアプローチは、より大きな、より多様なデータセットで事前訓練を必要とすることが多い。 ImageNetはしばしば事前トレーニングデータセットとして使用されるが、その転送ポテンシャルはソースデータセットと対象皮膚内視鏡シナリオの間のドメインギャップによって妨げられる。 本研究では,一連の自己教師付き学習プリテキストタスクを逐次学習し,ラベルなし皮膚病変イメージングデータのみを必要とする新しい事前学習手法を提案する。 プレテキストタスクのカリキュラムを定義する順序付けを確立するための簡単な手法を提案する。 マルチクラス皮膚病変分類問題とISIC-2019データセットについて, 以下の結果が得られた。 一 プリテキストタスクのカリキュラムにより事前訓練されたモデルは、個別のプリテキストタスクにより事前訓練されたモデルを上回るものであって、 二 最適なプリテキストタスクカリキュラムにより事前訓練されたモデルは、imagenetで事前訓練されたモデルを上回るもの。 この性能向上は,前文課題のカリキュラムが皮膚病変に対する最終モデルの注意をより重視していることに関連していることを示す。 パフォーマンスの改善以外にも、この戦略はImageNet事前トレーニングに対するトレーニング時間の大幅な削減を可能にし、特に特定の問題に適したネットワークアーキテクチャに有利である。

State-of-the-art deep learning approaches for skin lesion recognition often require pretraining on larger and more varied datasets, to overcome the generalization limitations derived from the reduced size of the skin lesion imaging datasets. ImageNet is often used as the pretraining dataset, but its transferring potential is hindered by the domain gap between the source dataset and the target dermatoscopic scenario. In this work, we introduce a novel pretraining approach that sequentially trains a series of Self-Supervised Learning pretext tasks and only requires the unlabeled skin lesion imaging data. We present a simple methodology to establish an ordering that defines a pretext task curriculum. For the multi-class skin lesion classification problem, and ISIC-2019 dataset, we provide experimental evidence showing that: i) a model pretrained by a curriculum of pretext tasks outperforms models pretrained by individual pretext tasks, and ii) a model pretrained by the optimal pretext task curriculum outperforms a model pretrained on ImageNet. We demonstrate that this performance gain is related to the fact that the curriculum of pretext tasks better focuses the attention of the final model on the skin lesion. Beyond performance improvement, this strategy allows for a large reduction in the training time with respect to ImageNet pretraining, which is especially advantageous for network architectures tailored for a specific problem.
翻訳日:2021-12-23 15:40:15 公開日:2021-12-22
# イメージスーパーレゾリューションにおけるフラッシュドロップアウト

Reflash Dropout in Image Super-Resolution ( http://arxiv.org/abs/2112.12089v1 )

ライセンス: Link先を確認
Xiangtao Kong, Xina Liu, Jinjin Gu, Yu Qiao and Chao Dong(参考訳) dropoutは高レベルビジョンタスクのオーバーフィッティング問題を解決するように設計されているが、イメージスーパーレゾリューション(sr)のような低レベルビジョンタスクにはほとんど適用されない。 古典的な回帰問題として、SRは高いレベルのタスクと異なる振る舞いを示し、ドロップアウト操作に敏感である。 本稿では,ドロップアウトの適切な利用がsrネットワークに有益であり,一般化能力を向上させることを示す。 具体的には、ドロップアウトはネットワークの端に埋め込まれ、マルチデグレート設定に非常に役立ちます。 この発見は私たちの常識を壊し、その動作メカニズムを探求するきっかけとなります。 さらに2つの分析ツールを使用します - 1つは最近のネットワーク解釈作業で、もう1つはこのタスクのために特別に設計されています。 解析結果は,実験結果のサイド証明を提供し,SRネットワークを理解するための新たな視点を示す。

Dropout is designed to relieve the overfitting problem in high-level vision tasks but is rarely applied in low-level vision tasks, like image super-resolution (SR). As a classic regression problem, SR exhibits a different behaviour as high-level tasks and is sensitive to the dropout operation. However, in this paper, we show that appropriate usage of dropout benefits SR networks and improves the generalization ability. Specifically, dropout is better embedded at the end of the network and is significantly helpful for the multi-degradation settings. This discovery breaks our common sense and inspires us to explore its working mechanism. We further use two analysis tools -- one is from recent network interpretation works, and the other is specially designed for this task. The analysis results provide side proofs to our experimental findings and show us a new perspective to understand SR networks.
翻訳日:2021-12-23 15:39:55 公開日:2021-12-22
# NICE-SLAM: SLAMのためのニューラルネットワーク型スケーラブルエンコーディング

NICE-SLAM: Neural Implicit Scalable Encoding for SLAM ( http://arxiv.org/abs/2112.12130v1 )

ライセンス: Link先を確認
Zihan Zhu, Songyou Peng, Viktor Larsson, Weiwei Xu, Hujun Bao, Zhaopeng Cui, Martin R. Oswald, Marc Pollefeys(参考訳) ニューラルな暗黙の表現は、最近、同時局在とマッピング(SLAM)の有望な進歩を含む様々な領域において、奨励的な結果を示している。 それにもかかわらず、既存の手法では過剰なスムースなシーンの復元が行われ、大きなシーンへのスケールアップが困難になっている。 これらの制限は主に、ローカル情報を観測に含まない単純な完全接続ネットワークアーキテクチャによるものである。 本稿では,階層的なシーン表現を導入してマルチレベルなローカル情報を含む高密度SLAMシステムであるNICE-SLAMを提案する。 この表現を事前学習した幾何学的前処理で最適化することで、大規模な屋内シーンの詳細な再構築が可能になる。 最近のニューラルネットワークの暗黙のスラムシステムと比較して、我々のアプローチはよりスケーラブルで効率的で堅牢です。 5つの挑戦的なデータセットの実験は、マッピングとトラッキング品質の両方において、NICE-SLAMの競合結果を示している。

Neural implicit representations have recently shown encouraging results in various domains, including promising progress in simultaneous localization and mapping (SLAM). Nevertheless, existing methods produce over-smoothed scene reconstructions and have difficulty scaling up to large scenes. These limitations are mainly due to their simple fully-connected network architecture that does not incorporate local information in the observations. In this paper, we present NICE-SLAM, a dense SLAM system that incorporates multi-level local information by introducing a hierarchical scene representation. Optimizing this representation with pre-trained geometric priors enables detailed reconstruction on large indoor scenes. Compared to recent neural implicit SLAM systems, our approach is more scalable, efficient, and robust. Experiments on five challenging datasets demonstrate competitive results of NICE-SLAM in both mapping and tracking quality.
翻訳日:2021-12-23 15:39:41 公開日:2021-12-22
# 自律運転における2次元弱視によるマルチモーダル3次元人物位置推定

Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in Autonomous Driving ( http://arxiv.org/abs/2112.12141v1 )

ライセンス: Link先を確認
Jingxiao Zheng, Xinwei Shi, Alexander Gorban, Junhua Mao, Yang Song, Charles R. Qi, Ting Liu, Visesh Chari, Andre Cornman, Yin Zhou, Congcong Li, Dragomir Anguelov(参考訳) 自律走行車(AV)における3次元ポーズ推定(HPE)は,3次元解像度とデータ範囲,深度マップの欠如,LiDARの故障モード,カメラとLiDARの相対位置,推定精度の高いバーなど,多くの要因で異なる。 他のユースケース(仮想現実、ゲーム、アニメーションなど)のために収集されたデータは、AVアプリケーションには使用できない可能性がある。 これは、時間と費用のかかるAVにおけるHPEのための大量の3Dデータの収集とアノテーションを必要とする。 本稿では,この問題をAV設定で緩和するための最初のアプローチの1つを提案する。 具体的には、RGB画像上の2Dラベルを弱い監督力として用いて、3D HPEを実行するマルチモーダルアプローチを提案する。 提案するマルチモーダルアーキテクチャは、LiDARとカメラ入力を補助セグメンテーションブランチに組み込む。 Waymo Open Datasetでは、カメラのみの2D HPEベースラインよりも22%改善し、LiDARのみのモデルよりも6%改善した。 最後に、各コントリビューションの利点について、慎重にアブレーション研究と部品分析を行った。

3D human pose estimation (HPE) in autonomous vehicles (AV) differs from other use cases in many factors, including the 3D resolution and range of data, absence of dense depth maps, failure modes for LiDAR, relative location between the camera and LiDAR, and a high bar for estimation accuracy. Data collected for other use cases (such as virtual reality, gaming, and animation) may therefore not be usable for AV applications. This necessitates the collection and annotation of a large amount of 3D data for HPE in AV, which is time-consuming and expensive. In this paper, we propose one of the first approaches to alleviate this problem in the AV setting. Specifically, we propose a multi-modal approach which uses 2D labels on RGB images as weak supervision to perform 3D HPE. The proposed multi-modal architecture incorporates LiDAR and camera inputs with an auxiliary segmentation branch. On the Waymo Open Dataset, our approach achieves a 22% relative improvement over camera-only 2D HPE baseline, and 6% improvement over LiDAR-only model. Finally, careful ablation studies and parts based analysis illustrate the advantages of each of our contributions.
翻訳日:2021-12-23 15:39:29 公開日:2021-12-22
# Redditでジェンダーのバイアスを定量化

Quantifying Gender Biases Towards Politicians on Reddit ( http://arxiv.org/abs/2112.12014v1 )

ライセンス: Link先を確認
Sara Marjanovic, Karolina Sta\'nczak, Isabelle Augenstein(参考訳) 政治における男女平等を高める試みにもかかわらず、グローバルな努力は平等な女性代表の確保に苦慮している。 これは、女性の権威に対する暗黙のジェンダーバイアスと結びついている可能性が高い。 本稿では,オンライン政治議論に現れるジェンダーバイアスの包括的研究について述べる。 この目的のために私たちは、男女政治家に関する会話の中でreddit上で1000万のコメントを集め、自動性バイアス検出の徹底的な研究を可能にしています。 我々は、女性政治家が持つ感情と支配性の両方を調べる一見ポジティブな態度という形で、誤解主義的な言語だけでなく、好意的な性差別にも対処している。 最後に,言語的・言語外的手がかりを調査する政治家に対するジェンダーバイアスの多面的研究を行う。 ソーシャルメディアの言語や言論に現われる5種類のジェンダーバイアスを評価し,包括的,複合的,名目的,感情的,語彙的バイアスを評価した。 全体として、これまでの研究とは対照的に、カバレッジと感情バイアスは、女性政治家に対する公共の関心が等しいことを示唆している。 しかし、名目的・語彙的分析の結果、この関心は男性政治家ほどプロ的・尊敬的ではないことが示唆された。 女性政治家は、しばしばファーストネームで命名され、身体、衣服、家族との関係で記述される。 現在禁止されている極右サブレディットでは、この格差が最も大きいが、男女差は依然として右と左のサブレディットに現れる。 今後の研究のために、キュレートされたデータセットを一般公開します。

Despite attempts to increase gender parity in politics, global efforts have struggled to ensure equal female representation. This is likely tied to implicit gender biases against women in authority. In this work, we present a comprehensive study of gender biases that appear in online political discussion. To this end, we collect 10 million comments on Reddit in conversations about male and female politicians, which enables an exhaustive study of automatic gender bias detection. We address not only misogynistic language, but also benevolent sexism in the form of seemingly positive attitudes examining both sentiment and dominance attributed to female politicians. Finally, we conduct a multi-faceted study of gender bias towards politicians investigating both linguistic and extra-linguistic cues. We assess 5 different types of gender bias, evaluating coverage, combinatorial, nominal, sentimental and lexical biases extant in social media language and discourse. Overall, we find that, contrary to previous research, coverage and sentiment biases suggest equal public interest in female politicians. However, the results of the nominal and lexical analyses suggest this interest is not as professional or respectful as that expressed about male politicians. Female politicians are often named by their first names and are described in relation to their body, clothing, or family; this is a treatment that is not similarly extended to men. On the now banned far-right subreddits, this disparity is greatest, though differences in gender biases still appear in the right and left-leaning subreddits. We release the curated dataset to the public for future studies.
翻訳日:2021-12-23 15:38:01 公開日:2021-12-22
# 効率的なニューラルネットワークトレーニングのための収束型admmフレームワーク

A Convergent ADMM Framework for Efficient Neural Network Training ( http://arxiv.org/abs/2112.11619v1 )

ライセンス: Link先を確認
Junxiang Wang, Hongyi Li, Liang Zhao(参考訳) 良く知られた最適化フレームワークとして、ALMM (Alternating Direction Method of Multipliers) が多くの分類および回帰アプリケーションで大きな成功を収めている。 近年、深層学習研究者の関心を惹きつけ、グラディエント・Descent(GD)に取って代わる可能性があると考えられている。 しかし、新興領域としての課題は未解決のままである。 1)グローバル収束保証の欠如 2)解に対する緩やかな収束、及び 3) 特徴量に関する立方体時間の複雑さ。 本稿では,ADMM(dlADMM)を用いてニューラルネットワークの一般的なトレーニング問題を同時に解くための新しい最適化フレームワークを提案する。 具体的には、各層内のパラメータ情報を効率的に交換できるように、各層内のパラメータを前後に更新する。 dladmmを特定のアーキテクチャに適用すると、二次近似とバックトラック技術を利用した専用アルゴリズム設計により、サブプロブレムの時間複雑性が立方体から二次に減少する。 最後に,ADMM型法(dlADMM)の臨界点への収束の第一の証明を軽度条件下で提供する。 提案したdlADMMアルゴリズムの収束, 効率, 有効性を示す7つのベンチマークデータセットの実験を行った。

As a well-known optimization framework, the Alternating Direction Method of Multipliers (ADMM) has achieved tremendous success in many classification and regression applications. Recently, it has attracted the attention of deep learning researchers and is considered to be a potential substitute to Gradient Descent (GD). However, as an emerging domain, several challenges remain unsolved, including 1) The lack of global convergence guarantees, 2) Slow convergence towards solutions, and 3) Cubic time complexity with regard to feature dimensions. In this paper, we propose a novel optimization framework to solve a general neural network training problem via ADMM (dlADMM) to address these challenges simultaneously. Specifically, the parameters in each layer are updated backward and then forward so that parameter information in each layer is exchanged efficiently. When the dlADMM is applied to specific architectures, the time complexity of subproblems is reduced from cubic to quadratic via a dedicated algorithm design utilizing quadratic approximations and backtracking techniques. Last but not least, we provide the first proof of convergence to a critical point sublinearly for an ADMM-type method (dlADMM) under mild conditions. Experiments on seven benchmark datasets demonstrate the convergence, efficiency, and effectiveness of our proposed dlADMM algorithm.
翻訳日:2021-12-23 15:37:03 公開日:2021-12-22
# SkipNode:ディープグラフ畳み込みネットワークのオーバースムーシングを緩和する

SkipNode: On Alleviating Over-smoothing for Deep Graph Convolutional Networks ( http://arxiv.org/abs/2112.11628v1 )

ライセンス: Link先を確認
Weigang Lu, Yibing Zhan, Ziyu Guan, Liu Liu, Baosheng Yu, Wei Zhao, Yaming Yang, and Dacheng Tao(参考訳) オーバースムーシングは、ディープグラフ畳み込みネットワーク(GCN)の性能を低下させる難しい問題である。 しかし、過度に平滑な問題を緩和するための既存の研究は、一般性や有効性に欠ける。 本稿では, 過密化問題, すなわち, 機能多様性の劣化, 勾配の消失, およびモデル重量の過密化の根底にある問題を解析する。 そこで我々は,オーバースムーシングを緩和する簡易かつ効果的なプラグイン・アンド・プレイモジュールであるskipnodeを提案する。 具体的には、gcnモデルの各中間層に対して、ノードをランダムに(あるいはノード次数に基づいて)選択し、入力特徴を直接非線形関数に供給することで畳み込み操作をスキップする。 分析的に 1)畳み込み動作をスキップすると、特徴が多様性を失うのを防ぐ。 2) "スクリット" ノードは勾配を直接戻せるので、勾配の消滅とモデルの重み付けの過度な問題を軽減することができる。 SkipNodeの優位性を示すために、ノード分類とリンク予測という2つの典型的なタスクにおいて、同好性グラフと異好性グラフの両方を含む9つの一般的なデータセットについて広範な実験を行った。 具体的には 1)SkipNodeは、さまざまなデータセットやタスク上の様々なGCNベースのモデルに適用できる強力な一般化性を持っている。 2) SkipNodeは、最新の最先端のアンチオーバースムースなプラグイン、すなわちDropEdgeとDropNodeを異なる設定でパフォーマンスします。 コードはGitHubで公開されている。

Over-smoothing is a challenging problem, which degrades the performance of deep graph convolutional networks (GCNs). However, existing studies for alleviating the over-smoothing problem lack either generality or effectiveness. In this paper, we analyze the underlying issues behind the over-smoothing problem, i.e., feature-diversity degeneration, gradient vanishing, and model weights over-decaying. Inspired by this, we propose a simple yet effective plug-and-play module, SkipNode, to alleviate over-smoothing. Specifically, for each middle layer of a GCN model, SkipNode randomly (or based on node degree) selects nodes to skip the convolutional operation by directly feeding their input features to the nonlinear function. Analytically, 1) skipping the convolutional operation prevents the features from losing diversity; and 2) the "skipped" nodes enable gradients to be directly passed back, thus mitigating the gradient vanishing and model weights over-decaying issues. To demonstrate the superiority of SkipNode, we conduct extensive experiments on nine popular datasets, including both homophilic and heterophilic graphs, with different graph sizes on two typical tasks: node classification and link prediction. Specifically, 1) SkipNode has strong generalizability of being applied to various GCN-based models on different datasets and tasks; and 2) SkipNode outperforms recent state-of-the-art anti-over-smoothing plug-and-play modules, i.e., DropEdge and DropNode, in different settings. Code will be made publicly available on GitHub.
翻訳日:2021-12-23 15:36:47 公開日:2021-12-22
# MECATS: Aggregated Time Seriesの量子予測のためのMixture-of-Experts

MECATS: Mixture-of-Experts for Quantile Forecasts of Aggregated Time Series ( http://arxiv.org/abs/2112.11669v1 )

ライセンス: Link先を確認
Xing Han, Jing Hu, Joydeep Ghosh(参考訳) 本稿では,集約階層を通じて関連する時系列の集合の値を同時に予測する,‘texttt{MECATS} という異種専門家フレームワークの混合を紹介する。 異なる種類の予測モデルが個々の専門家として採用され、それぞれのモデルの形式が対応する時系列の性質に合わせて調整される。 \texttt{mecats} はトレーニング段階で階層関係を学習し、モデル化されるすべての時系列をまたがってより一般化し、階層によって課される制約によって生じる一貫性の問題を軽減する。 さらに、ポイント予測の上に複数の分位推定器を構築する。 その結果生じる確率的予測は、予測モデルの選択によらず、ほぼ一貫性があり、分布自由であり、独立である。 ポイント予測と確率予測の両方について総合的な評価を行い,逐次データに変化点が存在する場合の拡張も行う。 概して,本手法は頑健であり,異なる特性を持つデータセットに適応し,大規模予測パイプラインに対して極めて構成可能かつ効率的である。

We introduce a mixture of heterogeneous experts framework called \texttt{MECATS}, which simultaneously forecasts the values of a set of time series that are related through an aggregation hierarchy. Different types of forecasting models can be employed as individual experts so that the form of each model can be tailored to the nature of the corresponding time series. \texttt{MECATS} learns hierarchical relationships during the training stage to help generalize better across all the time series being modeled and also mitigates coherency issues that arise due to constraints imposed by the hierarchy. We further build multiple quantile estimators on top of the point forecasts. The resulting probabilistic forecasts are nearly coherent, distribution-free, and independent of the choice of forecasting models. We conduct a comprehensive evaluation on both point and probabilistic forecasts and also formulate an extension for situations where change points exist in sequential data. In general, our method is robust, adaptive to datasets with different properties, and highly configurable and efficient for large-scale forecasting pipelines.
翻訳日:2021-12-23 15:36:17 公開日:2021-12-22
# SOLIS -- データ取得から実行可能な洞察へのMLOpsの旅

SOLIS -- The MLOps journey from data acquisition to actionable insights ( http://arxiv.org/abs/2112.11925v1 )

ライセンス: Link先を確認
Razvan Ciobanu, Alexandru Purdila, Laurentiu Piciu and Andrei Damian(参考訳) 機械学習の操作は間違いなく非常に重要であり、最近は人工知能で最もホットなトピックの1つでもある。 機械学習モデルによって対処できる実際の実生活問題の非常に明確な仮説を定義し、モデルトレーニングとバリデーションのために大量のデータを収集、キュレーションし、続いてモデルアーキテクチャ検索と実際の最適化を行い、最終的に結果がデータサイエンス実験のシナリオに非常によく適合することを示した。 しかしこのアプローチは、実際のプロダクショングレードシステムにおける機械学習機能の実際のデプロイに必要な手順やパイプラインを提供しない。 ライブ構成メカニズムをオンザフライで自動化し、ライブまたはオフラインのデータキャプチャと消費に適応し、エッジまたはクラウドアーキテクチャのいずれかで複数のモデルを並列に提供し、GPUメモリまたは計算能力の特定の制限に対処し、後処理の推論または予測結果に対処し、同じエンドツーエンドパイプラインでAPIまたはIoTベースの通信スタックでそれらを提供する、というのが、この特定の論文で解決しようとしている真の課題です。 本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,上記の要件をすべてサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。

Machine Learning operations is unarguably a very important and also one of the hottest topics in Artificial Intelligence lately. Being able to define very clear hypotheses for actual real-life problems that can be addressed by machine learning models, collecting and curating large amounts of data for model training and validation followed by model architecture search and actual optimization and finally presenting the results fits very well the scenario of Data Science experiments. This approach however does not supply the needed procedures and pipelines for the actual deployment of machine learning capabilities in real production grade systems. Automating live configuration mechanisms, on the fly adapting to live or offline data capture and consumption, serving multiple models in parallel either on edge or cloud architectures, addressing specific limitations of GPU memory or compute power, post-processing inference or prediction results and serving those either as APIs or with IoT based communication stacks in the same end-to-end pipeline are the real challenges that we try to address in this particular paper. In this paper we present a unified deployment pipeline and freedom-to-operate approach that supports all above requirements while using basic cross-platform tensor framework and script language engines.
翻訳日:2021-12-23 15:35:58 公開日:2021-12-22
# fedlga:局所勾配近似によるフェデレーション学習のシステムヘテロゲニティに向けて

FedLGA: Towards System-Heterogeneity of Federated Learning via Local Gradient Approximation ( http://arxiv.org/abs/2112.11989v1 )

ライセンス: Link先を確認
Xingyu Li, Zhe Qu, Bo Tang and Zhuo Lu(参考訳) フェデレーション学習(federated learning, fl)は、分散トレーニングデータとの共同モデルを学ぶために、多数のリモートデバイスを活用する分散機械学習アーキテクチャである。 しかし、システム不均一性は、FLネットワークにおいて、堅牢な分散学習性能を達成するための大きな課題の1つである。 一 装置間の計算能力の多様性による装置異質性 二 ネットワークにまたがる不特定分散データによるデータ不均一性 異種FL(例えば、FedProx)に対するベンチマークがあるが、以前の研究では形式化が欠けており、未解決の問題である。 本研究では,システム不均一なFL問題を形式化し,勾配近似を用いて局所モデル更新の分岐をブリッジすることでこの問題に対処するFedLGAというアルゴリズムを提案する。 これを実現するためにFedLGAは、アグリゲータに余分な線形複雑性を必要とするヘッセン推定法を提供する。 Theoretically, we show that with a device-heterogeneous ratio $\rho$, FedLGA achieves convergence rates on non-i.i.d distributed FL training data against non-convex optimization problems for $\mathcal{O} \left( \frac{(1+\rho)}{\sqrt{ENT}} + \frac{1}{T} \right)$ and $\mathcal{O} \left( \frac{(1+\rho)\sqrt{E}}{\sqrt{TK}} + \frac{1}{T} \right)$ for full and partial device participation respectively, where $E$ is the number of local learning epoch, $T$ is the number of total communication round, $N$ is the total device number and $K$ is the number of selected device in one communication round under partially participation scheme. 複数のデータセットに対する総合的な実験の結果、FedLGAはシステム不均一性に対して現在のFLベンチマークよりも優れていた。

Federated Learning (FL) is a decentralized machine learning architecture, which leverages a large number of remote devices to learn a joint model with distributed training data. However, the system-heterogeneity is one major challenge in a FL network to achieve robust distributed learning performance, which is of two aspects: i) device-heterogeneity due to the diverse computational capacity among devices; ii) data-heterogeneity due to the non-identically distributed data across the network. Though there have been benchmarks against the heterogeneous FL, e.g., FedProx, the prior studies lack formalization and it remains an open problem. In this work, we formalize the system-heterogeneous FL problem and propose a new algorithm, called FedLGA, which addresses this problem by bridging the divergence of local model updates via gradient approximation. To achieve this, FedLGA provides an alternated Hessian estimation method, which only requires extra linear complexity on the aggregator. Theoretically, we show that with a device-heterogeneous ratio $\rho$, FedLGA achieves convergence rates on non-i.i.d distributed FL training data against non-convex optimization problems for $\mathcal{O} \left( \frac{(1+\rho)}{\sqrt{ENT}} + \frac{1}{T} \right)$ and $\mathcal{O} \left( \frac{(1+\rho)\sqrt{E}}{\sqrt{TK}} + \frac{1}{T} \right)$ for full and partial device participation respectively, where $E$ is the number of local learning epoch, $T$ is the number of total communication round, $N$ is the total device number and $K$ is the number of selected device in one communication round under partially participation scheme. The results of comprehensive experiments on multiple datasets show that FedLGA outperforms current FL benchmarks against the system-heterogeneity .
翻訳日:2021-12-23 15:35:35 公開日:2021-12-22
# (参考訳) 2段階U-Netを用いたバイナリ画像スケトン化 [全文訳有]

Binary Image Skeletonization Using 2-Stage U-Net ( http://arxiv.org/abs/2112.11824v1 )

ライセンス: CC0 1.0
Mohamed A. Ghanem, Alaa A. Anani(参考訳) 物体骨格化(Object Skeletonization)は、形状の骨格的な線状の表現を抽出する過程である。 幾何学的形状理解と最小形状表現のための非常に有用なツールを提供する。 様々な応用があり、特に解剖学の研究や活動検出に使われている。 この問題を解決するために数種類の数学的アルゴリズムアプローチが開発され、その一部は非常に堅牢であることが証明されている。 しかし、ディープラーニングソリューションにはあまり注意が払われていない。 本稿では,有名なu-netアーキテクチャの2段階の変種を用いて,問題空間を形状最小化と補正骨格薄化という2つのサブプロブレムに分割する。 我々のモデルは、ベースラインSkelNetOnモデルよりも視覚的にはるかに優れた結果を生成する。 本稿では,F1の画素シフトに対する過敏性に悩まされることなく,骨格の類似性を把握し,クラス不均衡の問題を解決する上で,F1の代替となる正規化相関係数に基づく新しい計量M-CCORRを提案する。

Object Skeletonization is the process of extracting skeletal, line-like representations of shapes. It provides a very useful tool for geometric shape understanding and minimal shape representation. It also has a wide variety of applications, most notably in anatomical research and activity detection. Several mathematical algorithmic approaches have been developed to solve this problem, and some of them have been proven quite robust. However, a lesser amount of attention has been invested into deep learning solutions for it. In this paper, we use a 2-stage variant of the famous U-Net architecture to split the problem space into two sub-problems: shape minimization and corrective skeleton thinning. Our model produces results that are visually much better than the baseline SkelNetOn model. We propose a new metric, M-CCORR, based on normalized correlation coefficients as an alternative to F1 for this challenge as it solves the problem of class imbalance, managing to recognize skeleton similarity without suffering from F1's over-sensitivity to pixel-shifts.
翻訳日:2021-12-23 15:33:57 公開日:2021-12-22
# JoJoGAN: ショットフェイスのスティル化

JoJoGAN: One Shot Face Stylization ( http://arxiv.org/abs/2112.11641v1 )

ライセンス: Link先を確認
Min Jin Chong, David Forsyth(参考訳) 画像のスタイリングは近年進歩しているが、これらの手法は人間にとって明らかなスタイリスティックな詳細を捉えられなかった。 目の形、行の大胆さなどの詳細は、モデルにとって特に学習が困難であり、特に限られたデータ設定下では。 本研究では,細部を正確に把握したワンショット画像スタイリングを実現することを目的とする。 参照スタイルの画像から、GANインバージョンを用いて実データを近似し、その近似ペアデータを用いて事前学習したStyleGANを微調整する。 次に、StyleGANを一般化して、学習したスタイルを他のすべての画像に適用できるように促します。

While there have been recent advances in few-shot image stylization, these methods fail to capture stylistic details that are obvious to humans. Details such as the shape of the eyes, the boldness of the lines, are especially difficult for a model to learn, especially so under a limited data setting. In this work, we aim to perform one-shot image stylization that gets the details right. Given a reference style image, we approximate paired real data using GAN inversion and finetune a pretrained StyleGAN using that approximate paired data. We then encourage the StyleGAN to generalize so that the learned style can be applied to all other images.
翻訳日:2021-12-23 15:28:58 公開日:2021-12-22
# 分散サンプル検出のためのganベース境界認識分類器

GAN Based Boundary Aware Classifier for Detecting Out-of-distribution Samples ( http://arxiv.org/abs/2112.11648v1 )

ライセンス: Link先を確認
Sen Pei, Xin Zhang, Richard YiDa Xu and Gaofeng Meng(参考訳) 本稿では,ニューラルネットを用いた分布外サンプルの検出問題に焦点を当てた。 画像認識タスクにおいて、訓練された分類器は、入出力(ID)データから離れた入力画像に対して高い信頼度を与えることが多く、これは実世界での利用を著しく制限している。 この問題を軽減するため,ほとんどのIDデータのみを含む閉超空間を生成するためのGBAC(GAN based boundary aware classifier)を提案する。 本手法は,従来のニューラルネットがood検出に適さない複数の非閉領域として特徴空間を分離するという事実に基づいている。 gbacを補助モジュールとして、閉じたハイパースペース外に分散されたoodデータはより低いスコアで割り当てられ、分類性能を維持しながらより効果的なood検出が可能になる。 さらに,前述した閉超空間の境界上にあるハードオード表現を生成するための高速サンプリング手法を提案する。 いくつかのデータセットとニューラルネットアーキテクチャの実験は、GBACの有効性を約束している。

This paper focuses on the problem of detecting out-of-distribution (ood) samples with neural nets. In image recognition tasks, the trained classifier often gives high confidence score for input images which are remote from the in-distribution (id) data, and this has greatly limited its application in real world. For alleviating this problem, we propose a GAN based boundary aware classifier (GBAC) for generating a closed hyperspace which only contains most id data. Our method is based on the fact that the traditional neural net seperates the feature space as several unclosed regions which are not suitable for ood detection. With GBAC as an auxiliary module, the ood data distributed outside the closed hyperspace will be assigned with much lower score, allowing more effective ood detection while maintaining the classification performance. Moreover, we present a fast sampling method for generating hard ood representations which lie on the boundary of pre-mentioned closed hyperspace. Experiments taken on several datasets and neural net architectures promise the effectiveness of GBAC.
翻訳日:2021-12-23 15:28:46 公開日:2021-12-22
# ghost-dil-netvlad:視覚位置認識のための軽量ニューラルネットワーク

Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition ( http://arxiv.org/abs/2112.11679v1 )

ライセンス: Link先を確認
Qingyuan Gong, Yu Liu, Liqiang Zhang, Renhe Liu(参考訳) 視覚的位置認識(VPR)は、膨大な計算コストと高い認識性能のバランスの取れない課題である。 軽量畳み込みニューラルネットワーク(CNN)の実用的特徴抽出能力と,局所集約型ディスクリプタ(VLAD)層のベクトルのトレインビリティにより,GhostCNNと呼ばれるフロントエンド認識モデルと学習可能なVLAD層をバックエンドとして構成した,軽量に制御されたエンドツーエンドニューラルネットワークを提案する。 GhostCNNは軽量CNNベースのアーキテクチャであるGhostモジュールに基づいている。 従来の畳み込みプロセスではなくリニア操作を使って冗長なフィーチャーマップを生成することで、計算リソースと認識精度のトレードオフが良好になる。 提案する軽量モデルをさらに強化するため,Ghostモジュールに拡張畳み込みを加えて,より空間的意味情報を含む特徴を抽出し,精度を向上する。 最後に、一般的な公開ベンチマークとプライベートデータセットで実施された豊富な実験により、提案したニューラルネットワークは、それぞれVGG16-NetVLADのFLOPとパラメータを99.04%、80.16%削減することを確認した。 また、どちらのモデルも精度が同じである。

Visual place recognition (VPR) is a challenging task with the unbalance between enormous computational cost and high recognition performance. Thanks to the practical feature extraction ability of the lightweight convolution neural networks (CNNs) and the train-ability of the vector of locally aggregated descriptors (VLAD) layer, we propose a lightweight weakly supervised end-to-end neural network consisting of a front-ended perception model called GhostCNN and a learnable VLAD layer as a back-end. GhostCNN is based on Ghost modules that are lightweight CNN-based architectures. They can generate redundant feature maps using linear operations instead of the traditional convolution process, making a good trade-off between computation resources and recognition accuracy. To enhance our proposed lightweight model further, we add dilated convolutions to the Ghost module to get features containing more spatial semantic information, improving accuracy. Finally, rich experiments conducted on a commonly used public benchmark and our private dataset validate that the proposed neural network reduces the FLOPs and parameters of VGG16-NetVLAD by 99.04% and 80.16%, respectively. Besides, both models achieve similar accuracy.
翻訳日:2021-12-23 15:28:30 公開日:2021-12-22
# ドメイン適応型Re-IDのためのマルチセントロイド表現ネットワーク

Multi-Centroid Representation Network for Domain Adaptive Person Re-ID ( http://arxiv.org/abs/2112.11689v1 )

ライセンス: Link先を確認
Yuhang Wu, Tengteng Huang, Haotian Yao, Chi Zhang, Yuanjie Shao, Chuchu Han, Changxin Gao, Nong Sang(参考訳) 近年,疑似ラベルに基づくコントラスト学習を通じて,Unsupervised Domain Adaptive person Re-identification (UDA re-ID) 問題に取り組むアプローチが増えている。 トレーニング中、単一中心表現は、同じ擬似ラベルを持つクラスタからすべてのインスタンス特徴を平均化することによって得られる。 しかし、クラスタは、不完全なクラスタリング結果のため、異なるアイデンティティ(ラベルノイズ)を持つ画像を含む可能性があるため、ユニセントリド表現が不適切である。 本稿では,クラスタ内の異なるID情報を適応的にキャプチャする,Multi-Centroid Memory(MCM)を提案する。 MCMは、クエリ画像に対して適切な正負のセントロイドを選択することで、ラベルノイズの問題を効果的に軽減することができる。 さらに,コントラスト学習プロセスを改善するための2つの戦略を提案する。 まず,同一領域からのサンプルのみを比較して,ドメイン内情報を完全に探索するdscl(domain-specific contrastive learning)機構を提案する。 次に,2次近接補間法(SONI)を提案する。 MCM,DSCL,SONIをMulti-Centroid Representation Network(MCRN)という統合フレームワークに統合する。 大規模な実験は、複数のUDA re-IDタスクと完全に教師なし re-IDタスクに対する最先端のアプローチよりもMCRNの方が優れていることを示す。

Recently, many approaches tackle the Unsupervised Domain Adaptive person re-identification (UDA re-ID) problem through pseudo-label-based contrastive learning. During training, a uni-centroid representation is obtained by simply averaging all the instance features from a cluster with the same pseudo label. However, a cluster may contain images with different identities (label noises) due to the imperfect clustering results, which makes the uni-centroid representation inappropriate. In this paper, we present a novel Multi-Centroid Memory (MCM) to adaptively capture different identity information within the cluster. MCM can effectively alleviate the issue of label noises by selecting proper positive/negative centroids for the query image. Moreover, we further propose two strategies to improve the contrastive learning process. First, we present a Domain-Specific Contrastive Learning (DSCL) mechanism to fully explore intradomain information by comparing samples only from the same domain. Second, we propose Second-Order Nearest Interpolation (SONI) to obtain abundant and informative negative samples. We integrate MCM, DSCL, and SONI into a unified framework named Multi-Centroid Representation Network (MCRN). Extensive experiments demonstrate the superiority of MCRN over state-of-the-art approaches on multiple UDA re-ID tasks and fully unsupervised re-ID tasks.
翻訳日:2021-12-23 15:28:07 公開日:2021-12-22
# CLEVR3D:3次元実世界における質問応答のための合成言語と初等視覚推論

CLEVR3D: Compositional Language and Elementary Visual Reasoning for Question Answering in 3D Real-World Scenes ( http://arxiv.org/abs/2112.11691v1 )

ライセンス: Link先を確認
Xu Yan, Zhihao Yuan, Yuhao Du, Yinghong Liao, Yao Guo, Zhen Li, Shuguang Cui(参考訳) 3Dシーン理解は比較的新しい研究分野である。 本稿では,3次元実世界シーン(vqa-3d)における視覚的質問応答タスクについて紹介する。 この問題に対処するため、最初のVQA-3DデータセットであるCLEVR3Dが提案され、1,129の現実世界シーンに60Kの質問を含む。 具体的には,物体の属性(サイズ,色,素材)とその空間的関係について,多様な推論問題を生成するために3次元シーングラフ構造を利用した質問エンジンを開発する。 このデータセットに基づいて、最初のVQA-3DベースラインモデルであるTransVQA3Dをさらに設計する。 TransVQA3Dモデルは、純粋な言語ベースラインと3Dシナリオに直接適用される以前の3D推論手法と比較して、優れたVQA-3D性能を実現するために、よく設計されたTransformerアーキテクチャを採用している。 実験結果から,VQA-3Dを補助タスクとすることで,ノードワイド分類のためのシーングラフ解析や全体グラフ認識など,3次元シーン理解の性能が向上することが確認された。

3D scene understanding is a relatively emerging research field. In this paper, we introduce the Visual Question Answering task in 3D real-world scenes (VQA-3D), which aims to answer all possible questions given a 3D scene. To tackle this problem, the first VQA-3D dataset, namely CLEVR3D, is proposed, which contains 60K questions in 1,129 real-world scenes. Specifically, we develop a question engine leveraging 3D scene graph structures to generate diverse reasoning questions, covering the questions of objects' attributes (i.e., size, color, and material) and their spatial relationships. Built upon this dataset, we further design the first VQA-3D baseline model, TransVQA3D. The TransVQA3D model adopts well-designed Transformer architectures to achieve superior VQA-3D performance, compared with the pure language baseline and previous 3D reasoning methods directly applied to 3D scenarios. Experimental results verify that taking VQA-3D as an auxiliary task can boost the performance of 3D scene understanding, including scene graph analysis for the node-wise classification and whole-graph recognition.
翻訳日:2021-12-23 15:27:46 公開日:2021-12-22
# コンピュータ支援疾患評価における画像回帰のための適応コントラスト

Adaptive Contrast for Image Regression in Computer-Aided Disease Assessment ( http://arxiv.org/abs/2112.11700v1 )

ライセンス: Link先を確認
Weihang Dai, Xiaomeng Li, Wan Hang Keith Chiu, Michael D. Kuo, Kwang-Ting Cheng(参考訳) 骨密度(BMD)推定や左室放出率(LVEF)予測などの医療応用のための画像回帰タスクは,コンピュータ支援疾患評価において重要な役割を担っている。 ほとんどの深い回帰法は、MSEやL1損失のような単一の回帰損失関数でニューラルネットワークを訓練する。 本稿では,新しい適応マージンコントラスト損失と回帰予測分枝による特徴学習分枝からなる,深部画像回帰のための最初のコントラスト学習フレームワーク adacon を提案する。 提案手法は,学習した特徴表現の一部としてラベル距離関係を組み込むことで,下流回帰タスクの性能を向上させる。 さらに、既存のレグレッションメソッドのパフォーマンスを改善するために、プラグアンドプレイモジュールとして使うことができる。 我々は,AdaConがX線画像からの骨密度推定と心エコービデオからの左室放出率予測の2つの医療画像回帰作業における効果を実証した。 adacon は最新の bmd 推定法と lvef 予測法と比較して mae の 3.3% と 5.9% の相対的改善をもたらす。

Image regression tasks for medical applications, such as bone mineral density (BMD) estimation and left-ventricular ejection fraction (LVEF) prediction, play an important role in computer-aided disease assessment. Most deep regression methods train the neural network with a single regression loss function like MSE or L1 loss. In this paper, we propose the first contrastive learning framework for deep image regression, namely AdaCon, which consists of a feature learning branch via a novel adaptive-margin contrastive loss and a regression prediction branch. Our method incorporates label distance relationships as part of the learned feature representations, which allows for better performance in downstream regression tasks. Moreover, it can be used as a plug-and-play module to improve performance of existing regression methods. We demonstrate the effectiveness of AdaCon on two medical image regression tasks, ie, bone mineral density estimation from X-ray images and left-ventricular ejection fraction prediction from echocardiogram videos. AdaCon leads to relative improvements of 3.3% and 5.9% in MAE over state-of-the-art BMD estimation and LVEF prediction methods, respectively.
翻訳日:2021-12-23 15:27:26 公開日:2021-12-22
# エントロピー正則化反復重み付き縮小thresholding algorithm(eriwsta) : ct画像復元への応用

Entropy Regularized Iterative Weighted Shrinkage-Thresholdi ng Algorithm (ERIWSTA): An Application to CT Image Restoration ( http://arxiv.org/abs/2112.11706v1 )

ライセンス: Link先を確認
Bingxue Wu, Jiao Wei, Chen Li, Yudong Yao and Yueyang Teng(参考訳) 反復重み付き縮小thresholdingアルゴリズム(iwsta)は,線形逆問題を解くための従来の非重み付き反復収縮thresholdingアルゴリズム(ista)よりも優れていることを示した。 本稿では,新しいエントロピー正則化iwsta (eriwsta) を提案する。これはコスト関数にエントロピー正則化子を付加し,問題解決に参加する属性を刺激するために重みの不確実性を測定する。 次に、重みをラグランジュ乗算器法で解き、簡単な反復更新を得る。 重みは問題解に対する属性の寄与の確率として説明できる。 CT画像復元実験の結果,提案手法は既存の方法よりも収束速度と復元精度がよいことがわかった。

The iterative weighted shrinkage-thresholdi ng algorithm (IWSTA) has shown superiority to the classic unweighted iterative shrinkage-thresholdi ng algorithm (ISTA) for solving linear inverse problems, which address the attributes differently. This paper proposes a new entropy regularized IWSTA (ERIWSTA) that adds an entropy regularizer to the cost function to measure the uncertainty of the weights to stimulate attributes to participate in problem solving. Then, the weights are solved with a Lagrange multiplier method to obtain a simple iterative update. The weights can be explained as the probability of the contribution of an attribute to the problem solution. Experimental results on CT image restoration show that the proposed method has better performance in terms of convergence speed and restoration accuracy than the existing methods.
翻訳日:2021-12-23 15:27:05 公開日:2021-12-22
# 医療画像と電子健康記録の融合 : 注意とマルチヘッド・マカリズム

Fusion of medical imaging and electronic health records with attention and multi-head machanisms ( http://arxiv.org/abs/2112.11710v1 )

ライセンス: Link先を確認
Cheng Jiang, Yihao Chen, Jianbo Chang, Ming Feng, Renzhi Wang, Jianhua Yao(参考訳) 医師は、MRI(MRI)などの患者の画像スキャンや、年齢、性別、血圧などの患者の電子健康記録(EHR)に基づいて、対角的意思決定を行うことが多い。 コンピュータビジョンや自然言語研究分野では画像分析やテキスト解析に多くの自動手法が提案されているが、医学的な画像とEHRデータの融合に関する研究はほとんど行われていない。 既存の早期または中期の融合法の中で、両方のモダリティからの特徴の連結は依然として主流である。 画像とEHRデータをよりよく活用するために,従来のCNNによる画像特徴抽出プロセスにおいて重要な領域の選択を支援するために,EHRデータを用いたマルチモーダルアテンションモジュールを提案する。 さらに,マルチヘッドマクニズムをゲート型マルチモーダルユニット(GMU)に組み込むことにより,異なる部分空間における画像とEHR機能を並列に融合できるようにする。 2つのモジュールの助けを借りて、既存のcnnアーキテクチャは両方のモードを使って拡張できる。 脳内出血患者のGOS(Glasgow outcome scale)の予測とアルツハイマー病の分類実験により,提案手法はタスク関連領域に自動的に焦点を合わせ,画像やERHの特徴をよりよく活用することにより,より良い結果が得られることが示された。

Doctors often make diagonostic decisions based on patient's image scans, such as magnetic resonance imaging (MRI), and patient's electronic health records (EHR) such as age, gender, blood pressure and so on. Despite a lot of automatic methods have been proposed for either image or text analysis in computer vision or natural language research areas, much fewer studies have been developed for the fusion of medical image and EHR data for medical problems. Among existing early or intermediate fusion methods, concatenation of features from both modalities is still a mainstream. For a better exploiting of image and EHR data, we propose a multi-modal attention module which use EHR data to help the selection of important regions during image feature extraction process conducted by traditional CNN. Moreover, we propose to incorporate multi-head machnism to gated multimodal unit (GMU) to make it able to parallelly fuse image and EHR features in different subspaces. With the help of the two modules, existing CNN architecture can be enhanced using both modalities. Experiments on predicting Glasgow outcome scale (GOS) of intracerebral hemorrhage patients and classifying Alzheimer's Disease showed the proposed method can automatically focus on task-related areas and achieve better results by making better use of image and EHR features.
翻訳日:2021-12-23 15:26:49 公開日:2021-12-22
# BEVDet:バードアイビューにおける高性能マルチカメラ3Dオブジェクト検出

BEVDet: High-performance Multi-camera 3D Object Detection in Bird-Eye-View ( http://arxiv.org/abs/2112.11790v1 )

ライセンス: Link先を確認
Junjie Huang, Guan Huang, Zheng Zhu, and Dalong Du(参考訳) 自律運転は、視覚知覚の最も複雑な場面の1つである、意思決定のための周囲の環境を知覚する。 2Dオブジェクト検出タスクの解決におけるパラダイム革新の大きな力は、この分野のパフォーマンス境界を押し上げるためのエレガントで実現可能なスケーラブルなパラダイムを求めるきっかけになります。 この目的のために,本稿では,BEVDetパラダイムをコントリビュートする。 bevdetはバードアイビュー(bev)で3dオブジェクトを検出する原則に従って開発され、経路計画が手軽に行える。 本パラダイムでは、画像ビューにおける特徴を符号化する画像ビューエンコーダ、画像ビューからBEVへの特徴変換を行うビュートランスフォーマー、BEVにおけるさらなる特徴を符号化するBEVエンコーダ、BEVにおける目標を予測するタスク固有ヘッドの4種類のモジュールを、異なる役割で順次実行する。 BEVDetを構築するために既存のモジュールを再利用するだけで、排他的なデータ拡張戦略を構築することで、マルチカメラの3Dオブジェクト検出を可能にする。 提案手法は,マルチカメラ3Dオブジェクト検出において有効であり,計算予算と性能のトレードオフが良好である。 bevdet は 704x256 (競合他社の1/8) で、画像サイズは 29.4% のマップと 38.4% の nds で、これは fcos3d (2008,2 gflops, 1.7 fps, 29.5% map, 37.2% nds) に匹敵するが、12% の計算予算が 239.4 gflops で、4.3 倍高速である。 入力サイズを1408x512にスケールアップすると、BEVDetのスコアは34.9% mAP、41.7% NDSであり、わずか601.4 GFLOPsでFCOS3Dを5.4% mAPと4.5% NDSで大幅に抑制する。 BEVDetの優れたパフォーマンスは、パラダイムイノベーションの魔法を物語っている。

Autonomous driving perceives the surrounding environment for decision making, which is one of the most complicated scenes for visual perception. The great power of paradigm innovation in solving the 2D object detection task inspires us to seek an elegant, feasible, and scalable paradigm for pushing the performance boundary in this area. To this end, we contribute the BEVDet paradigm in this paper. BEVDet is developed by following the principle of detecting the 3D objects in Bird-Eye-View (BEV), where route planning can be handily performed. In this paradigm, four kinds of modules are conducted in succession with different roles: an image-view encoder for encoding feature in image view, a view transformer for feature transformation from image view to BEV, a BEV encoder for further encoding feature in BEV, and a task-specific head for predicting the targets in BEV. We merely reuse the existing modules for constructing BEVDet and make it feasible for multi-camera 3D object detection by constructing an exclusive data augmentation strategy. The proposed paradigm works well in multi-camera 3D object detection and offers a good trade-off between computing budget and performance. BEVDet with 704x256 (1/8 of the competitors) image size scores 29.4% mAP and 38.4% NDS on the nuScenes val set, which is comparable with FCOS3D (i.e., 2008.2 GFLOPs, 1.7 FPS, 29.5% mAP and 37.2% NDS), while requires merely 12% computing budget of 239.4 GFLOPs and runs 4.3 times faster. Scaling up the input size to 1408x512, BEVDet scores 34.9% mAP, and 41.7% NDS, which requires just 601.4 GFLOPs and significantly suppresses FCOS3D by 5.4% mAP and 4.5% NDS. The superior performance of BEVDet tells the magic of paradigm innovation.
翻訳日:2021-12-23 15:25:39 公開日:2021-12-22
# 視覚物体追跡のための識別型単発セグメンテーションネットワーク

A Discriminative Single-Shot Segmentation Network for Visual Object Tracking ( http://arxiv.org/abs/2112.11846v1 )

ライセンス: Link先を確認
Alan Luke\v{z}i\v{c}, Ji\v{r}\'i Matas, Matej Kristan(参考訳) テンプレートベースの識別トラッカーは、現在、その堅牢性のために主要なトラッキングパラダイムであるが、境界ボックス追跡と限定的な変換モデルに限定されており、ローカライゼーションの精度が低下している。 視覚オブジェクト追跡とビデオオブジェクトのセグメンテーションのギャップを狭める識別可能なシングルショットセグメンテーショントラッカーD3S2を提案する。 シングルショットネットワークは、非剛性変形を含む広い範囲の変換に不変な2つの対象モデルを適用し、もう1つは剛性オブジェクトを仮定して堅牢なオンラインターゲットセグメンテーションを同時に達成する。 オブジェクトの分離と機能スケール推定により、全体的なトラッキング信頼性がさらに向上する。 データセットごとの微調整がなく、セグメンテーションのみを一次出力としてトレーニングしたD3S2は、最近の短期追跡ベンチマークであるVOT2020で全てのトラッカーを上回り、GOT-10k、TrackingNet、OCB100、LaSoTの最先端トラッカーと非常に近いパフォーマンスを示している。 D3S2は、主要なセグメンテーショントラッカーであるSiamMaskをビデオオブジェクトセグメンテーションベンチマークで上回り、トップビデオオブジェクトセグメンテーションアルゴリズムと同等に実行する。

Template-based discriminative trackers are currently the dominant tracking paradigm due to their robustness, but are restricted to bounding box tracking and a limited range of transformation models, which reduces their localization accuracy. We propose a discriminative single-shot segmentation tracker -- D3S2, which narrows the gap between visual object tracking and video object segmentation. A single-shot network applies two target models with complementary geometric properties, one invariant to a broad range of transformations, including non-rigid deformations, the other assuming a rigid object to simultaneously achieve robust online target segmentation. The overall tracking reliability is further increased by decoupling the object and feature scale estimation. Without per-dataset finetuning, and trained only for segmentation as the primary output, D3S2 outperforms all published trackers on the recent short-term tracking benchmark VOT2020 and performs very close to the state-of-the-art trackers on the GOT-10k, TrackingNet, OTB100 and LaSoT. D3S2 outperforms the leading segmentation tracker SiamMask on video object segmentation benchmarks and performs on par with top video object segmentation algorithms.
翻訳日:2021-12-23 15:24:56 公開日:2021-12-22
# 非剛体形状登録のための測地的二乗指数核

Geodesic squared exponential kernel for non-rigid shape registration ( http://arxiv.org/abs/2112.11853v1 )

ライセンス: Link先を確認
Florent Jousse (UCA, Qc, EPIONE), Xavier Pennec (UCA, EPIONE), Herv\'e Delingette (UCA, EPIONE), Matilde Gonzalez (Qc)(参考訳) 本研究は形状モデリング技術の核となる3次元スキャンの非剛性登録の問題に対処する。 まず,Gaussian Process Morphable Models (GPMM) フレームワークのための測地距離に基づく新しいカーネルを提案する。 核への測地線距離の使用は、表面の位相的および幾何学的特性に適応し、穴や湾曲した領域の周りのより現実的な変形をもたらす。 カーネルはハイパーパラメータを持っているので、FaceWarehouseデータセットの顔登録のタスクに最適化しました。 その結果,Geodesic二乗指数カーネルは,FaceWarehouseデータセットの20式すべてに対する顔登録処理において,技術カーネルの状態よりもはるかに優れた性能を示すことがわかった。 第二に,非リギッドicp登録アルゴリズムにおける損失関数の修正を提案し,それらに対する信頼度に応じて対応度を重み付ける。 ユースケースとして,非皮膚部分などの3Dスキャンにおいて,アウトレーヤに対してより堅牢な登録が可能であることを示す。

This work addresses the problem of non-rigid registration of 3D scans, which is at the core of shape modeling techniques. Firstly, we propose a new kernel based on geodesic distances for the Gaussian Process Morphable Models (GPMMs) framework. The use of geodesic distances into the kernel makes it more adapted to the topological and geometric characteristics of the surface and leads to more realistic deformations around holes and curved areas. Since the kernel possesses hyperparameters we have optimized them for the task of face registration on the FaceWarehouse dataset. We show that the Geodesic squared exponential kernel performs significantly better than state of the art kernels for the task of face registration on all the 20 expressions of the FaceWarehouse dataset. Secondly, we propose a modification of the loss function used in the non-rigid ICP registration algorithm, that allows to weight the correspondences according to the confidence given to them. As a use case, we show that we can make the registration more robust to outliers in the 3D scans, such as non-skin parts.
翻訳日:2021-12-23 15:24:31 公開日:2021-12-22
# 弱教師付き局所表現を用いた少数ショットフォント生成

Few-shot Font Generation with Weakly Supervised Localized Representations ( http://arxiv.org/abs/2112.11895v1 )

ライセンス: Link先を確認
Song Park, Sanghyuk Chun, Junbum Cha, Bado Lee, Hyunjung Shim(参考訳) フォントの自動生成は、手動フォントのデザインが高価でデザイナーの専門知識に敏感であるため、明確に定義された現実世界の問題を解決することを目的としている。 既存の方法は、各フォントスタイルの普遍的なスタイル表現を開発することにより、スタイルとコンテンツ要素のアンタングルを学習する。 しかし、このアプローチは、複雑な文字体系、例えば、文字が様々な要素(しばしば「ラディカル」と呼ばれる)で構成される中国語には不向きであり、非常に複雑な構造を持つため、多様なローカルスタイルを表現するモデルを制限する。 本稿では,ユニバーサルスタイルではなく,コンポーネント毎の表現というローカライズされたスタイルを学習する新しいフォント生成手法を提案する。 提案したスタイル表現は、テキスト設計における複雑なローカル詳細の合成を可能にする。 しかし、いくつかの参照グリフのみからコンポーネントのスタイルを学ぶことは、ターゲットスクリプトが中国語で200以上のコンポーネントを持つ場合、実現不可能である。 要求される参照グリフの数を減らすため、低ランク行列因子化に触発されたコンポーネントとスタイル因子の積によってコンポーネント毎のスタイルを表現する。 強い表現とコンパクトな因子化戦略の組み合わせにより,本手法は,他の最先端手法よりも極めて優れた少数ショットフォント生成結果(参照グリフが8つしかない)を示す。 さらに、例えば、各コンポーネント、骨格、ストロークの位置などの強い局所性監視は利用されなかった。 ソースコードはhttps://github.com/c lovaai/lffontとhttps://github.com/c lovaai/fewshot-font- generationで入手できる。

Automatic few-shot font generation aims to solve a well-defined, real-world problem because manual font designs are expensive and sensitive to the expertise of designers. Existing methods learn to disentangle style and content elements by developing a universal style representation for each font style. However, this approach limits the model in representing diverse local styles, because it is unsuitable for complicated letter systems, for example, Chinese, whose characters consist of a varying number of components (often called "radical") -- with a highly complex structure. In this paper, we propose a novel font generation method that learns localized styles, namely component-wise style representations, instead of universal styles. The proposed style representations enable the synthesis of complex local details in text designs. However, learning component-wise styles solely from a few reference glyphs is infeasible when a target script has a large number of components, for example, over 200 for Chinese. To reduce the number of required reference glyphs, we represent component-wise styles by a product of component and style factors, inspired by low-rank matrix factorization. Owing to the combination of strong representation and a compact factorization strategy, our method shows remarkably better few-shot font generation results (with only eight reference glyphs) than other state-of-the-art methods. Moreover, strong locality supervision, for example, location of each component, skeleton, or strokes, was not utilized. The source code is available at https://github.com/c lovaai/lffont and https://github.com/c lovaai/fewshot-font- generation.
翻訳日:2021-12-23 15:24:15 公開日:2021-12-22
# DA-FDFtNet:AI生成フェイク画像検出のための二重注意フェイク検出ファインチューニングネットワーク

DA-FDFtNet: Dual Attention Fake Detection Fine-tuning Network to Detect Various AI-Generated Fake Images ( http://arxiv.org/abs/2112.12001v1 )

ライセンス: Link先を確認
Young Oh Bang and Simon S. Woo(参考訳) GAN(Generative Adversarial Networks)やオートエンコーダ、その他のAI技術の進歩により、"Deepfakes"のようなフェイクイメージの作成がずっと簡単になった。 近年の研究では、少量のトレーニングデータを使って、フェイク画像やビデオをより効果的に生成する、いくつかのショット学習が導入されている。 したがって、操作された画像の生成や識別の難しさは、偽情報の普及など、社会に深刻な脅威をもたらす可能性がある。 しかし、上記の理由から、最新のAI技術によって生成された現実的な偽画像の検出は困難である。 本研究では,実顔データから操作された偽顔画像を検出するために,DA-FDFtNet(Dual Attention Fake Detection Fine-tuning Network)を提案する。 da-fdftnetは事前学習したモデルを微調整トランスフォーマー、mbblockv3、チャンネルアテンションモジュールと統合し、様々な種類の偽画像のパフォーマンスと堅牢性を改善します。 特に、微動変圧器は、画像ベースのセルフアテンションモジュールの複数個とダウンサンプリング層からなる。 チャネルアテンションモジュールは、事前訓練されたモデルに接続され、偽画像の特徴空間をキャプチャする。 DA-FDFtNetをFaceForensics++データセットと様々なGAN生成データセットで実験した結果,従来のベースラインモデルよりも優れていることがわかった。

Due to the advancement of Generative Adversarial Networks (GAN), Autoencoders, and other AI technologies, it has been much easier to create fake images such as "Deepfakes". More recent research has introduced few-shot learning, which uses a small amount of training data to produce fake images and videos more effectively. Therefore, the ease of generating manipulated images and the difficulty of distinguishing those images can cause a serious threat to our society, such as propagating fake information. However, detecting realistic fake images generated by the latest AI technology is challenging due to the reasons mentioned above. In this work, we propose Dual Attention Fake Detection Fine-tuning Network (DA-FDFtNet) to detect the manipulated fake face images from the real face data. Our DA-FDFtNet integrates the pre-trained model with Fine-Tune Transformer, MBblockV3, and a channel attention module to improve the performance and robustness across different types of fake images. In particular, Fine-Tune Transformer consists of multiple numbers of an image-based self-attention module and a down-sampling layer. The channel attention module is also connected with the pre-trained model to capture the fake images feature space. We experiment with our DA-FDFtNet with the FaceForensics++ dataset and various GAN-generated datasets, and we show that our approach outperforms the previous baseline models.
翻訳日:2021-12-23 15:23:48 公開日:2021-12-22
# look beyond corners: キーポイント検出と説明抽出のための視覚的表現のコントラスト学習

Looking Beyond Corners: Contrastive Learning of Visual Representations for Keypoint Detection and Description Extraction ( http://arxiv.org/abs/2112.12002v1 )

ライセンス: Link先を確認
Henrique Siqueira, Patrick Ruhkamp, Ibrahim Halfaoui, Markus Karmann, Onay Urfalioglu(参考訳) 学習可能なキーポイント検出器とディスクリプタは、古典的な手作りの特徴抽出方法よりも優れ始めている。 視覚表現の自己教師型学習に関する最近の研究は、深層ネットワークに基づく学習可能なモデルの性能向上を促している。 従来のデータ拡張やホモグラフィ変換を活用することで、これらのネットワークは、極端な照明変化などの悪条件下でのコーナーの検出を学習する。 しかし、それらの一般化能力は古典的手法や合成データによって検出されたコーナーのような特徴に限られる。 本稿では,繰り返し可能なキーポイントを検知し,空間的制約下で教師なしのコントラスト学習を通じて識別的記述を抽出する対応ネットワーク(CorrNet)を提案する。 実験の結果,corrnetはコーナーなどの低レベルな特徴を検出できるだけでなく,入力画像に類似するオブジェクトを表す高レベルな特徴を,潜在空間の共役的なバックプロパゲーションによって検出できることがわかった。 提案手法は視点変化下での競争結果を求め,照度変化による最先端性能を実現する。

Learnable keypoint detectors and descriptors are beginning to outperform classical hand-crafted feature extraction methods. Recent studies on self-supervised learning of visual representations have driven the increasing performance of learnable models based on deep networks. By leveraging traditional data augmentations and homography transformations, these networks learn to detect corners under adverse conditions such as extreme illumination changes. However, their generalization capabilities are limited to corner-like features detected a priori by classical methods or synthetically generated data. In this paper, we propose the Correspondence Network (CorrNet) that learns to detect repeatable keypoints and to extract discriminative descriptions via unsupervised contrastive learning under spatial constraints. Our experiments show that CorrNet is not only able to detect low-level features such as corners, but also high-level features that represent similar objects present in a pair of input images through our proposed joint guided backpropagation of their latent space. Our approach obtains competitive results under viewpoint changes and achieves state-of-the-art performance under illumination changes.
翻訳日:2021-12-23 15:23:20 公開日:2021-12-22
# Barely Supervised Learning: ラベル付き画像の少ない半スーパービジョンラーニング

Barely-Supervised Learning: Semi-Supervised Learning with very few labeled images ( http://arxiv.org/abs/2112.12004v1 )

ライセンス: Link先を確認
Thomas Lucas and Philippe Weinzaepfel and Gregory Rogez(参考訳) 本稿では,ラベル付きサンプルの集合がクラス毎に少数の画像に制限されている場合,通常は10未満で,半教師付き学習の課題に対処する。 画像の弱弱化バージョンに依存する,最先端の半教師付き手法であるfixmatchの挙動を詳細に解析し,より強弱化バージョンに対する監督信号を得る。 疑似ラベルを高い信頼度で予測できない場合、トレーニング信号の欠如により、ほとんど教師なしのシナリオでは頻繁に失敗する。 本稿では,自信のある疑似ラベルがない場合に訓練信号を提供する自己教師あり手法の活用法を提案する。 次に,疑似ラベル選択プロセスを洗練するための2つの方法を提案する。 1つ目は、投票方式に似たモデル予測のサンプルごとの履歴に依存している。 第2の繰り返しは、クラス依存の信頼しきい値を更新して、擬似ラベルで表現されていないクラスをよりよく探索する。 実験の結果,stl-10では,クラスごとに4~8枚のラベル付き画像が有意な効果を示した。

This paper tackles the problem of semi-supervised learning when the set of labeled samples is limited to a small number of images per class, typically less than 10, problem that we refer to as barely-supervised learning. We analyze in depth the behavior of a state-of-the-art semi-supervised method, FixMatch, which relies on a weakly-augmented version of an image to obtain supervision signal for a more strongly-augmented version. We show that it frequently fails in barely-supervised scenarios, due to a lack of training signal when no pseudo-label can be predicted with high confidence. We propose a method to leverage self-supervised methods that provides training signal in the absence of confident pseudo-labels. We then propose two methods to refine the pseudo-label selection process which lead to further improvements. The first one relies on a per-sample history of the model predictions, akin to a voting scheme. The second iteratively updates class-dependent confidence thresholds to better explore classes that are under-represented in the pseudo-labels. Our experiments show that our approach performs significantly better on STL-10 in the barely-supervised regime, e.g. with 4 or 8 labeled images per class.
翻訳日:2021-12-23 15:23:04 公開日:2021-12-22
# ワイドマルチベースラインステレオの学習と製作

Learning and Crafting for the Wide Multiple Baseline Stereo ( http://arxiv.org/abs/2112.12027v1 )

ライセンス: Link先を確認
Dmytro Mishkin(参考訳) この論文は、広い多重ベースラインステレオ(WxBS)問題を導入している。 標準的なワイドベースラインステレオ問題の一般化であるWxBSは、視点、照明、センサータイプ、時間とともにオブジェクトの外観が著しく変化するような複数の画像取得因子で同時に異なる画像のマッチングを考える。 基底真理、評価基準、ベースラインを備えた新しいデータセットが導入された。 この論文は、WxBSパイプラインの以下の改善を示している。 (i)ミニバッチ内の硬い負のマイニングと、最も近い正のパッチと最も近い負のパッチとの間の距離の最大化に依存する局所的な画像記述子を学ぶための、hardnegと呼ばれる損失関数。 (ii) HardNetと呼ばれるHardNeg損失で訓練された記述子はコンパクトで、標準マッチング、パッチ検証、検索ベンチマークで最先端のパフォーマンスを示す。 (iii)局所的特徴の幾何学的・外観的性質に関連するアフィン形状、向き、および潜在的に他のパラメータを学習する方法。 (iv)第1〜第2の距離比を一般化した仮対応生成戦略を示す。 標準メソッドよりも優れたパフォーマンスを示す選択戦略は、SIFT、LIOP、MROGHなどのハードエンジニアリング記述子、あるいはHardNetのように深く学習されたものに適用される。 (v)2ビューマッチング問題に対してフィードバックループを導入し、MODS -- オンデマンドビュー合成とマッチングする -- アルゴリズムを実現する。 MODS は従来の ASIFT アルゴリズムよりもはるかに大きい視角差を処理するアルゴリズムであり、"標準" で幅の狭いベースラインアプローチよりも計算コストが大幅に増加することはない。 最後に、ローカル機能とロバストな推定アルゴリズムの包括的なベンチマークが紹介されている。

This thesis introduces the wide multiple baseline stereo (WxBS) problem. WxBS, a generalization of the standard wide baseline stereo problem, considers the matching of images that simultaneously differ in more than one image acquisition factor such as viewpoint, illumination, sensor type, or where object appearance changes significantly, e.g., over time. A new dataset with the ground truth, evaluation metric and baselines has been introduced. The thesis presents the following improvements of the WxBS pipeline. (i) A loss function, called HardNeg, for learning a local image descriptor that relies on hard negative mining within a mini-batch and on the maximization of the distance between the closest positive and the closest negative patches. (ii) The descriptor trained with the HardNeg loss, called HardNet, is compact and shows state-of-the-art performance in standard matching, patch verification and retrieval benchmarks. (iii) A method for learning the affine shape, orientation, and potentially other parameters related to geometric and appearance properties of local features. (iv) A tentative correspondences generation strategy which generalizes the standard first to second closest distance ratio is presented. The selection strategy, which shows performance superior to the standard method, is applicable to either hard-engineered descriptors like SIFT, LIOP, and MROGH or deeply learned like HardNet. (v) A feedback loop is introduced for the two-view matching problem, resulting in MODS -- matching with on-demand view synthesis -- algorithm. MODS is an algorithm that handles a viewing angle difference even larger than the previous state-of-the-art ASIFT algorithm, without a significant increase of computational cost over "standard" wide and narrow baseline approaches. Last, but not least, a comprehensive benchmark for local features and robust estimation algorithms is introduced.
翻訳日:2021-12-23 15:22:43 公開日:2021-12-22
# (参考訳) 対話型学習と概念接地のためのニューラル・シンボリック統合 [全文訳有]

Neural-Symbolic Integration for Interactive Learning and Conceptual Grounding ( http://arxiv.org/abs/2112.11805v1 )

ライセンス: CC BY 4.0
Benedikt Wagner, Artur d'Avila Garcez(参考訳) 抽象概念の説明と対話型学習のためのニューラルシンボリック統合を提案する。 ニューラルシンボリックな統合と説明により、ユーザとドメインの専門家は大きなニューラルモデルのデータ駆動意思決定プロセスについて学ぶことができる。 モデルは記号論理言語を使ってクエリされる。 ユーザとのインタラクションは、モデルアーキテクチャに蒸留可能なロジックベースの制約を使用して、ニューラルモデルのリビジョンを確認または拒否する。 このアプローチは、コンセプトアクティベーションベクトルと共にLogic Tensor Networkフレームワークを使用して説明され、畳み込みニューラルネットワークに適用される。

We propose neural-symbolic integration for abstract concept explanation and interactive learning. Neural-symbolic integration and explanation allow users and domain-experts to learn about the data-driven decision making process of large neural models. The models are queried using a symbolic logic language. Interaction with the user then confirms or rejects a revision of the neural model using logic-based constraints that can be distilled into the model architecture. The approach is illustrated using the Logic Tensor Network framework alongside Concept Activation Vectors and applied to a Convolutional Neural Network.
翻訳日:2021-12-23 15:21:05 公開日:2021-12-22
# 乳癌検診における転写学習に基づく畳み込みニューラルネットワーク

Convolutional neural network based on transfer learning for breast cancer screening ( http://arxiv.org/abs/2112.11629v1 )

ライセンス: Link先を確認
Hussin Ragb, Redha Ali, Elforjani Jera, and Nagi Buaossa(参考訳) 乳がんは世界でもっとも一般的ながんであり、女性の間で最も多い死因である。 それにもかかわらず、早期に検出された最も治療可能な悪性腫瘍の1つである。 本稿では, 超音波画像から乳がんを正確に同定するために, 深部畳み込みニューラルネットワークに基づくアルゴリズムを提案する。 このアルゴリズムでは、複数のニューラルネットワークを並列アーキテクチャで融合して分類処理を行い、各ニューラルネットワークの出力が1つの投票を表す候補オブジェクトクラス間の最終的な分類決定に投票基準を適用する。 537 Benign, 360 malignant, 133 normal image の胸部超音波データセットを用いていくつかの実験を行った。 これらの実験は楽観的な結果を示し、提案モデルがいくつかの尺度で多くの最先端アルゴリズムより優れていることを示す。 k-foldクロスバリデーションとバグング分類器アンサンブルを用いて,精度99.5%,感度99.6%を得た。

Breast cancer is the most common cancer in the world and the most prevalent cause of death among women worldwide. Nevertheless, it is also one of the most treatable malignancies if detected early. In this paper, a deep convolutional neural network-based algorithm is proposed to aid in accurately identifying breast cancer from ultrasonic images. In this algorithm, several neural networks are fused in a parallel architecture to perform the classification process and the voting criteria are applied in the final classification decision between the candidate object classes where the output of each neural network is representing a single vote. Several experiments were conducted on the breast ultrasound dataset consisting of 537 Benign, 360 malignant, and 133 normal images. These experiments show an optimistic result and a capability of the proposed model to outperform many state-of-the-art algorithms on several measures. Using k-fold cross-validation and a bagging classifier ensemble, we achieved an accuracy of 99.5% and a sensitivity of 99.6%.
翻訳日:2021-12-23 15:13:36 公開日:2021-12-22
# Few-Shotオブジェクト検出:サーベイ

Few-Shot Object Detection: A Survey ( http://arxiv.org/abs/2112.11699v1 )

ライセンス: Link先を確認
Mona K\"ohler, Markus Eisenbach and Horst-Michael Gross(参考訳) 人間はいくつかの例からでも新しい物体を認識することができる。 対照的に、ディープラーニングに基づくオブジェクト検出器のトレーニングには大量の注釈データが必要である。 これらの膨大なデータを取得および注釈付けする必要がなくなるように、少数ショットオブジェクト検出はターゲットドメインの新しいカテゴリの少数のオブジェクトインスタンスから学習することを目的としている。 本調査では,数発の物体検出における技術の現状について概説する。 トレーニング手法とアーキテクチャレイアウトに応じてアプローチを分類する。 それぞれのアプローチに対して,新しいカテゴリの性能向上のための概念と一般実現について述べる。 適切な場合はいつでも、最高のアイデアを強調するために、これらの概念について簡単に要約します。 最終的に、よく使われるデータセットとその評価プロトコルを導入し、報告されたベンチマーク結果を分析する。 その結果,評価における共通課題を強調し,この新分野における最も有望な物体検出の動向を明らかにした。

Humans are able to learn to recognize new objects even from a few examples. In contrast, training deep-learning-based object detectors requires huge amounts of annotated data. To avoid the need to acquire and annotate these huge amounts of data, few-shot object detection aims to learn from few object instances of new categories in the target domain. In this survey, we provide an overview of the state of the art in few-shot object detection. We categorize approaches according to their training scheme and architectural layout. For each type of approaches, we describe the general realization as well as concepts to improve the performance on novel categories. Whenever appropriate, we give short takeaways regarding these concepts in order to highlight the best ideas. Eventually, we introduce commonly used datasets and their evaluation protocols and analyze reported benchmark results. As a result, we emphasize common challenges in evaluation and identify the most promising current trends in this emerging field of few-shot object detection.
翻訳日:2021-12-23 15:13:22 公開日:2021-12-22
# 対照的損失の簡便かつ効果的なバランス

Simple and Effective Balance of Contrastive Losses ( http://arxiv.org/abs/2112.11743v1 )

ライセンス: Link先を確認
Arnaud Sors and Rafael Sampaio de Rezende and Sarah Ibrahimi and Jean-Marc Andreoli(参考訳) 対照的な損失は、長い間、ディープラーニングの重要な要素であり、自己教師付き学習の成功によって、現在より普及しています。 近年の研究では、これらの損失を表現ネットワークを学習する際に相補的に作用する2つの下位損失に分解する利点が示されている:ポジティブ項とエントロピー項。 したがって、全体的な損失は2つの項の組み合わせとして定義されるが、この2項のバランスはしばしば実装の詳細の裏側に隠れており、実際にはほとんど無視され、準最適である。 本研究では,ハイパーパラメータ最適化問題としてコントラスト損失のバランスにアプローチし,評価性能を最適化するハイパーパラメータを効率的に探索する座標降下に基づく探索法を提案する。 このプロセスでは、既存のバランス解析を対照的なマージン損失に拡張し、バランスにバッチサイズを含め、バッチから損失要素を集約して、より広いバッチサイズで最適に近いパフォーマンスを維持する方法を説明します。 ディープメトリック学習と自己教師付き学習によるベンチマークによる広範囲な実験により、我々の手法では、他の一般的な探索法よりも最適なハイパーパラメータがより早く見つけられることが示された。

Contrastive losses have long been a key ingredient of deep metric learning and are now becoming more popular due to the success of self-supervised learning. Recent research has shown the benefit of decomposing such losses into two sub-losses which act in a complementary way when learning the representation network: a positive term and an entropy term. Although the overall loss is thus defined as a combination of two terms, the balance of these two terms is often hidden behind implementation details and is largely ignored and sub-optimal in practice. In this work, we approach the balance of contrastive losses as a hyper-parameter optimization problem, and propose a coordinate descent-based search method that efficiently find the hyper-parameters that optimize evaluation performance. In the process, we extend existing balance analyses to the contrastive margin loss, include batch size in the balance, and explain how to aggregate loss elements from the batch to maintain near-optimal performance over a larger range of batch sizes. Extensive experiments with benchmarks from deep metric learning and self-supervised learning show that optimal hyper-parameters are found faster with our method than with other common search methods.
翻訳日:2021-12-23 15:13:11 公開日:2021-12-22
# 実世界画像翻訳のためのメタラーニングと自己教師付き事前学習

Meta-Learning and Self-Supervised Pretraining for Real World Image Translation ( http://arxiv.org/abs/2112.11929v1 )

ライセンス: Link先を確認
Ileana Rugina, Rumen Dangovski, Mark Veillette, Pooya Khorrami, Brian Cheung, Olga Simek, Marin Solja\v{c}i\'c(参考訳) ディープラーニングの最近の進歩、特にハードウェアの進歩とビッグデータによって実現され、コンピュータビジョンや自然言語、強化学習など、幅広い計算問題で印象的な結果が得られている。 しかし、これらの改善の多くは、大規模なキュレートされたデータセットの問題に制約されている。 さらに、これらのモデルは、わずかな分布シフトと低データレギュレーションの両方の下では、あまり一般化しない傾向にある。 近年,メタラーニングや自己教師型学習といった新興分野は,半教師付きドメインや少数ショットドメインにディープラーニングを拡張することによって,概念実証結果と機械学習の現実的な応用とのギャップを埋めている。 我々は,最近導入された画像から画像への翻訳問題において,この一連の研究を追従し,時空間構造を探究する。 一 新規なマルチタスク少ショット画像生成ベンチマークを定式化し、 二 画像翻訳ダウンストリームタスクのコントラスト事前学習におけるデータ拡張について検討すること。 我々は,この問題に対するベースラインをいくつか提示し,異なるアプローチ間のトレードオフについて論じる。 私たちのコードはhttps://github.com/i rugina/meta-image-tr anslationで利用可能です。

Recent advances in deep learning, in particular enabled by hardware advances and big data, have provided impressive results across a wide range of computational problems such as computer vision, natural language, or reinforcement learning. Many of these improvements are however constrained to problems with large-scale curated data-sets which require a lot of human labor to gather. Additionally, these models tend to generalize poorly under both slight distributional shifts and low-data regimes. In recent years, emerging fields such as meta-learning or self-supervised learning have been closing the gap between proof-of-concept results and real-life applications of machine learning by extending deep-learning to the semi-supervised and few-shot domains. We follow this line of work and explore spatio-temporal structure in a recently introduced image-to-image translation problem in order to: i) formulate a novel multi-task few-shot image generation benchmark and ii) explore data augmentations in contrastive pre-training for image translation downstream tasks. We present several baselines for the few-shot problem and discuss trade-offs between different approaches. Our code is available at https://github.com/i rugina/meta-image-tr anslation.
翻訳日:2021-12-23 15:12:52 公開日:2021-12-22
# 人体計測の人体自動推定

Automatic Estimation of Anthropometric Human Body Measurements ( http://arxiv.org/abs/2112.11992v1 )

ライセンス: Link先を確認
Dana \v{S}korv\'ankov\'a, Adam Rie\v{c}ick\'y, Martin Madaras(参考訳) 人間の身体分析に関連する研究課題は、コンピュータビジョン領域で過去数十年間、私たちの日々の生活に潜在的な利益を考慮し、多くの注目を集めてきた。 人体計測は、人体の大きさ、形態、機能能力の物理測度を定義する分野である。 具体的には、視覚的人体データから人体計測を正確に推定することは、人間工学や衣服製造など、さまざまな分野の応用を楽にする、という課題の1つだ。 本稿では、深層学習とニューラルネットワークの分野における研究を定式化し、様々な視覚的入力データ(2次元画像や3次元点雲など)から身体計測を行う際の課題に取り組む。 また, 人体形状の合成データセットを生成し, 骨格駆動アノテーションを実行することにより, トレーニングや評価に要する地中真理体計測に付加した実際の人体データの欠如にも対処する。

Research tasks related to human body analysis have been drawing a lot of attention in computer vision area over the last few decades, considering its potential benefits on our day-to-day life. Anthropometry is a field defining physical measures of a human body size, form, and functional capacities. Specifically, the accurate estimation of anthropometric body measurements from visual human body data is one of the challenging problems, where the solution would ease many different areas of applications, including ergonomics, garment manufacturing, etc. This paper formulates a research in the field of deep learning and neural networks, to tackle the challenge of body measurements estimation from various types of visual input data (such as 2D images or 3D point clouds). Also, we deal with the lack of real human data annotated with ground truth body measurements required for training and evaluation, by generating a synthetic dataset of various human body shapes and performing a skeleton-driven annotation.
翻訳日:2021-12-23 15:12:35 公開日:2021-12-22
# 聴覚対応によるクラス認識音像定位

Class-aware Sounding Objects Localization via Audiovisual Correspondence ( http://arxiv.org/abs/2112.11749v1 )

ライセンス: Link先を確認
Di Hu, Yake Wei, Rui Qian, Weiyao Lin, Ruihua Song and Ji-Rong Wen(参考訳) オーディオヴィジュアルなシーンは私たちの日常生活に広まります。 人間は異なる音の物体を識別的に局所化するのが一般的であるが、機械がカテゴリーアノテーションを使わずにクラス認識の音の物体を局所化するのは非常に困難である。 そこで本研究では,音声と視覚の対応のみを用いて,複雑な視覚シナリオにおける音像の局所化と認識を行う2段階学習フレームワークを提案する。 まず,単一音源の場合の粗粒度音響視覚対応により音域を決定することを提案する。 次に、聴覚領域の視覚特徴を候補オブジェクト表現として活用し、表現的視覚文字抽出のためのカテゴリ表現オブジェクト辞書を確立する。 カクテルパーティのシナリオでクラス対応オブジェクトローカライゼーションマップを生成し、この辞書を参照して、サイレント領域を抑制するためにオーディオビジュアル対応を使用する。 最後に、細粒度オーディオと音像分布アライメントを実現するために、カテゴリレベルのオーディオ視覚整合性を用いる。 実写ビデオと合成ビデオの両方で実験した結果、我々のモデルは、オブジェクトのローカライズと認識、そして無音ビデオのフィルタリングに優れていることがわかった。 また、学習したオーディオ視覚ネットワークを教師なしオブジェクト検出タスクに転送し、適切な性能を得る。

Audiovisual scenes are pervasive in our daily life. It is commonplace for humans to discriminatively localize different sounding objects but quite challenging for machines to achieve class-aware sounding objects localization without category annotations, i.e., localizing the sounding object and recognizing its category. To address this problem, we propose a two-stage step-by-step learning framework to localize and recognize sounding objects in complex audiovisual scenarios using only the correspondence between audio and vision. First, we propose to determine the sounding area via coarse-grained audiovisual correspondence in the single source cases. Then visual features in the sounding area are leveraged as candidate object representations to establish a category-representat ion object dictionary for expressive visual character extraction. We generate class-aware object localization maps in cocktail-party scenarios and use audiovisual correspondence to suppress silent areas by referring to this dictionary. Finally, we employ category-level audiovisual consistency as the supervision to achieve fine-grained audio and sounding object distribution alignment. Experiments on both realistic and synthesized videos show that our model is superior in localizing and recognizing objects as well as filtering out silent ones. We also transfer the learned audiovisual network into the unsupervised object detection task, obtaining reasonable performance.
翻訳日:2021-12-23 15:12:19 公開日:2021-12-22
# 解析的に解くエントロピック外乱スパーシフィケーションを用いたデータ異常のロバスト学習

Robust learning of data anomalies with analytically-solvabl e entropic outlier sparsification ( http://arxiv.org/abs/2112.11768v1 )

ライセンス: Link先を確認
Illia Horenko(参考訳) Entropic Outlier Sparsification (EOS) は、教師なし問題(主にガウシアンデータにおける非ガウシアン外乱の検出など)や、教師付き学習における誤ったラベル付きデータを含む幅広い学習手法において、データ異常を検出するための堅牢な計算戦略として提案されている。 EOSはシャノンエントロピー正則化の対象となる(重み付けされた)予測誤差最小化問題の導出した解析的閉形式解に富む。 データ次元と多項式をスケールする計算コストを必要とする一般的な正規化戦略とは対照的に、特定された閉形式解は、統計量に依存し、データ次元に依存しない追加の反復コストを課すことが証明される。 得られた分析結果は、球対称ガウスの混合が多くの一般的なデータ解析アルゴリズムでヒューリスティックに用いた理由も説明できる: 正方形ユークリッド距離を扱う場合の非パラメトリック確率分布の最適選択を表し、期待される誤差極小性、最大エントロピー/不偏性、線形コストスケーリングを組み合わせている。 eosの性能は, 合成問題や, バイオメディシンからの教師付き分類問題において, 広く用いられているツールと比較される。

Entropic Outlier Sparsification (EOS) is proposed as a robust computational strategy for the detection of data anomalies in a broad class of learning methods, including the unsupervised problems (like detection of non-Gaussian outliers in mostly-Gaussian data) and in the supervised learning with mislabeled data. EOS dwells on the derived analytic closed-form solution of the (weighted) expected error minimization problem subject to the Shannon entropy regularization. In contrast to common regularization strategies requiring computational costs that scale polynomial with the data dimension, identified closed-form solution is proven to impose additional iteration costs that depend linearly on statistics size and are independent of data dimension. Obtained analytic results also explain why the mixtures of spherically-symmetri c Gaussians - used heuristically in many popular data analysis algorithms - represent an optimal choice for the non-parametric probability distributions when working with squared Euclidean distances, combining expected error minimality, maximal entropy/unbiasedness , and a linear cost scaling. The performance of EOS is compared to a range of commonly-used tools on synthetic problems and on partially-mislabeled supervised classification problems from biomedicine.
翻訳日:2021-12-23 15:11:37 公開日:2021-12-22
# 帰納的論理プログラミングによるリフティング対称性の破れ

Lifting Symmetry Breaking Constraints with Inductive Logic Programming ( http://arxiv.org/abs/2112.11806v1 )

ライセンス: Link先を確認
Alice Tarzariol, Martin Gebser, Konstantin Schekotihin(参考訳) 対称解候補の効率的な脱落は組合せ問題解決に不可欠である。 既存のアプローチのほとんどはインスタンス固有であり、各問題インスタンスに対してSBC(Symmetry Breaking Constraints)の自動計算に重点を置いている。 しかしながら、計算されたsbcは命題的であるため、大規模インスタンスや高度な問題エンコーディングへのそのようなアプローチの適用は問題となりうるため、意味のある解釈も他のインスタンスへの転送もできない。 その結果、SBCの計算に要する時間は、ソルバの呼び出しに先立って行う必要がある。 これらの制約を克服するために、我々は、小さな問題インスタンスのSBCをインダクティブ論理プログラミングパラダイムを用いて解釈可能な一階制約のセットに引き上げるAnswer Set Programmingの新しいモデル指向のアプローチを導入する。 実験では,組換え問題の集合に対して,インスタンス固有のSBCから一般制約を学習する能力を示す。 その結果,提案手法は,解法の直接的適用と同様に,最先端のインスタンス固有メソッドを大幅に上回ることがわかった。

Efficient omission of symmetric solution candidates is essential for combinatorial problem-solving. Most of the existing approaches are instance-specific and focus on the automatic computation of Symmetry Breaking Constraints (SBCs) for each given problem instance. However, the application of such approaches to large-scale instances or advanced problem encodings might be problematic since the computed SBCs are propositional and, therefore, can neither be meaningfully interpreted nor transferred to other instances. As a result, a time-consuming recomputation of SBCs must be done before every invocation of a solver. To overcome these limitations, we introduce a new model-oriented approach for Answer Set Programming that lifts the SBCs of small problem instances into a set of interpretable first-order constraints using the Inductive Logic Programming paradigm. Experiments demonstrate the ability of our framework to learn general constraints from instance-specific SBCs for a collection of combinatorial problems. The obtained results indicate that our approach significantly outperforms a state-of-the-art instance-specific method as well as the direct application of a solver.
翻訳日:2021-12-23 15:10:18 公開日:2021-12-22
# 多エージェント都市運転環境における自律的・敵対的政策のための深層強化学習のロバスト性評価

Evaluating the Robustness of Deep Reinforcement Learning for Autonomous and Adversarial Policies in a Multi-agent Urban Driving Environment ( http://arxiv.org/abs/2112.11947v1 )

ライセンス: Link先を確認
Aizaz Sharif, Dusica Marijan(参考訳) 深層強化学習は視覚に基づく都市シミュレーション環境での自律運転エージェントの訓練に積極的に用いられている。 強化学習アルゴリズムが多用されているため、自律走行車をシングルエージェントとマルチエージェント運転環境で訓練しながら、どちらがうまく機能するかは定かではない。 ビジョンに基づく自動運転における深い強化学習の比較は、より良い自動運転車ポリシーを訓練する可能性を開くだろう。 また、深い強化学習に基づくアルゴリズムで訓練された自動運転車は、敵の攻撃に弱いことで知られており、どのアルゴリズムが優れた敵エージェントとして機能するかに関する情報は少ない。 本研究では,4方向交差点シナリオにおける自律・対向運転のための6つの深部強化学習アルゴリズムの系統的評価と比較分析を行う。 具体的には、最先端の深層強化学習アルゴリズムを用いて、まず自動運転車を訓練する。 第二に、訓練された自律ポリシーの駆動能力を、単一エージェントとマルチエージェントシナリオでテストする。 最後に, 自動車の走行性能を検証し, 衝突やオフロード運転のシナリオを探るために, 同じ深層強化学習アルゴリズムを用いて, 敵の運転エージェントを訓練する。 視覚のみの高忠実度都市走行シミュレーション環境を用いて実験を行う。

Deep reinforcement learning is actively used for training autonomous driving agents in a vision-based urban simulated environment. Due to the large availability of various reinforcement learning algorithms, we are still unsure of which one works better while training autonomous cars in single-agent as well as multi-agent driving environments. A comparison of deep reinforcement learning in vision-based autonomous driving will open up the possibilities for training better autonomous car policies. Also, autonomous cars trained on deep reinforcement learning-based algorithms are known for being vulnerable to adversarial attacks, and we have less information on which algorithms would act as a good adversarial agent. In this work, we provide a systematic evaluation and comparative analysis of 6 deep reinforcement learning algorithms for autonomous and adversarial driving in four-way intersection scenario. Specifically, we first train autonomous cars using state-of-the-art deep reinforcement learning algorithms. Second, we test driving capabilities of the trained autonomous policies in single-agent as well as multi-agent scenarios. Lastly, we use the same deep reinforcement learning algorithms to train adversarial driving agents, in order to test the driving performance of autonomous cars and look for possible collision and offroad driving scenarios. We perform experiments by using vision-only high fidelity urban driving simulated environments.
翻訳日:2021-12-23 15:09:42 公開日:2021-12-22
# 医療画像データセットにおけるコミュニティ検出:ウェーブレットとスペクトル法を用いて

Community Detection in Medical Image Datasets: Using Wavelets and Spectral Methods ( http://arxiv.org/abs/2112.12021v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 医療画像データセットは、異なる健康状態と様々な病気の重症度を示す多数の画像を持つことができる。 生のラベルのないイメージデータセットを扱う場合、多数のサンプルは、専門家や非専門家がデータセットに存在するさまざまなイメージを理解するのを難しくする。 監視された学習方法はラベル付き画像に依存しており、医療専門家がまずデータに存在する画像のコミュニティを理解してラベル付けする。 本稿では,医療画像データセットにおけるコミュニティの自動識別を容易にするアルゴリズムを提案する。 さらに,画像のラベル付けが既に行われている場合,このような解析は教師付き設定でも洞察に富むことが説明できる。 このような洞察は、現実には、健康と病気の重症度が連続的なスペクトルと見なすことができ、各クラスには、特に他のクラスのコミュニティと類似点がある場合に、調査に値する細かいコミュニティがあるため、有用である。 提案手法では,スペクトル法によるタンデム画像のウェーブレット分解を用いる。 グラフラプラシアンの固有値は、画像データセット内の注目すべきコミュニティの数を明らかにすることができる。 実験では、新型コロナウイルス患者に対して異なる条件でラベル付けされた画像のデータセットを使用しました。 データセット中の25のコミュニティを検出し,肺炎患者を含むコミュニティは6つに過ぎなかった。 また,大腸癌病理組織学データセットの内容についても検討した。

Medical image datasets can have large number of images representing patients with different health conditions and various disease severity. When dealing with raw unlabeled image datasets, the large number of samples often makes it hard for experts and non-experts to understand the variety of images present in a dataset. Supervised learning methods rely on labeled images which requires a considerable effort by medical experts to first understand the communities of images present in the data and then labeling the images. Here, we propose an algorithm to facilitate the automatic identification of communities in medical image datasets. We further explain that such analysis can also be insightful in a supervised setting, when the images are already labeled. Such insights are useful because in reality, health and disease severity can be considered a continuous spectrum, and within each class, there usually are finer communities worthy of investigation, especially when they have similarities to communities in other classes. In our approach, we use wavelet decomposition of images in tandem with spectral methods. We show that the eigenvalues of a graph Laplacian can reveal the number of notable communities in an image dataset. In our experiments, we use a dataset of images labeled with different conditions for COVID patients. We detect 25 communities in the dataset and then observe that only 6 of those communities contain patients with pneumonia. We also investigate the contents of a colorectal cancer histopathology dataset.
翻訳日:2021-12-23 15:09:01 公開日:2021-12-22
# 多段階インシシット談話関係認識のためのラベル依存型系列生成モデル

A Label Dependence-aware Sequence Generation Model for Multi-level Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2112.11740v1 )

ライセンス: Link先を確認
Changxing Wu, Liuwen Cao, Yubin Ge, Yang Liu, Min Zhang, Jinsong Su(参考訳) インプシット談話関係認識(IDRR)は、談話分析において難しいが重要な課題である。 既存の手法のほとんどは、階層的に構造化されたラベル間の依存性を無視しながら、複数のモデルを訓練して、独立してマルチレベルラベルを予測する。 本稿では,多レベルIDRRを条件付きラベルシーケンス生成タスクとみなし,ラベル依存型シーケンス生成モデル(LDSGM)を提案する。 具体的には、まずラベル注意エンコーダを設計し、入力インスタンスのグローバルな表現とそのレベル固有のコンテキストを学習し、ラベル依存を統合してより良いラベル埋め込みを得る。 次に,ラベル列デコーダを用いて予測されたラベルをトップダウンで出力し,予測された上位ラベルを直接使用して,現在のレベルでのラベル予測を行う。 さらに,学習中に導入された補助デコーダによって捕捉されるボトムアップ方向のラベル依存を活用できる相互学習強化トレーニング手法の開発を行った。 pdtbデータセットにおける実験結果から,マルチレベルidrrの最先端性能が得られた。 コードをhttps://github.com/n lpersECJTU/LDSGMでリリースします。

Implicit discourse relation recognition (IDRR) is a challenging but crucial task in discourse analysis. Most existing methods train multiple models to predict multi-level labels independently, while ignoring the dependence between hierarchically structured labels. In this paper, we consider multi-level IDRR as a conditional label sequence generation task and propose a Label Dependence-aware Sequence Generation Model (LDSGM) for it. Specifically, we first design a label attentive encoder to learn the global representation of an input instance and its level-specific contexts, where the label dependence is integrated to obtain better label embeddings. Then, we employ a label sequence decoder to output the predicted labels in a top-down manner, where the predicted higher-level labels are directly used to guide the label prediction at the current level. We further develop a mutual learning enhanced training method to exploit the label dependence in a bottomup direction, which is captured by an auxiliary decoder introduced during training. Experimental results on the PDTB dataset show that our model achieves the state-of-the-art performance on multi-level IDRR. We will release our code at https://github.com/n lpersECJTU/LDSGM.
翻訳日:2021-12-23 15:08:41 公開日:2021-12-22
# CRASS: 大規模言語モデルの対実的推論をテストするための新しいデータセットとベンチマーク

CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models ( http://arxiv.org/abs/2112.11941v1 )

ライセンス: Link先を確認
J\"org Frohberg and Frank Binder(参考訳) 大規模言語モデルを評価するための新しい強力なツールとして,疑わしい反事実条件を利用したCRASSデータセットとベンチマークを導入する。 我々は、データセットの設計とベンチマーク、および、クラウド検証された人間のベースラインに対するスコアをサポートするAPIを紹介する。 ベンチマークに対して6つの最先端モデルをテストします。 その結果、これらのモデルにとって有効な課題となり、改善の余地が生まれることがわかりました。

We introduce the CRASS (counterfactual reasoning assessment) data set and benchmark utilizing questionized counterfactual conditionals as a novel and powerful tool to evaluate large language models. We present the data set design and benchmark as well as the accompanying API that supports scoring against a crowd-validated human baseline. We test six state-of-the-art models against our benchmark. Our results show that it poses a valid challenge for these models and opens up considerable room for their improvement.
翻訳日:2021-12-23 15:06:48 公開日:2021-12-22
# テキストはもう十分ではない! プロファイルに基づく音声言語理解のためのベンチマーク

Text is no more Enough! A Benchmark for Profile-based Spoken Language Understanding ( http://arxiv.org/abs/2112.11953v1 )

ライセンス: Link先を確認
Xiao Xu, Libo Qin, Kaiji Chen, Guoxing Wu, Linlin Li, Wanxiang Che(参考訳) 音声言語理解(SLU)に関する現在の研究は、ユーザ発話を入力として取り、対応するセマンティックフレーム(例えば、意図とスロット)を生成するプレーンテキストベースのSLUという単純な設定に限られている。 残念ながら、このような単純な設定は、テキストベースのSLUモデルでは達成できない意味的にあいまいな発話の場合、複雑な実世界のシナリオでは機能しない可能性がある。 本稿では、まず、プロファイルベースの音声言語理解(ProSLU)という新しい重要なタスクを導入する。これは、プレーンテキストに依存するだけでなく、適切な意図やスロットを予測するためのプロファイル情報も必要である。 この目的のために,5k以上の発話とそれに対応する支援プロファイル情報(知識グラフ(kg),ユーザプロファイル(up),コンテキスト認識(ca))を備えた,大規模な中国語データセットについても紹介する。 さらに,最先端のベースラインモデルをいくつか評価し,プロファイル情報を効果的に組み込むマルチレベルナレッジアダプタの検討を行った。 実験の結果,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に機能せず,提案フレームワークは文レベルの意図検出やトークンレベルのスロットフィリングに有効に利用することができることがわかった。 最後に、重要な課題をまとめ、今後の方向性に新たなポイントを提供し、研究の促進を期待する。

Current researches on spoken language understanding (SLU) heavily are limited to a simple setting: the plain text-based SLU that takes the user utterance as input and generates its corresponding semantic frames (e.g., intent and slots). Unfortunately, such a simple setting may fail to work in complex real-world scenarios when an utterance is semantically ambiguous, which cannot be achieved by the text-based SLU models. In this paper, we first introduce a new and important task, Profile-based Spoken Language Understanding (ProSLU), which requires the model that not only relies on the plain text but also the supporting profile information to predict the correct intents and slots. To this end, we further introduce a large-scale human-annotated Chinese dataset with over 5K utterances and their corresponding supporting profile information (Knowledge Graph (KG), User Profile (UP), Context Awareness (CA)). In addition, we evaluate several state-of-the-art baseline models and explore a multi-level knowledge adapter to effectively incorporate profile information. Experimental results reveal that all existing text-based SLU models fail to work when the utterances are semantically ambiguous and our proposed framework can effectively fuse the supporting information for sentence-level intent detection and token-level slot filling. Finally, we summarize key challenges and provide new points for future directions, which hopes to facilitate the research.
翻訳日:2021-12-23 15:06:40 公開日:2021-12-22
# 読み書きのための教育用自動装飾システムに向けて

Toward Educator-focused Automated Scoring Systems for Reading and Writing ( http://arxiv.org/abs/2112.11973v1 )

ライセンス: Link先を確認
Mike Hardy(参考訳) 本稿では,自己着脱と文書長の計算的トレードオフに対処する手法を用いて,自動エッセイスコアリングを改善する手法を提案する。 専門家にとってAES(Automated Essay Scoring)をより便利にするためには、データとラベルの可用性、本物で拡張された書き込み、ドメインスコアリング、プロンプトとソースの多様性、トランスファーラーニングといった課題を克服する必要がある。 本稿では,モデル学習コストを増大させることなく,エッセイ長を重要な特徴として保存する手法を用いて,ニューラルネットワークモデルを用いた課題を解決する。 It introduces techniques for minimizing classification loss on ordinal labels using multi-objective learning, capturing semantic information across the entire essay using sentence embeddings to use transformer architecture across arbitrarily long documents, the use of such models for transfer learning, automated hyperparameter generation based on prompt-corpus metadata, and, most importantly, the use of semantic information to provide meaningful insights into student reading through analysis of passage-dependent writing resulting in state-of-the-art results for various essay tasks.

This paper presents methods for improving automated essay scoring with techniques that address the computational trade-offs of self-attention and document length. To make Automated Essay Scoring (AES) more useful to practitioners, researchers must overcome the challenges of data and label availability, authentic and extended writing, domain scoring, prompt and source variety, and transfer learning. This paper addresses these challenges using neural network models by employing techniques that preserve essay length as an important feature without increasing model training costs. It introduces techniques for minimizing classification loss on ordinal labels using multi-objective learning, capturing semantic information across the entire essay using sentence embeddings to use transformer architecture across arbitrarily long documents, the use of such models for transfer learning, automated hyperparameter generation based on prompt-corpus metadata, and, most importantly, the use of semantic information to provide meaningful insights into student reading through analysis of passage-dependent writing resulting in state-of-the-art results for various essay tasks.
翻訳日:2021-12-23 15:06:16 公開日:2021-12-22
# 最大エントロピー人口に基づくゼロショットヒューマンAIコーディネーションのためのトレーニング

Maximum Entropy Population Based Training for Zero-Shot Human-AI Coordination ( http://arxiv.org/abs/2112.11701v1 )

ライセンス: Link先を確認
Rui Zhao, Jinming Song, Hu Haifeng, Yang Gao, Yi Wu, Zhongqian Sun, Yang Wei(参考訳) AIエージェントは、タスクを解決するために人間と調整できる必要があります。 我々は、人間データ、すなわちゼロショット設定を使わずに強化学習(RL)エージェントを訓練し、人間との共同作業を可能にするという課題を考察する。 標準RLエージェントは、セルフプレイを通じて学習する。 残念ながら、これらのエージェントは自分自身と協力する方法を知っていて、通常、人間のような目に見えないパートナーとうまく機能しない。 ゼロショット方式で堅牢なエージェントを訓練する方法は、依然として研究の対象となっている。 最大エントロピーRLからモチベーションを得て,多種多様なエージェントの学習を促進するために,集中型エントロピー目標を導出する。 提案手法は,一般的なオーバークッキングゲーム環境において,自己再生型PPO,標準人口ベーストレーニング(PBT),トラジェクティブ多様性ベースのPBTなどのベースライン手法と比較して有効性を示す。 また,実人とのオンライン実験を行い,実世界における手法の有効性をさらに実証する。 実験結果を示す追加ビデオはhttps://youtu.be/xh- fkd0aakeで公開されている。

An AI agent should be able to coordinate with humans to solve tasks. We consider the problem of training a Reinforcement Learning (RL) agent without using any human data, i.e., in a zero-shot setting, to make it capable of collaborating with humans. Standard RL agents learn through self-play. Unfortunately, these agents only know how to collaborate with themselves and normally do not perform well with unseen partners, such as humans. The methodology of how to train a robust agent in a zero-shot fashion is still subject to research. Motivated from the maximum entropy RL, we derive a centralized population entropy objective to facilitate learning of a diverse population of agents, which is later used to train a robust agent to collaborate with unseen partners. The proposed method shows its effectiveness compared to baseline methods, including self-play PPO, the standard Population-Based Training (PBT), and trajectory diversity-based PBT, in the popular Overcooked game environment. We also conduct online experiments with real humans and further demonstrate the efficacy of the method in the real world. A supplementary video showing experimental results is available at https://youtu.be/Xh- FKD0AAKE.
翻訳日:2021-12-23 15:05:58 公開日:2021-12-22
# 信頼に足る自律運転政策のための敵対的深層強化学習

Adversarial Deep Reinforcement Learning for Trustworthy Autonomous Driving Policies ( http://arxiv.org/abs/2112.11937v1 )

ライセンス: Link先を確認
Aizaz Sharif, Dusica Marijan(参考訳) 深層強化学習は、シミュレーション環境で自動運転車の訓練に広く利用されている。 それでも、自動運転車は敵の攻撃にさらされると脆弱であることが知られている。 これは、自律走行車における障害シナリオを見つけるための駆動エージェントとして敵を訓練し、その堅牢性を改善するために新しい敵入力で自動運転車を再訓練できるかどうかという疑問を提起する。 本研究は,複数エージェント環境での自律走行車の運転制御決定をテストするために,2つの特注報酬関数の対向車ポリシーを訓練し比較するものである。 第二に、敵の例は、望ましくない自動運転行動を見つけるだけでなく、自動運転車が深い強化学習ポリシーを改善するのを助けるためにも利用できることを検証する。 高忠実度都市運転シミュレーション環境と視覚ベース運転エージェントを用いて、敵プレイヤーを用いて再訓練した自動運転車は、衝突やオフロードステアリングエラーの低減の観点から、運転ポリシーの性能を著しく向上させることを示した。

Deep reinforcement learning is widely used to train autonomous cars in a simulated environment. Still, autonomous cars are well known for being vulnerable when exposed to adversarial attacks. This raises the question of whether we can train the adversary as a driving agent for finding failure scenarios in autonomous cars, and then retrain autonomous cars with new adversarial inputs to improve their robustness. In this work, we first train and compare adversarial car policy on two custom reward functions to test the driving control decision of autonomous cars in a multi-agent setting. Second, we verify that adversarial examples can be used not only for finding unwanted autonomous driving behavior, but also for helping autonomous driving cars in improving their deep reinforcement learning policies. By using a high fidelity urban driving simulation environment and vision-based driving agents, we demonstrate that the autonomous cars retrained using the adversary player noticeably increase the performance of their driving policies in terms of reducing collision and offroad steering errors.
翻訳日:2021-12-23 15:05:38 公開日:2021-12-22
# (参考訳) 多人数ポーズ推定のためのボトムアップ手法とその応用:簡単なレビュー [全文訳有]

Bottom-up approaches for multi-person pose estimation and it's applications: A brief review ( http://arxiv.org/abs/2112.11834v1 )

ライセンス: CC BY 4.0
Milan Kresovi\'c, Thong Duy Nguyen(参考訳) HPE(Human Pose Estimation)は、コンピュータビジョンにおける基本的な問題の一つである。 仮想現実、人間の行動分析、ビデオ監視、異常検出、自動運転から医療支援まで、さまざまな応用がある。 HPEの主な目的は、与えられた入力から人の姿勢を取得することである。 HPEの様々なパラダイムの中で、1つのパラダイムはボトムアップマルチパーソンポーズ推定と呼ばれる。 ボトムアップアプローチでは、まず、対象のすべてのキーポイントを検出し、その後、最適化段階では、検出されたキーポイントを対応するターゲットに関連付ける。 本稿では、HPEのボトムアップアプローチの最近の進歩について論じ、モデルのトレーニングに使用される高品質なデータセットを列挙する。 さらに、顕著なボトムアップアプローチとその標準性能行列に関する定量的結果について論じる。 最後に,既存手法の限界を強調し,今後の研究方針のガイドラインを提示する。

Human Pose Estimation (HPE) is one of the fundamental problems in computer vision. It has applications ranging from virtual reality, human behavior analysis, video surveillance, anomaly detection, self-driving to medical assistance. The main objective of HPE is to obtain the person's posture from the given input. Among different paradigms for HPE, one paradigm is called bottom-up multi-person pose estimation. In the bottom-up approach, initially, all the key points of the targets are detected, and later in the optimization stage, the detected key points are associated with the corresponding targets. This review paper discussed the recent advancements in bottom-up approaches for the HPE and listed the possible high-quality datasets used to train the models. Additionally, a discussion of the prominent bottom-up approaches and their quantitative results on the standard performance matrices are given. Finally, the limitations of the existing methods are highlighted, and guidelines of the future research directions are given.
翻訳日:2021-12-23 15:03:11 公開日:2021-12-22
# voicemoji:ディクテーション中の絵文字をシームレスに挿入する新しいオンデバイスパイプライン

VoiceMoji: A Novel On-Device Pipeline for Seamless Emoji Insertion in Dictation ( http://arxiv.org/abs/2112.12028v1 )

ライセンス: Link先を確認
Sumit Kumar, Harichandana B S S, and Himanshu Arora(参考訳) ほとんどの音声認識システムは、音声中の単語のみを復元し、感情を捉えない。 ユーザーはテキストに絵文字を手動で追加し、トーンを追加してコミュニケーションを楽しむ必要がある。 書き起こされた音声の句読上げには多くの作業があるが、感情追加の領域は触れられていない。 本稿では,音声入力体験を充実させる新しいオンデバイスパイプラインを提案する。 書き起こされたテキストの塊が与えられたら、絵文字の挿入が意味のある構造をインテリジェントに処理し、識別する。 さらに,新たなアーキテクチャであるAttention-based Char Aware (ACA) LSTMを提案するサブパートごとの絵文字のセマンティックテキスト解析を行い,Of-Vocabulary (OOV) ワードも扱う。 これらのタスクはすべてデバイス上で完全に実行されるため、デバイス上のディクテーションシステムを支援することができる。 私たちの知る限りでは、転写されたテキストに絵文字を追加する方法を示す最初の作品です。 我々は,句読点付加と絵文字予測のための従来のニューラルアプローチと同等の結果を80%少ないパラメータで達成できることを実証した。 全体として、私たちの提案するモデルは、オンデバイスデプロイメントに適したメモリフットプリントがわずか4mbと非常に小さいです。

Most of the speech recognition systems recover only words in the speech and fail to capture emotions. Users have to manually add emoji(s) in text for adding tone and making communication fun. Though there is much work done on punctuation addition on transcribed speech, the area of emotion addition is untouched. In this paper, we propose a novel on-device pipeline to enrich the voice input experience. It involves, given a blob of transcribed text, intelligently processing and identifying structure where emoji insertion makes sense. Moreover, it includes semantic text analysis to predict emoji for each of the sub-parts for which we propose a novel architecture Attention-based Char Aware (ACA) LSTM which handles Out-Of-Vocabulary (OOV) words as well. All these tasks are executed completely on-device and hence can aid on-device dictation systems. To the best of our knowledge, this is the first work that shows how to add emoji(s) in the transcribed text. We demonstrate that our components achieve comparable results to previous neural approaches for punctuation addition and emoji prediction with 80% fewer parameters. Overall, our proposed model has a very small memory footprint of a mere 4MB to suit on-device deployment.
翻訳日:2021-12-23 14:39:59 公開日:2021-12-22
# MOSAIC: Aggregated Information と Encoded Context によるモバイルセグメンテーション

MOSAIC: Mobile Segmentation via decoding Aggregated Information and encoded Context ( http://arxiv.org/abs/2112.11623v1 )

ライセンス: Link先を確認
Weijun Wang, Andrew Howard(参考訳) モバイルデバイス上でのセマンティックイメージセグメンテーションを効率的に正確に行うための次世代ニューラルネットワークアーキテクチャMOSAICを提案する。 MOSAICは、さまざまなモバイルプラットフォームにまたがる柔軟なデプロイメントのために、さまざまなモバイルハードウェアプラットフォームによって一般的にサポートされているニューラル操作を使用して設計されている。 効率的なマルチスケールコンテキストエンコーダと軽量ハイブリッドデコーダから構成される単純な非対称エンコーダ構造により,MOSAICは精度と計算コストのバランスを保ちながら,新たな最先端性能を実現する。 検索された分類ネットワークに基づく機能抽出バックボーン上に展開されたMOSAICは、現在の業界標準のMLPerfモデルや最先端アーキテクチャよりも5%精度が向上する。

We present a next-generation neural network architecture, MOSAIC, for efficient and accurate semantic image segmentation on mobile devices. MOSAIC is designed using commonly supported neural operations by diverse mobile hardware platforms for flexible deployment across various mobile platforms. With a simple asymmetric encoder-decoder structure which consists of an efficient multi-scale context encoder and a light-weight hybrid decoder to recover spatial details from aggregated information, MOSAIC achieves new state-of-the-art performance while balancing accuracy and computational cost. Deployed on top of a tailored feature extraction backbone based on a searched classification network, MOSAIC achieves a 5% absolute accuracy gain surpassing the current industry standard MLPerf models and state-of-the-art architectures.
翻訳日:2021-12-23 14:39:42 公開日:2021-12-22
# 事前学習された言語モデルは、逆境ロバスト性に向けてどのように微調整されるべきか?

How Should Pre-Trained Language Models Be Fine-Tuned Towards Adversarial Robustness? ( http://arxiv.org/abs/2112.11668v1 )

ライセンス: Link先を確認
Xinhsuai Dong, Luu Anh Tuan, Min Lin, Shuicheng Yan, Hanwang Zhang(参考訳) 事前訓練された言語モデルの微調整は多くのNLP分野で大きな成功を収めている。 しかし、例えば、同義語のみを用いた単語置換攻撃は、BERTベースの感情分析モデルを簡単に騙すことができる。 本稿では,従来の微調整手法である対人訓練が,すでに訓練済みのモデルで捉えた汎用的・堅牢な言語的特徴を保たないという破滅的な忘れ込みに苦しむため,従来の微調整のシナリオに適合しないことを示す。 本稿では,情報理論の観点から,新しい対角的微調整法であるRobust Informative Fine-Tuning (RIFT)を提案する。 特に、RIFTは、微調整プロセス全体を通して事前訓練されたモデルから学習した特徴を維持するために客観的モデルを奨励する一方、従来のモデルでは初期化に事前訓練された重みのみを使用する。 実験結果から、RIFTは感情分析と自然言語推論という2つの一般的なNLPタスクにおいて、様々な事前訓練された言語モデルに対する異なる攻撃の下で、常に最先端の技術を向上していることが示された。

The fine-tuning of pre-trained language models has a great success in many NLP fields. Yet, it is strikingly vulnerable to adversarial examples, e.g., word substitution attacks using only synonyms can easily fool a BERT-based sentiment analysis model. In this paper, we demonstrate that adversarial training, the prevalent defense technique, does not directly fit a conventional fine-tuning scenario, because it suffers severely from catastrophic forgetting: failing to retain the generic and robust linguistic features that have already been captured by the pre-trained model. In this light, we propose Robust Informative Fine-Tuning (RIFT), a novel adversarial fine-tuning method from an information-theoreti cal perspective. In particular, RIFT encourages an objective model to retain the features learned from the pre-trained model throughout the entire fine-tuning process, whereas a conventional one only uses the pre-trained weights for initialization. Experimental results show that RIFT consistently outperforms the state-of-the-arts on two popular NLP tasks: sentiment analysis and natural language inference, under different attacks across various pre-trained language models.
翻訳日:2021-12-23 14:39:25 公開日:2021-12-22
# ソフトマックス政策のための代替政策勾配推定器

An Alternate Policy Gradient Estimator for Softmax Policies ( http://arxiv.org/abs/2112.11622v1 )

ライセンス: Link先を確認
Shivam Garg, Samuele Tosatto, Yangchen Pan, Martha White, A. Rupam Mahmood(参考訳) 政策勾配 (PG) のソフトマックス政策推定器は、密度が準最適作用に集中する場合に発生する、準最適飽和初期化には効果がない。 準最適政策飽和は、政策の初期化や政策が既に収束した後の環境の急激な変化から生じ、ソフトマックスPG推定器は効果的な政策を回復するために多数の更新を必要とする。 この深刻な問題は、サンプルの非効率性と新しい状況への適応性の低下を引き起こす。 そこで本研究では,政策パラメータ空間の飽和領域から逃れるために,批評家推定のバイアスと報酬信号に存在する雑音を利用するソフトマックス政策のための新しい政策勾配推定器を提案する。 バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。

Policy gradient (PG) estimators for softmax policies are ineffective with sub-optimally saturated initialization, which happens when the density concentrates on a sub-optimal action. Sub-optimal policy saturation may arise from bad policy initialization or sudden changes in the environment that occur after the policy has already converged, and softmax PG estimators require a large number of updates to recover an effective policy. This severe issue causes high sample inefficiency and poor adaptability to new situations. To mitigate this problem, we propose a novel policy gradient estimator for softmax policies that utilizes the bias in the critic estimate and the noise present in the reward signal to escape the saturated regions of the policy parameter space. Our analysis and experiments, conducted on bandits and classical MDP benchmarking tasks, show that our estimator is more robust to policy saturation.
翻訳日:2021-12-23 14:39:04 公開日:2021-12-22
# グラフ表現学習における近隣モデルと非対称性保存の検討

Investigating Neighborhood Modeling and Asymmetry Preservation in Digraph Representation Learning ( http://arxiv.org/abs/2112.11734v1 )

ライセンス: Link先を確認
Honglu Zhou, Advith Chegu, Samuel Sohn, Mubbasir Kapadia(参考訳) グラフニューラルネットワーク (gnns) は伝統的に有向グラフ (digraphs) の性能が低下している。 1)地区のモデリング 2)非対称性を保つ。 本稿では,多順序・分割地区からの双曲的協調学習と,社会心理学的要因に触発された正規化要因を活用することで,従来のGNNにおけるこれらの課題に対処する。 得られたフォーマリズムであるD-HYPR(Digraph Hyperbolic Network)は,実世界のダイグラフの構造的・意味的歪みを避けるために,双曲空間のノード表現を学習する。 リンク予測,ノード分類,サイン予測,埋め込み可視化の4つのタスクについて総合的な実験を行った。 D-HYPRは、ほとんどのタスクやデータセットにおいて、現在の技術よりも統計的に有意に優れており、他の方法では競争性能を達成している。 コードとデータは利用可能です。

Graph Neural Networks (GNNs) traditionally exhibit poor performance for directed graphs (digraphs) due to notable challenges in 1) modeling neighborhoods and 2) preserving asymmetry. In this paper, we address these challenges in traditional GNNs by leveraging hyperbolic collaborative learning from multi-ordered and partitioned neighborhoods, and regularizers inspired by socio-psychological factors. Our resulting formalism, Digraph Hyperbolic Network (D-HYPR) learns node representations in hyperbolic space to avoid structural and semantic distortion of real-world digraphs. We conduct comprehensive experimentation on 4 tasks: link prediction, node classification, sign prediction, and embedding visualization. D-HYPR statistically significantly outperforms the current state of the art on a majority of tasks and datasets, while achieving competitive performance otherwise. Our code and data will be available.
翻訳日:2021-12-23 14:38:49 公開日:2021-12-22
# (参考訳) 深層機械翻訳モデルのための共生ネットワークの合同学習 [全文訳有]

Joint-training on Symbiosis Networks for Deep Nueral Machine Translation models ( http://arxiv.org/abs/2112.11642v1 )

ライセンス: CC BY 4.0
Zhengzhe Yu, Jiaxin Guo, Minghan Wang, Daimeng Wei, Hengchao Shang, Zongyao Li, Zhanglin Wu, Yuxia Wang, Yimeng Chen, Chang Su, Min Zhang, Lizhi Lei, shimin tao and Hao Yang(参考訳) ディープエンコーダは、ニューラルマシン翻訳(nmt)システムの改善に有効であることが証明されているが、エンコーダ層数が18を超えると翻訳品質の上限に達する。 さらに悪いことに、深いネットワークは大量のメモリを消費し、効率的にトレーニングすることは不可能である。 本稿では,共生メインネットワーク(M-Net)としての完全なネットワークと,共生サブネットワーク(S-Net)と同じ構造を持つ共有サブネットワークを含む共生サブネットワークを提案する。 我々はTransformer-deep (m-n) アーキテクチャ上の共生ネットワークを採用し、NMT の M-Net と S-Net の間の特定の正規化損失 $\mathcal{L}_{\tau}$ を定義する。 The Symbiosis Networks に共同学習を適用し,M-Net の性能向上を目指す。 提案手法は,wmt'14 en->de,de->en,en->frタスクにおいて,基本値に対して0.61,0.49,0.69 bleu向上する。 さらに、Transformer-deep(12- 6)は、従来のTransformer-deep (18-6)よりも優れています。

Deep encoders have been proven to be effective in improving neural machine translation (NMT) systems, but it reaches the upper bound of translation quality when the number of encoder layers exceeds 18. Worse still, deeper networks consume a lot of memory, making it impossible to train efficiently. In this paper, we present Symbiosis Networks, which include a full network as the Symbiosis Main Network (M-Net) and another shared sub-network with the same structure but less layers as the Symbiotic Sub Network (S-Net). We adopt Symbiosis Networks on Transformer-deep (m-n) architecture and define a particular regularization loss $\mathcal{L}_{\tau}$ between the M-Net and S-Net in NMT. We apply joint-training on the Symbiosis Networks and aim to improve the M-Net performance. Our proposed training strategy improves Transformer-deep (12-6) by 0.61, 0.49 and 0.69 BLEU over the baselines under classic training on WMT'14 EN->DE, DE->EN and EN->FR tasks. Furthermore, our Transformer-deep (12-6) even outperforms classic Transformer-deep (18-6).
翻訳日:2021-12-23 14:36:34 公開日:2021-12-22
# (参考訳) 事前学習されたトランスフォーマによるクエリ中心の抽象テキスト要約のためのドメイン適応

Domain Adaptation with Pre-trained Transformers for Query Focused Abstractive Text Summarization ( http://arxiv.org/abs/2112.11670v1 )

ライセンス: CC BY 4.0
Md Tahmid Rahman Laskar, Enamul Hoque, Jimmy Xiangji Huang(参考訳) Query Focused Text Summarization (QFTS)タスクは、与えられたクエリに基づいてテキストドキュメントの要約を生成するシステムを構築することを目的としている。 この課題に対処する上で重要な課題は、要約モデルをトレーニングするための大きなラベル付きデータの不足である。 本稿では,一連のドメイン適応手法を探求することによって,この問題に対処する。 近年の自然言語処理タスクにおける事前学習されたトランスフォーマーモデルの成功を踏まえて,このようなモデルを用いて単一文書および複数文書シナリオのqftsタスクのための抽象要約を生成する。 ドメイン適応には、転送学習、弱い教師付き学習、遠方の監督など、事前学習されたトランスフォーマライズモデルを用いた様々な手法を適用する。 6つのデータセットを広範囲に実験した結果,提案手法はqftsタスクの抽象要約生成に非常に効果的であり,また,自動評価指標と人間評価指標のセットにまたがる複数のデータセットを新たに設定した。

The Query Focused Text Summarization (QFTS) task aims at building systems that generate the summary of the text document(s) based on the given query. A key challenge in addressing this task is the lack of large labeled data for training the summarization model. In this paper, we address this challenge by exploring a series of domain adaptation techniques. Given the recent success of pre-trained transformer models in a wide range of natural language processing tasks, we utilize such models to generate abstractive summaries for the QFTS task for both single-document and multi-document scenarios. For domain adaptation, we apply a variety of techniques using pre-trained transformer-based summarization models including transfer learning, weakly supervised learning, and distant supervision. Extensive experiments on six datasets show that our proposed approach is very effective in generating abstractive summaries for the QFTS task while setting a new state-of-the-art result in several datasets across a set of automatic and human evaluation metrics.
翻訳日:2021-12-23 14:27:09 公開日:2021-12-22
# (参考訳) 自然言語生成に関する調査

A Survey of Natural Language Generation ( http://arxiv.org/abs/2112.11739v1 )

ライセンス: CC BY 4.0
Chenhe Dong, Yinghui Li, Haifan Gong, Miaoxin Chen, Junxin Li, Ying Shen, Min Yang(参考訳) 本稿では,過去20年間の自然言語生成(nlg)研究について,特にデータからテキストへの生成とテキストからテキストへのディープラーニング手法,およびnlg技術の新たな応用について概観する。 この調査は (a)nlgコアタスクに関するディープラーニング研究の最新の合成と、この分野で採用されているアーキテクチャについて述べる。 b) 細部・包括的に異なるNLGタスク及びデータセットを詳述し、異なる評価方法とその関連性に着目して、NLG評価の課題に注意を向ける。 c) nlgとコンピュータビジョン、テキスト、計算創造性といった他の人工知能分野との相乗効果の増加によって生じる、将来的な強調と比較的最近の研究課題を強調する。

This paper offers a comprehensive review of the research on Natural Language Generation (NLG) over the past two decades, especially in relation to data-to-text generation and text-to-text generation deep learning methods, as well as new applications of NLG technology. This survey aims to (a) give the latest synthesis of deep learning research on the NLG core tasks, as well as the architectures adopted in the field; (b) detail meticulously and comprehensively various NLG tasks and datasets, and draw attention to the challenges in NLG evaluation, focusing on different evaluation methods and their relationships; (c) highlight some future emphasis and relatively recent research issues that arise due to the increasing synergy between NLG and other artificial intelligence areas, such as computer vision, text and computational creativity.
翻訳日:2021-12-23 14:25:51 公開日:2021-12-22
# 感情抽出のためのミームのマルチモーダル解析

Multimodal Analysis of memes for sentiment extraction ( http://arxiv.org/abs/2112.11850v1 )

ライセンス: Link先を確認
Nayan Varma Alluri, Neeli Dheeraj Krishna(参考訳) ミームは最もユビキタスなソーシャルメディアコミュニケーションの1つである。 本質的にマルチメディアであるミームの研究と処理は、現在一般的なトピックである。 この研究で提示された研究は、皮肉、コメディ、モチベーション、全体的な感情に基づいてミームを分類するmemotionデータセットに基づいている。 3つの革新的なトランスフォーマーベースの技術が開発され、その成果を徹底的にレビューし、最高のアルゴリズムは、ユーモア分類のマクロF1スコア0.633、モチベーション分類の0.55、サルカズム分類の0.61、ミーム全体の感情評価の0.575を達成した。

Memes are one of the most ubiquitous forms of social media communication. The study and processing of memes, which are intrinsically multimedia, is a popular topic right now. The study presented in this research is based on the Memotion dataset, which involves categorising memes based on irony, comedy, motivation, and overall-sentiment. Three separate innovative transformer-based techniques have been developed, and their outcomes have been thoroughly reviewed.The best algorithm achieved a macro F1 score of 0.633 for humour classification, 0.55 for motivation classification, 0.61 for sarcasm classification, and 0.575 for overall sentiment of the meme out of all our techniques.
翻訳日:2021-12-23 14:22:22 公開日:2021-12-22
# 会話における感情認識のためのハイブリッドカリキュラム学習

Hybrid Curriculum Learning for Emotion Recognition in Conversation ( http://arxiv.org/abs/2112.11718v1 )

ライセンス: Link先を確認
Lin Yang, Yi Shen, Yue Mao, Longjun Cai(参考訳) 会話における感情認識(ERC)は、発話毎に感情ラベルを検出することを目的としている。 近年の研究によって、トレーニング例を無作為に考慮するのではなく、有意義な順序で提供することで、モデルのパフォーマンスを向上できることが証明されている。 本フレームワークは,(1)会話レベルカリキュラム(CC)と(2)発話レベルカリキュラム(UC)の2つのカリキュラムから構成される。 CCでは,会話中の「感情シフト」頻度に基づいて難易度測定器を構築し,難易度測定器が返す難易度スコアに応じて,会話を「易易度」スキーマでスケジュールする。 UCの場合、感情の相似性の観点から実装され、混乱した感情を識別するモデルの能力を徐々に強化する。 提案するモデル非依存型ハイブリッドカリキュラム学習戦略により,既存のercモデルに対する大幅なパフォーマンス向上を観察し,4つの公開ercデータセットで新たな最先端結果を得ることができた。

Emotion recognition in conversation (ERC) aims to detect the emotion label for each utterance. Motivated by recent studies which have proven that feeding training examples in a meaningful order rather than considering them randomly can boost the performance of models, we propose an ERC-oriented hybrid curriculum learning framework. Our framework consists of two curricula: (1) conversation-level curriculum (CC); and (2) utterance-level curriculum (UC). In CC, we construct a difficulty measurer based on "emotion shift" frequency within a conversation, then the conversations are scheduled in an "easy to hard" schema according to the difficulty score returned by the difficulty measurer. For UC, it is implemented from an emotion-similarity perspective, which progressively strengthens the model's ability in identifying the confusing emotions. With the proposed model-agnostic hybrid curriculum learning strategy, we observe significant performance boosts over a wide range of existing ERC models and we are able to achieve new state-of-the-art results on four public ERC datasets.
翻訳日:2021-12-23 14:21:07 公開日:2021-12-22
# (参考訳) 投影スライスwasersteinオートエンコーダに基づくハイパースペクトル画像異常検出 [全文訳有]

Projected Sliced Wasserstein Autoencoder-based Hyperspectral Images Anomaly Detection ( http://arxiv.org/abs/2112.11243v2 )

ライセンス: CC BY 4.0
Yurong Chen, Hui Zhang, Yaonan Wang, Q. M. Jonathan Wu, Yimin Yang(参考訳) 異常検出(AD)は、様々な領域において活発な研究領域である。 しかし、データスケール、複雑さ、次元の増大は、従来の手法を難しいものにします。 近年,可変オートエンコーダ(vae)のような深層生成モデルが,広告問題に対する新たな関心を呼び起こしている。 しかし、正規化として使われる確率分布のばらつきは強すぎるため、モデルが真のデータの多様体を捉えることができない。 本稿では,投影スライスされたwaserstein (psw) オートエンコーダに基づく異常検出法を提案する。 最適な輸送手段で回転させると、PSW距離は$f$-divergenceに比べて分布が弱い。 特に、計算フレンドリーな固有分解法を利用して、高次元データをスライスする主成分を見つける。 この場合、ワッサーシュタイン距離は閉形式で計算できるが、事前分布はガウス分布ではない。 実世界の超スペクトル異常検出ベンチマークを用いた包括的実験は,提案手法の優れた性能を示す。

Anomaly detection (AD) has been an active research area in various domains. Yet, the increasing data scale, complexity, and dimension turn the traditional methods into challenging. Recently, the deep generative model, such as the variational autoencoder (VAE), has sparked a renewed interest in the AD problem. However, the probability distribution divergence used as the regularization is too strong, which causes the model cannot capture the manifold of the true data. In this paper, we propose the Projected Sliced Wasserstein (PSW) autoencoder-based anomaly detection method. Rooted in the optimal transportation, the PSW distance is a weaker distribution measure compared with $f$-divergence. In particular, the computation-friendly eigen-decomposition method is leveraged to find the principal component for slicing the high-dimensional data. In this case, the Wasserstein distance can be calculated with the closed-form, even the prior distribution is not Gaussian. Comprehensive experiments conducted on various real-world hyperspectral anomaly detection benchmarks demonstrate the superior performance of the proposed method.
翻訳日:2021-12-23 13:47:06 公開日:2021-12-22
# (参考訳) 都市地表面過程の機械学習エミュレーション [全文訳有]

Machine Learning Emulation of Urban Land Surface Processes ( http://arxiv.org/abs/2112.11429v2 )

ライセンス: CC BY 4.0
David Meyer, Sue Grimmond, Peter Dueben, Robin Hogan, Maarten van Reeuwijk(参考訳) 機械学習(ML)による都市地表面プロセスのモデル化を改善できるか? 都市地表面モデル(ULSM)の以前の比較では、すべての一般的な表面フラックスを予測するには、単一のモデルが「ベスト」ではないことがわかった。 そこで我々は,ある場所で22個のULSMから平均予測フラックスを学習した都市ニューラルネットワーク(UNN)を開発した。 UNNはULSMの平均出力を正確にエミュレートする。 基準ULSM (Town Energy Balance; TEB) と比較すると、UNNはフラックス観測と比較して精度が高く、計算コストも少なく、入力パラメータも少ない。 TensorFlowバインディングを用いたウェザーリサーチ予測(WRF)モデルと組み合わせると、WRF-UNNは基準のWRF-TEBよりも安定して正確である。 現在,本アプリケーションはトレーニングデータ(1サイト)によって制約されているが,複数のulsmsの強度をmlを用いて1つに組み合わせることで,表面フラックスのモデリングを改善する新しい手法を示す。

Can we improve the modeling of urban land surface processes with machine learning (ML)? A prior comparison of urban land surface models (ULSMs) found that no single model is 'best' at predicting all common surface fluxes. Here, we develop an urban neural network (UNN) trained on the mean predicted fluxes from 22 ULSMs at one site. The UNN emulates the mean output of ULSMs accurately. When compared to a reference ULSM (Town Energy Balance; TEB), the UNN has greater accuracy relative to flux observations, less computational cost, and requires fewer input parameters. When coupled to the Weather Research Forecasting (WRF) model using TensorFlow bindings, WRF-UNN is stable and more accurate than the reference WRF-TEB. Although the application is currently constrained by the training data (1 site), we show a novel approach to improve the modeling of surface fluxes by combining the strengths of several ULSMs into one using ML.
翻訳日:2021-12-23 13:23:36 公開日:2021-12-22
# 低分解能リカバリとノイズアウェアアップサンプリングによる高忠実度ポイントクラウド補完

High-Fidelity Point Cloud Completion with Low-Resolution Recovery and Noise-Aware Upsampling ( http://arxiv.org/abs/2112.11271v2 )

ライセンス: Link先を確認
Ren-Wu Li, Bo Wang, Chun-Peng Li, Ling-Xiao Zhang and Lin Gao(参考訳) 非順序部分点クラウドの完了は難しい作業です。 完全な形状を回復するために潜在機能のデコードに依存する既存のアプローチは、しばしば完了したポイントクラウドが過度に滑らかになり、詳細が失われ、うるさい。 まず,全形状をデコードする代わりに,まず低解像度(低解像度)ポイントクラウドをデコードし,精錬し,その後,スパースポイントクラウド全体を一度に補間するのではなく,パッチ単位でノイズアウェアアップサンプリングを行うことを提案する。 初期復号化低res点雲の詳細が欠落する可能性について,幾何的詳細を復元するための反復改良法と,入力部分点雲から信頼できる情報を保存するための対称性化法を提案する。 スパースかつ完全なポイントクラウドを得た後,パッチによるアップサンプリング戦略を提案する。 パッチベースのアップサンプリングは、全体形状をデコードするのとは違い、細部をより正確に復元することができるが、既存のアップサンプリング手法はデータの差による完了タスクには適用できない(つまり、ここで入力されるスパースデータは、地上からではない)。 そこで本研究では,スパース点と接地トラス点の雲間のトレーニングパッチペアを生成するパッチ抽出手法と,スパース点の雲からのノイズを抑えるアウトリー除去ステップを提案する。 低解像度のリカバリと合わせて、全メソッドが高忠実度ポイントクラウドコンプリートを実現します。 提案手法とその個別成分の有効性を示すため,包括的評価を行った。

Completing an unordered partial point cloud is a challenging task. Existing approaches that rely on decoding a latent feature to recover the complete shape, often lead to the completed point cloud being over-smoothing, losing details, and noisy. Instead of decoding a whole shape, we propose to decode and refine a low-resolution (low-res) point cloud first, and then performs a patch-wise noise-aware upsampling rather than interpolating the whole sparse point cloud at once, which tends to lose details. Regarding the possibility of lacking details of the initially decoded low-res point cloud, we propose an iterative refinement to recover the geometric details and a symmetrization process to preserve the trustworthy information from the input partial point cloud. After obtaining a sparse and complete point cloud, we propose a patch-wise upsampling strategy. Patch-based upsampling allows to better recover fine details unlike decoding a whole shape, however, the existing upsampling methods are not applicable to completion task due to the data discrepancy (i.e., input sparse data here is not from ground-truth). Therefore, we propose a patch extraction approach to generate training patch pairs between the sparse and ground-truth point clouds, and an outlier removal step to suppress the noisy points from the sparse point cloud. Together with the low-res recovery, our whole method is able to achieve high-fidelity point cloud completion. Comprehensive evaluations are provided to demonstrate the effectiveness of the proposed method and its individual components.
翻訳日:2021-12-23 12:52:10 公開日:2021-12-22
# ビュー補間に基づくマルチユーザ指向ライブ自由視点ビデオストリーミングシステム

A Multi-user Oriented Live Free-viewpoint Video Streaming System Based On View Interpolation ( http://arxiv.org/abs/2112.10603v2 )

ライセンス: Link先を確認
Jingchuan Hu, Shuai Guo, Kai Zhou, Yu Dong, Jun Xu and Li Song(参考訳) 没入型マルチメディアサービスの重要な応用形態として、fvv(free-viewpoint video)は強力なインタラクションによって没入型体験をユーザに提供する。 しかし、仮想ビュー合成アルゴリズムの計算複雑性は、FVVシステムのリアルタイム性能に重大な課題をもたらす。 さらに、ユーザインタラクションの個性は、従来のアーキテクチャのシステムに対して、複数のユーザを同時に提供するのを困難にしている。 本稿では,CNNを用いた高密度仮想ビューをリアルタイムに合成するビュー補間アルゴリズムを提案する。 これに基づいて,マルチユーザ指向のストリーミング戦略を備えた,エンドツーエンドのライブビューポイントシステムを構築した。 本システムでは,クライアント側で大規模なビュー合成負荷を発生させることなく,単一エッジサーバを複数のユーザに対して同時に提供することが可能である。 システム全体を解析し、私たちのアプローチが視覚的品質とレイテンシの両方の観点から、ユーザに対して快適な没入感を与えることを示す。

As an important application form of immersive multimedia services, free-viewpoint video(FVV) enables users with great immersive experience by strong interaction. However, the computational complexity of virtual view synthesis algorithms poses a significant challenge to the real-time performance of an FVV system. Furthermore, the individuality of user interaction makes it difficult to serve multiple users simultaneously for a system with conventional architecture. In this paper, we novelly introduce a CNN-based view interpolation algorithm to synthesis dense virtual views in real time. Based on this, we also build an end-to-end live free-viewpoint system with a multi-user oriented streaming strategy. Our system can utilize a single edge server to serve multiple users at the same time without having to bring a large view synthesis load on the client side. We analyze the whole system and show that our approaches give the user a pleasant immersive experience, in terms of both visual quality and latency.
翻訳日:2021-12-23 12:51:42 公開日:2021-12-22
# ディープニューラルネットワークを用いたマルチゴール指向二重重み付き残差誤差推定

Multigoal-oriented dual-weighted-residu al error estimation using deep neural networks ( http://arxiv.org/abs/2112.11360v2 )

ライセンス: Link先を確認
Ayan Chakraborty, Thomas Wick, Xiaoying Zhuang, Timon Rabczuk(参考訳) ディープラーニングは、視覚認識と特定の人工知能タスクに成功している。 ディープラーニングは、関数を近似する柔軟性の高い強力なツールだと考えられている。 本研究では,PDEの解を近似するために,所望の特性を持つ関数を考案した。 本手法は,ニューラルネットワークの枠組み内で誤差推定器を定式化するために,誤差の局所化に付随する問題を解いた後続誤差推定法に基づく。 ニューラルネットワークを用いた予備解と随伴解の両方を計算した2重重み付き残差法を用いて,複数目標関数の後方誤差推定を行うための効率的で実装が容易なアルゴリズムを開発した。 本研究では,このようなデータ駆動型モデルに基づく学習は,比較的少ないトレーニングデータであっても,興味量の近似が優れていることを示す。 新たなアルゴリズム開発は数値テスト例で実証されている。 浅層ニューラルネットワーク上での深部ニューラルネットワークの利点を実証し,収束促進技術についても述べる。

Deep learning has shown successful application in visual recognition and certain artificial intelligence tasks. Deep learning is also considered as a powerful tool with high flexibility to approximate functions. In the present work, functions with desired properties are devised to approximate the solutions of PDEs. Our approach is based on a posteriori error estimation in which the adjoint problem is solved for the error localization to formulate an error estimator within the framework of neural network. An efficient and easy to implement algorithm is developed to obtain a posteriori error estimate for multiple goal functionals by employing the dual-weighted residual approach, which is followed by the computation of both primal and adjoint solutions using the neural network. The present study shows that such a data-driven model based learning has superior approximation of quantities of interest even with relatively less training data. The novel algorithmic developments are substantiated with numerical test examples. The advantages of using deep neural network over the shallow neural network are demonstrated and the convergence enhancing techniques are also presented
翻訳日:2021-12-23 12:51:28 公開日:2021-12-22
# (参考訳) PrimSeq: リハビリテーショントレーニングを定量化するディープラーニングベースのパイプライン

PrimSeq: a deep learning-based pipeline to quantitate rehabilitation training ( http://arxiv.org/abs/2112.11330v2 )

ライセンス: CC BY 4.0
Avinash Parnandi, Aakash Kaku, Anita Venkatesan, Natasha Pandit, Audre Wirtanen, Haresh Rajamohan, Kannan Venkataramanan, Dawn Nilsen, Carlos Fernandez-Granda, Heidi Schambra(参考訳) 脳卒中リハビリテーションは、機能運動を繰り返し実践することで神経可塑性を増大させようとするが、繰り返しの不足のため回復にはほとんど影響を与えない可能性がある。 最適なトレーニング内容と量は現在不明であり、測定する実用的なツールが存在しない。 ここでは,脳卒中リハビリテーション訓練中の機能動作の分類とカウントを行うパイプラインであるprimseqを提案する。 このアプローチでは、上半身の動きをキャプチャするウェアラブルセンサー、動きのシーケンスを予測するディープラーニングモデル、動きを集計するアルゴリズムを統合している。 訓練されたモデルは、リハビリテーション活動を正確にコンポーネント機能動作に分解し、競争力のある機械学習手法を上回る。 PrimSeqはさらに、人間の専門家の時間と労働コストのごく一部でこれらの動きを定量化している。 上肢運動障害の既往歴のない脳卒中患者のPrimSeqの有用性について検討した。 脳卒中リハビリテーションにおける定量的検査に必要な厳密な測定を支援することが期待されている。

Stroke rehabilitation seeks to increase neuroplasticity through the repeated practice of functional motions, but may have minimal impact on recovery because of insufficient repetitions. The optimal training content and quantity are currently unknown because no practical tools exist to measure them. Here, we present PrimSeq, a pipeline to classify and count functional motions trained in stroke rehabilitation. Our approach integrates wearable sensors to capture upper-body motion, a deep learning model to predict motion sequences, and an algorithm to tally motions. The trained model accurately decomposes rehabilitation activities into component functional motions, outperforming competitive machine learning methods. PrimSeq furthermore quantifies these motions at a fraction of the time and labor costs of human experts. We demonstrate the capabilities of PrimSeq in previously unseen stroke patients with a range of upper extremity motor impairment. We expect that these advances will support the rigorous measurement required for quantitative dosing trials in stroke rehabilitation.
翻訳日:2021-12-23 12:42:26 公開日:2021-12-22
# 安定な時間保証による最適政策最適化

Nearly Optimal Policy Optimization with Stable at Any Time Guarantee ( http://arxiv.org/abs/2112.10935v2 )

ライセンス: Link先を確認
Tianhao Wu, Yunchang Yang, Han Zhong, Liwei Wang, Simon S. Du, Jiantao Jiao(参考訳) ポリシー最適化手法は強化学習(RL)アルゴリズムの最も広く使われているクラスの一つである。 しかし、これらの方法の理論的理解は不十分である。 表層的な(時間的不均一な)表層設定でさえ、政策に基づく方法の最先端理論的な結果が \citet{shani2020optimistic} においてのみ$\tilde{O}(\sqrt{S^2AH^4K})$である場合、$S$は状態の数、$A$は行動の数、$H$は地平線、$K$はエピソード数、$\sqrt{SH}$は情報理論上の下限である$\tilde{\Omega}(\sqrt{SAH^3K})$である。 このようなギャップを埋めるため,我々は,"いつでも安定"特性を特徴とする,常に安定な参照型ポリシー最適化(\algnameacro)を提案する。 我々のアルゴリズムが $\tilde{O}(\sqrt{SAH^3K} + \sqrt{AH^4K})$ regret を達成することを証明している。 S > H$ の場合,アルゴリズムは対数因子を無視する場合に最適である。 我々の知る限り、RPO-SATは表形式RLのための計算効率が良く、ほぼ最小限のポリシーベースのアルゴリズムである。

Policy optimization methods are one of the most widely used classes of Reinforcement Learning (RL) algorithms. However, theoretical understanding of these methods remains insufficient. Even in the episodic (time-inhomogeneous) tabular setting, the state-of-the-art theoretical result of policy-based method in \citet{shani2020optimistic} is only $\tilde{O}(\sqrt{S^2AH^4K})$ where $S$ is the number of states, $A$ is the number of actions, $H$ is the horizon, and $K$ is the number of episodes, and there is a $\sqrt{SH}$ gap compared with the information theoretic lower bound $\tilde{\Omega}(\sqrt{SAH^3K})$. To bridge such a gap, we propose a novel algorithm Reference-based Policy Optimization with Stable at Any Time guarantee (\algnameacro), which features the property "Stable at Any Time". We prove that our algorithm achieves $\tilde{O}(\sqrt{SAH^3K} + \sqrt{AH^4K})$ regret. When $S > H$, our algorithm is minimax optimal when ignoring logarithmic factors. To our best knowledge, RPO-SAT is the first computationally efficient, nearly minimax optimal policy-based algorithm for tabular RL.
翻訳日:2021-12-23 12:39:30 公開日:2021-12-22
# aiシステムのスコープと説明可能性

Scope and Sense of Explainability for AI-Systems ( http://arxiv.org/abs/2112.10551v2 )

ライセンス: Link先を確認
A.-M. Leventi-Peetz, T. \"Ostreich, W. Lennartz, K. Weber(参考訳) AIシステムの説明可能性の特定の側面について、批判的に議論する。 これは特に、すべてのAIシステムを説明可能にするタスクの実現性に重点を置いている。 原因と効果の古典的な論理スキームに矛盾する決定を下す、高度に複雑で効率的なaiシステムの説明可能性に関する困難さに重点が置かれる。 AIシステムは、独創的(例えばAlphaGoのゲーム2の37の移動)として特徴付けられる非知的なソリューションを確実に提供してきた。 AIソリューションが完全に理解できないため、事前に破棄されるならば、インテリジェントシステムの可能性の大部分は無駄になる、という考えを支持する議論を詳しく説明する。

Certain aspects of the explainability of AI systems will be critically discussed. This especially with focus on the feasibility of the task of making every AI system explainable. Emphasis will be given to difficulties related to the explainability of highly complex and efficient AI systems which deliver decisions whose explanation defies classical logical schemes of cause and effect. AI systems have provably delivered unintelligible solutions which in retrospect were characterized as ingenious (for example move 37 of the game 2 of AlphaGo). It will be elaborated on arguments supporting the notion that if AI-solutions were to be discarded in advance because of their not being thoroughly comprehensible, a great deal of the potentiality of intelligent systems would be wasted.
翻訳日:2021-12-23 12:38:55 公開日:2021-12-22
# GLIDE:テキスト誘導拡散モデルによるフォトリアリスティック画像生成と編集を目指して

GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models ( http://arxiv.org/abs/2112.10741v2 )

ライセンス: Link先を確認
Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, Mark Chen(参考訳) 拡散モデルは最近、多様性と忠実性をトレードオフするガイダンス技術と組み合わせることで、高品質な合成画像を生成することが示されている。 テキスト条件画像合成問題に対する拡散モデルを検討し,クリップ指導と分類子なし指導の2つの異なる指導戦略を比較した。 後者は、フォトリアリズムとキャプションの類似性の両方において人間の評価者によって好まれており、しばしばフォトリアリズムのサンプルを生成する。 分類器フリーガイダンスを用いた35億のパラメータテキスト条件拡散モデルからのサンプルは、高価なCLIPの再評価を用いた場合であっても、DALL-Eからの評価者によって好まれる。 さらに, 私たちのモデルでは, 画像インペインティングを微調整し, 強力なテキスト駆動画像編集を可能にする。 フィルタリングデータセット上に小さなモデルをトレーニングし、https://github.com/o penai/glide-text2imでコードと重みをリリースします。

Diffusion models have recently been shown to generate high-quality synthetic images, especially when paired with a guidance technique to trade off diversity for fidelity. We explore diffusion models for the problem of text-conditional image synthesis and compare two different guidance strategies: CLIP guidance and classifier-free guidance. We find that the latter is preferred by human evaluators for both photorealism and caption similarity, and often produces photorealistic samples. Samples from a 3.5 billion parameter text-conditional diffusion model using classifier-free guidance are favored by human evaluators to those from DALL-E, even when the latter uses expensive CLIP reranking. Additionally, we find that our models can be fine-tuned to perform image inpainting, enabling powerful text-driven image editing. We train a smaller model on a filtered dataset and release the code and weights at https://github.com/o penai/glide-text2im.
翻訳日:2021-12-23 12:38:44 公開日:2021-12-22
# 深層学習に基づく森林バイオマス推定のための3次元点雲回帰

Deep Learning Based 3D Point Cloud Regression for Estimating Forest Biomass ( http://arxiv.org/abs/2112.11335v2 )

ライセンス: Link先を確認
Stefan Oehmcke, Lei Li, Jaime Revenga, Thomas Nord-Larsen, Katerina Trepekli, Fabian Gieseke, Christian Igel(参考訳) 森林バイオマス資源の知識とその開発は、効果的な気候変動対策を実施する上で重要である。 af-、re-、deforestationを駆動するプロセスを研究するために必要であり、炭素測定の前提条件である。 空中ライダーを用いたリモートセンシングは、植生のバイオマスを大規模に測定するために使用できる。 本研究では,3dlidar point cloudデータから木材量,地上バイオマス(agb)および炭素を直接予測する深層学習システムを提案する。 我々は、点雲回帰のための異なるニューラルネットワークアーキテクチャを考案し、それらを、国有林在庫のフィールド計測からAGB推定値を得た地域のリモートセンシングデータに基づいて評価する。 我々の回帰に対するミンコフスキー畳み込みニューラルネットワークの適応は最良の結果をもたらした。 深層ニューラルネットワークは、ポイント雲の基本統計に基づく最先端のアプローチと比較して、木量、agb、炭素の推定がかなり正確であり、この発見はlidarに基づく地球生態系のダイナミクス解析に大きな影響を与えると期待されている。

Knowledge of forest biomass stocks and their development is important for implementing effective climate change mitigation measures. It is needed for studying the processes driving af-, re-, and deforestation and is a prerequisite for carbon-accounting. Remote sensing using airborne LiDAR can be used to measure vegetation biomass at large scale. We present deep learning systems for predicting wood volume, above-ground biomass (AGB), and subsequently carbon directly from 3D LiDAR point cloud data. We devise different neural network architectures for point cloud regression and evaluate them on remote sensing data of areas for which AGB estimates have been obtained from field measurements in a national forest inventory. Our adaptation of Minkowski convolutional neural networks for regression gave the best results. The deep neural networks produced significantly more accurate wood volume, AGB, and carbon estimates compared to state-of-the-art approaches operating on basic statistics of the point clouds, and we expect this finding to have a strong impact on LiDAR-based analyses of terrestrial ecosystem dynamics.
翻訳日:2021-12-23 12:38:26 公開日:2021-12-22
# 線形時間不変力学系の連成学習

Joint Learning of Linear Time-Invariant Dynamical Systems ( http://arxiv.org/abs/2112.10955v2 )

ライセンス: Link先を確認
Aditya Modi, Mohamad Kazem Shirani Faradonbeh, Ambuj Tewari, George Michailidis(参考訳) 線形時間不変力学系(LTIDS)のパラメータを学習することは、現在の関心の問題である。 多くの応用において、複数の関連するLTIDSのパラメータを共同で学習することに興味がある。 そこで我々は,共通基底行列を共有するLTIDSの遷移行列を学習するための共同推定器を開発した。 さらに, サンプルサイズ, 寸法, タスク数, および遷移行列のスペクトル特性に依存する有限時間誤差境界を定式化する。 結果は,軽度正規性仮定のもとに得られ,ltid間の情報プールによる利益を示すとともに,各システムを個別に学習することと比較した。 また, 遷移行列の接合構造を誤特定する影響について検討し, 確立された結果が中等度なミス種別の存在下で堅牢であることを示す。

Learning the parameters of a linear time-invariant dynamical system (LTIDS) is a problem of current interest. In many applications, one is interested in jointly learning the parameters of multiple related LTIDS, which remains unexplored to date. To that end, we develop a joint estimator for learning the transition matrices of LTIDS that share common basis matrices. Further, we establish finite-time error bounds that depend on the underlying sample size, dimension, number of tasks, and spectral properties of the transition matrices. The results are obtained under mild regularity assumptions and showcase the gains from pooling information across LTIDS, in comparison to learning each system separately. We also study the impact of misspecifying the joint structure of the transition matrices and show that the established results are robust in the presence of moderate misspecifications.
翻訳日:2021-12-23 12:38:08 公開日:2021-12-22
# 部分ラベルを用いたマルチラベル認識のための構造的意味伝達

Structured Semantic Transfer for Multi-Label Recognition with Partial Labels ( http://arxiv.org/abs/2112.10941v2 )

ライセンス: Link先を確認
Tianshui Chen, Tao Pu, Hefeng Wu, Yuan Xie, Liang Lin(参考訳) 実世界の画像は本質的に複数のセマンティックラベルを持っているため、マルチラベル画像認識は基本的な作業である。 しかし,入力画像と出力ラベル空間の複雑さのため,大規模なマルチラベルアノテーションの収集は困難である。 アノテーションのコストを削減すべく,部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化セマンティックトランスファー(SST)フレームワークを提案する。 このフレームワークは2つの相補的なトランスファーモジュールから構成されており、インテリアイメージとクロスイメージセマンティック相関を探索し、既知のラベルの知識を伝達し、未知のラベルの擬似ラベルを生成する。 具体的には、画像内意味伝達モジュールが画像固有のラベル共起行列を学習し、既知のラベルをこの行列に基づいて未知のラベルを補完するためにマッピングする。 一方、クロスイメージ転送モジュールはカテゴリ固有の特徴類似性を学習し、未知のラベルを高い類似度で補完する。 最後に、既知のラベルと生成されたラベルは、マルチラベル認識モデルのトレーニングに使用される。 Microsoft COCO、Visual Genome、Pascal VOCデータセットに対する大規模な実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。 コードはhttps://github.com/H CPLab-SYSU/HCP-MLR-P Lで公開されている。

Multi-label image recognition is a fundamental yet practical task because real-world images inherently possess multiple semantic labels. However, it is difficult to collect large-scale multi-label annotations due to the complexity of both the input images and output label spaces. To reduce the annotation cost, we propose a structured semantic transfer (SST) framework that enables training multi-label recognition models with partial labels, i.e., merely some labels are known while other labels are missing (also called unknown labels) per image. The framework consists of two complementary transfer modules that explore within-image and cross-image semantic correlations to transfer knowledge of known labels to generate pseudo labels for unknown labels. Specifically, an intra-image semantic transfer module learns image-specific label co-occurrence matrix and maps the known labels to complement unknown labels based on this matrix. Meanwhile, a cross-image transfer module learns category-specific feature similarities and helps complement unknown labels with high similarities. Finally, both known and generated labels are used to train the multi-label recognition models. Extensive experiments on the Microsoft COCO, Visual Genome and Pascal VOC datasets show that the proposed SST framework obtains superior performance over current state-of-the-art algorithms. Codes are available at https://github.com/H CPLab-SYSU/HCP-MLR-P L.
翻訳日:2021-12-23 12:37:54 公開日:2021-12-22
# ディエンス予測のための対話型バックプロパゲーションの一般化

Generalizing Interactive Backpropagating Refinement for Dense Prediction ( http://arxiv.org/abs/2112.10969v2 )

ライセンス: Link先を確認
Fanqing Lin, Brian Price, Tony Martinez(参考訳) ディープニューラルネットワークがコンピュータビジョンの密集した予測タスクの分野で最先端のアプローチとなるにつれて、視覚入力からターゲット出力を自動的に推定する手法が数多く開発されている。 提案手法の精度は改善され続けているが,さらなる修正には対話的精細化がしばしば必要である。 近年,対話型セグメンテーションにおいて,事前学習ネットワークに挿入された補助変数の小さなセットを効率よく最適化し,ユーザ入力に適合したオブジェクトセグメンテーションを実現するための機能バックプロパゲーション改善スキーム (f-BRS) が提案されている。 しかし,提案する補助変数はチャネル単位のスケールとバイアスのみを含み,最適化はグローバルリファインメントのみに制限される。 本研究は,多種多様な密接な予測タスクのバックプロパゲーション改善を一般化するために,対話的セグメンテーション,セマンティックセグメンテーション,画像マッチング,モノクロ深度推定という,グローバルおよびローカライズされた各タスクの洗練を可能にするG-BRS(Generalized Backproagating Refinement Scheme)層を導入する。 SBD,Cityscapes,Mapil lary Vista,Compose-1k,NYU -Depth-V2の実験結果から,既存の事前学習モデルの性能を数クリックで向上できることが示された。

As deep neural networks become the state-of-the-art approach in the field of computer vision for dense prediction tasks, many methods have been developed for automatic estimation of the target outputs given the visual inputs. Although the estimation accuracy of the proposed automatic methods continues to improve, interactive refinement is oftentimes necessary for further correction. Recently, feature backpropagating refinement scheme (f-BRS) has been proposed for the task of interactive segmentation, which enables efficient optimization of a small set of auxiliary variables inserted into the pretrained network to produce object segmentation that better aligns with user inputs. However, the proposed auxiliary variables only contain channel-wise scale and bias, limiting the optimization to global refinement only. In this work, in order to generalize backpropagating refinement for a wide range of dense prediction tasks, we introduce a set of G-BRS (Generalized Backpropagating Refinement Scheme) layers that enable both global and localized refinement for the following tasks: interactive segmentation, semantic segmentation, image matting and monocular depth estimation. Experiments on SBD, Cityscapes, Mapillary Vista, Composition-1k and NYU-Depth-V2 show that our method can successfully generalize and significantly improve performance of existing pretrained state-of-the-art models with only a few clicks.
翻訳日:2021-12-23 12:37:32 公開日:2021-12-22