このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220119となっている論文です。

PDF登録状況(公開日: 20220119)

TitleAuthorsAbstract論文公表日・翻訳日
# 人工知能を利用した材料検索エンジン

Artificial Intelligence Powered Material Search Engine ( http://arxiv.org/abs/2202.01916v1 )

ライセンス: Link先を確認
Mohendra Roy(参考訳) 近年の人工知能(AI)の進歩により、物質科学における多くのデータ駆動型応用が可能となった。 物質工学におけるAIの利用は、X線回折、様々な分光法、顕微鏡データなどの材料データの数が増加するにつれて、ますます現実的になりつつある。 本研究では,X線回折の原子間空間(d値)を用いて物質情報を提供する物質検索エンジンについて報告する。 x線回折データを用いた予測材料予測手法の検討を行った。 我々はランダムフォレスト、ネイブベイズ(ガウシアン)、ニューラルネットワークアルゴリズムを用いてこれを実現した。 これらのアルゴリズムの平均精度は88.50\%、100.0\%、88.89\%である。 最後に、これらのテクニックをアンサンブルアプローチと組み合わせて、予測をより一般的なものにした。 このアンサンブル法は精度が約100\%である。 さらに,解釈性と精度を向上させるために,グラフニューラルネットワーク(gnn)ベースのアーキテクチャを設計する。 そこで我々は,従来の辞書ベース・メタデータベース・マテリアル検索エンジンの計算と時間の複雑さを解消し,より汎用的な予測を行う。

Many data-driven applications in material science have been made possible because of recent breakthroughs in artificial intelligence(AI). The use of AI in material engineering is becoming more viable as the number of material data such as X-Ray diffraction, various spectroscopy, and microscope data grows. In this work, we have reported a material search engine that uses the interatomic space (d value) from X-ray diffraction to provide material information. We have investigated various techniques for predicting prospective material using X-ray diffraction data. We used the Random Forest, Naive Bayes (Gaussian), and Neural Network algorithms to achieve this. These algorithms have an average accuracy of 88.50\%, 100.0\%, and 88.89\%, respectively. Finally, we combined all these techniques into an ensemble approach to make the prediction more generic. This ensemble method has a ~100\% accuracy rate. Furthermore, we are designing a graph neural network (GNN)-based architecture to improve interpretability and accuracy. Thus, we want to solve the computational and time complexity of traditional dictionary-based and metadata-based material search engines and to provide a more generic prediction.
翻訳日:2022-02-13 14:53:34 公開日:2022-01-19
# ニュースセンチメント分析とSparkにおける技術指標を用いた株価動向予測

Predicting The Stock Trend Using News Sentiment Analysis and Technical Indicators in Spark ( http://arxiv.org/abs/2201.12283v1 )

ライセンス: Link先を確認
Taylan Kabbani (1 and 2), Fatih Enes Usta (3) ((1) Ozyegin University, (2) Huawei Turkey R&D Center, (3) Marmara University)(参考訳) 株式市場の動向を予測することは、その動きが多くの要因に影響されて以来、常に困難だった。 ここでは,明日_trend機能をラベルとして作成することにより,今後のトレンド予測問題を機械学習分類問題としてアプローチする。 機械学習モデルは、その日のラベルを予測するのに役立つように、異なる特徴が与えられている。 さらに、金融ニュースが投資家の行動を変える上で重要な役割を果たすため、その日のすべてのニュースから、その日の総合的な感情スコアが作成され、別の機能としてモデルに追加される。 Spark(ビッグデータコンピューティングプラットフォーム)、Logistic Regression、Random Forest、Gradient Boosting Machineの3つの異なる機械学習モデルがテストされている。 ランダムフォレストが63.58%の精度でベストパフォーマンスモデルであった。

Predicting the stock market trend has always been challenging since its movement is affected by many factors. Here, we approach the future trend prediction problem as a machine learning classification problem by creating tomorrow_trend feature as our label to be predicted. Different features are given to help the machine learning model predict the label of a given day; whether it is an uptrend or downtrend, those features are technical indicators generated from the stock's price history. In addition, as financial news plays a vital role in changing the investor's behavior, the overall sentiment score on a given day is created from all news released on that day and added to the model as another feature. Three different machine learning models are tested in Spark (big-data computing platform), Logistic Regression, Random Forest, and Gradient Boosting Machine. Random Forest was the best performing model with a 63.58% test accuracy.
翻訳日:2022-02-06 09:00:14 公開日:2022-01-19
# ダイナミックピックアップとデリバリ問題ベンチマークの紹介 -ICAPS 2021 コンペティション

Introduction to The Dynamic Pickup and Delivery Problem Benchmark -- ICAPS 2021 Competition ( http://arxiv.org/abs/2202.01256v1 )

ライセンス: Link先を確認
Jianye Hao, Jiawen Lu, Xijun Li, Xialiang Tong, Xiang Xiang, Mingxuan Yuan and Hankz Hankui Zhuo(参考訳) 動的ピックアップ・デリバリ問題(DPDP)は物流領域において不可欠な問題である。 これまでのところ、この問題の研究は主に実世界の問題の複雑さを反映しない人工データの利用に焦点を当てている。 このドラフトでは、実際のビジネスシナリオからの新しいベンチマークと、動的評価をサポートするシミュレータを導入したいと思います。 ベンチマークとシミュレータは152チームによるicps 2021のダイナミックピックアップとデリバリの問題コンペティションを成功裏にサポートした。

The Dynamic Pickup and Delivery Problem (DPDP) is an essential problem within the logistics domain. So far, research on this problem has mainly focused on using artificial data which fails to reflect the complexity of real-world problems. In this draft, we would like to introduce a new benchmark from real business scenarios as well as a simulator supporting the dynamic evaluation. The benchmark and simulator have been published and successfully supported the ICAPS 2021 Dynamic Pickup and Delivery Problem competition participated by 152 teams.
翻訳日:2022-02-06 08:32:28 公開日:2022-01-19
# (参考訳) CNNと教師なし学習を用いた南アメリカの山火事のマルチスペクトル衛星画像解析 [全文訳有]

Analyzing Multispectral Satellite Imagery of South American Wildfires Using CNNs and Unsupervised Learning ( http://arxiv.org/abs/2201.09671v1 )

ライセンス: CC BY 4.0
Christopher Sun(参考訳) アマゾン熱帯雨林では深刻な干ばつが頻繁に発生し乾季が長くなるため、活発な山火事に迅速に対応し、消火不能になる前に予測することが重要である。 コンピュータビジョンの研究者は、大規模なデータベースにアルゴリズムを適用して山火事を自動的に検出したが、現在のモデルは計算コストが高く、南米の低技術環境に十分適用できない。 この総合的なディープラーニングの研究は、まず、エクアドルとガラパゴスのマルチスペクトルランドサット8画像にスキップ接続を持つ完全畳み込みニューラルネットワークを訓練する。 このモデルは、緑と短波の赤外線帯域を入力として、各画像の対応するピクセルレベルの2値火炎マスクを予測する。 このモデルは、ガイアナとスリナムのテストデータで0.962バリデーションf2スコアと0.932f2スコアを達成する。 その後、K-Means Clusteringを用いてCirrus Cloudバンド上で画像セグメンテーションを行い、連続画素値をシラス雲汚染度を表す3つの離散クラスに単純化する。 さらに2つの畳み込みニューラルネットワークを訓練して、これらの分割されたサイラス画像を用いて、土地のパッチ内の野火の存在を分類する。 セグメンテーション入力で訓練された「実験」モデルは、96.5%の精度を達成し、セグメンテーション入力が与えられない「制御モデル」よりも滑らかな学習曲線を持つ。 この概念実証は、機能単純化によってワイルドファイア検出モデルの性能が向上することを示している。 この研究で開発されたソフトウェアは、南アメリカの山火事の早期かつ正確な検出に有用である。

Since severe droughts are occurring more frequently and lengthening the dry season in the Amazon Rainforest, it is important to respond to active wildfires promptly and to forecast them before they become inextinguishable. Though computer vision researchers have applied algorithms on large databases to automatically detect wildfires, current models are computationally expensive and are not versatile enough for the low technology conditions of regions in South America. This comprehensive deep learning study first trains a Fully Convolutional Neural Network with skip connections on multispectral Landsat 8 images of Ecuador and the Galapagos. The model uses Green and Short-wave Infrared bands as inputs to predict each image's corresponding pixel-level binary fire mask. This model achieves a 0.962 validation F2 score and a 0.932 F2 score on test data from Guyana and Suriname. Afterward, image segmentation is conducted on the Cirrus Cloud band using K-Means Clustering to simplify continuous pixel values into three discrete classes representing the degree of cirrus cloud contamination. Two additional Convolutional Neural Networks are trained to classify the presence of a wildfire in a patch of land using these segmented cirrus images. The "experimental" model trained on the segmented inputs achieves 96.5% binary accuracy and has smoother learning curves than the "control model" that is not given the segmented inputs. This proof of concept reveals that feature simplification can improve the performance of wildfire detection models. Overall, the software built in this study is useful for early and accurate detection of wildfires in South America.
翻訳日:2022-01-30 12:26:40 公開日:2022-01-19
# (参考訳) 顔のライブネス検出のためのアンサンブルモデル [全文訳有]

An Ensemble Model for Face Liveness Detection ( http://arxiv.org/abs/2201.08901v1 )

ライセンス: CC BY 4.0
Shashank Shekhar, Avinash Patel, Mrinal Haloi, Asif Salim(参考訳) 本稿では,アンサンブル深層学習技術を用いて,顔提示攻撃,すなわち顔の生存度を検出する受動的手法を提案する。 顔のライブ性検出は、オンラインのオンボーディング/トランザクションプロセスにおける顧客のユーザアイデンティティ検証に関わる重要なステップの1つだ。 例えば、ソーシャルメディアからユーザ写真をキャプチャして、ユーザの顔のプリントアウトを使ったインポスタ攻撃や、モバイルデバイスからのデジタル写真の使用、さらにはビデオ再生攻撃のようなより高度な攻撃などを行うことができる。 さまざまな攻撃方法を理解しようと試み、堅牢なディープラーニングモデルをトレーニングするために、あらゆる種類の攻撃をカバーする社内の大規模データセットを作成しました。 本研究では,顔領域と背景領域の複数の特徴を学習し,ユーザがボナフィドか攻撃者かを予測するアンサンブル手法を提案する。

In this paper, we present a passive method to detect face presentation attack a.k.a face liveness detection using an ensemble deep learning technique. Face liveness detection is one of the key steps involved in user identity verification of customers during the online onboarding/transacti on processes. During identity verification, an unauthenticated user tries to bypass the verification system by several means, for example, they can capture a user photo from social media and do an imposter attack using printouts of users faces or using a digital photo from a mobile device and even create a more sophisticated attack like video replay attack. We have tried to understand the different methods of attack and created an in-house large-scale dataset covering all the kinds of attacks to train a robust deep learning model. We propose an ensemble method where multiple features of the face and background regions are learned to predict whether the user is a bonafide or an attacker.
翻訳日:2022-01-30 12:15:26 公開日:2022-01-19
# 深層伝達学習の展望と最近の進歩

A Review of Deep Transfer Learning and Recent Advancements ( http://arxiv.org/abs/2201.09679v1 )

ライセンス: Link先を確認
Mohammadreza Iman, Khaled Rasheed, Hamid R. Arabnia(参考訳) ディープラーニングモデルの成功は、広範なトレーニングデータと処理能力と時間(トレーニングコストとして知られる)に依存する。 ディープラーニングモデルをトレーニングするのに十分な数のラベル付きデータがないタスクは数多く存在する。 さらに、処理能力とトレーニング時間を制限したエッジデバイス上でのディープラーニングモデルの実行に対する需要も高まっている。 例えば、大規模な半関連データセット上で事前学習されたモデルを微調整することは、多くの問題に対してシンプルで効果的な方法であることが証明された。 DTLは限られた対象データを扱うと同時に、トレーニングコストを大幅に削減します。 本稿では,Deep Transfer Learningの定義と分類について概説する。 そして、ネットワークベースのDTLのサブカテゴリに焦点を当てる。これは、過去10年間に様々なアプリケーションに適用されてきた、最も一般的なタイプのDTLである。

A successful deep learning model is dependent on extensive training data and processing power and time (known as training costs). There exist many tasks without enough number of labeled data to train a deep learning model. Further, the demand is rising for running deep learning models on edge devices with limited processing capacity and training time. Deep transfer learning (DTL) methods are the answer to tackle such limitations, e.g., fine-tuning a pre-trained model on a massive semi-related dataset proved to be a simple and effective method for many problems. DTLs handle limited target data concerns as well as drastically reduce the training costs. In this paper, the definition and taxonomy of deep transfer learning is reviewed. Then we focus on the sub-category of network-based DTLs since it is the most common types of DTLs that have been applied to various applications in the last decade.
翻訳日:2022-01-30 11:24:22 公開日:2022-01-19
# CNN画像分類器における信号強度とノイズ駆動特性

Signal Strength and Noise Drive Feature Preference in CNN Image Classifiers ( http://arxiv.org/abs/2201.08893v1 )

ライセンス: Link先を確認
Max Wolff and Stuart Wolff(参考訳) 畳み込みニューラルネットワーク(CNN)画像分類器の特徴選好は意思決定プロセスに不可欠であり、そのトピックは十分に研究されているが、基本的なレベルでは理解されていない。 合成データセットを用いて高度に制御されたCNN画像分類実験において, 特徴属性(形状, テクスチャ, 色など)を信号や雑音の度合いの異なる範囲で検証し, 特徴嗜好を決定する。 CNNは、その特徴がテクスチャ、形状、色に関わらず、より強い信号強度と低いノイズを持つ特徴を好む。 本研究は,タスク関連機能選好の予測モデルに関するガイダンスを提供するとともに,実験的な設定に対する注意深い制御で回避できるマシンモデルにおけるバイアスの経路を示すとともに,視覚分類タスクにおけるタスク関連機能をどのように好むかを比較することを提案する。 実験を再現するコードは \url{https://github.com/m wolff31/signal_prefe rence} にある。

Feature preference in Convolutional Neural Network (CNN) image classifiers is integral to their decision making process, and while the topic has been well studied, it is still not understood at a fundamental level. We test a range of task relevant feature attributes (including shape, texture, and color) with varying degrees of signal and noise in highly controlled CNN image classification experiments using synthetic datasets to determine feature preferences. We find that CNNs will prefer features with stronger signal strength and lower noise irrespective of whether the feature is texture, shape, or color. This provides guidance for a predictive model for task relevant feature preferences, demonstrates pathways for bias in machine models that can be avoided with careful controls on experimental setup, and suggests that comparisons between how humans and machines prefer task relevant features in vision classification tasks should be revisited. Code to reproduce experiments in this paper can be found at \url{https://github.com/m wolff31/signal_prefe rence}.
翻訳日:2022-01-30 11:24:06 公開日:2022-01-19
# 強化学習教科書

Reinforcement Learning Textbook ( http://arxiv.org/abs/2201.09746v1 )

ライセンス: Link先を確認
Sergey Ivanov(参考訳) この教科書は、ゲームaiからロボティクスまで、多くの領域でブレークスルーを達成した主要な現代的深層強化学習アルゴリズムの背後にある原則を扱っている。 要求される全ての理論は統一的表記法を用いた証明で説明され、異なる種類のアルゴリズムの違いとそれらがどのように構築されるのかを強調する。

This textbook covers principles behind main modern deep reinforcement learning algorithms that achieved breakthrough results in many domains from game AI to robotics. All required theory is explained with proofs using unified notation and emphasize on the differences between different types of algorithms and the reasons why they are constructed the way they are.
翻訳日:2022-01-30 11:23:47 公開日:2022-01-19
# 自動運転車におけるサイバーセキュリティのロードマップ

Roadmap for Cybersecurity in Autonomous Vehicles ( http://arxiv.org/abs/2201.10349v1 )

ライセンス: Link先を確認
Vipin Kumar Kukkala, Sooryaa Vignesh Thiruloga, Sudeep Pasricha(参考訳) 自動運転車は今後、交通安全と快適性を変えていくだろう。 これらの車両は様々な外部システムに接続し、高度な組み込みシステムを使用して環境を認識し、インテリジェントな意思決定を行う。 しかし、この接続性が高まり、これらの車両は壊滅的な効果をもたらす様々なサイバー攻撃に対して脆弱になった。 自動車システムへの攻撃はすでに増加しており、将来の自動運転車ではより一般的なものになるだろう。 したがって、将来の自動運転車ではサイバーセキュリティを強化する必要がある。 本稿では,過去10年間の自動車サイバー攻撃と,人工知能(ai)を活用した最先端ソリューションについて述べる。 我々は、安全な自動運転車を構築するためのロードマップを提案し、対処すべき重要なオープン課題を強調する。

Autonomous vehicles are on the horizon and will be transforming transportation safety and comfort. These vehicles will be connected to various external systems and utilize advanced embedded systems to perceive their environment and make intelligent decisions. However, this increased connectivity makes these vehicles vulnerable to various cyber-attacks that can have catastrophic effects. Attacks on automotive systems are already on the rise in today's vehicles and are expected to become more commonplace in future autonomous vehicles. Thus, there is a need to strengthen cybersecurity in future autonomous vehicles. In this article, we discuss major automotive cyber-attacks over the past decade and present state-of-the-art solutions that leverage artificial intelligence (AI). We propose a roadmap towards building secure autonomous vehicles and highlight key open challenges that need to be addressed.
翻訳日:2022-01-30 11:23:42 公開日:2022-01-19
# オンラインPOIレコメンデーション: ストリームにおける動的ジオヒューマンインタラクションの学習

Online POI Recommendation: Learning Dynamic Geo-Human Interactions in Streams ( http://arxiv.org/abs/2201.10983v1 )

ライセンス: Link先を確認
Dongjie Wang, Kunpeng Liu, Hui Xiong, Yanjie Fu(参考訳) 本稿では,オンラインPOIレコメンデーションのためのストリーム中の動的ジオヒューマンインタラクションをモデル化する問題に焦点を当てる。 具体的には, エージェントがレコメンダであり, アクションが次のpoiとなる新しい深層対話型強化学習フレームワークとして, ストリーム内ジオ-ヒューマンインタラクションモデリング問題を定式化する。 我々は,強化学習環境を,ユーザと地理空間的コンテキスト(POI,POIカテゴリ,機能ゾーン)の結合・連結構成として一意にモデル化する。 ユーザがストリームでPOIを訪問するイベントは、ユーザと地理空間コンテキストの両方の状態を更新し、エージェントは更新された環境状態を認識してオンラインレコメンデーションを行う。 具体的には、人間-人間-地球-地球相互作用をモデル化するために、ユーザ、訪問、地理空間コンテキストを動的知識グラフストリームとして統一することで、混合ユーザイベントストリームをモデル化する。 本稿では,期限切れ情報課題に対処するための出口機構を設計,推薦候補生成課題に対処するメタパス手法を考案し,さまざまなアクションスペース課題に対処するための新しい深層ポリシーネットワーク構造を開発し,最後に,最適化のための効果的な敵意訓練手法を提案する。 最後に,提案手法の性能向上を実証するための実験を行った。

In this paper, we focus on the problem of modeling dynamic geo-human interactions in streams for online POI recommendations. Specifically, we formulate the in-stream geo-human interaction modeling problem into a novel deep interactive reinforcement learning framework, where an agent is a recommender and an action is a next POI to visit. We uniquely model the reinforcement learning environment as a joint and connected composition of users and geospatial contexts (POIs, POI categories, functional zones). An event that a user visits a POI in stream updates the states of both users and geospatial contexts; the agent perceives the updated environment state to make online recommendations. Specifically, we model a mixed-user event stream by unifying all users, visits, and geospatial contexts as a dynamic knowledge graph stream, in order to model human-human, geo-human, geo-geo interactions. We design an exit mechanism to address the expired information challenge, devise a meta-path method to address the recommendation candidate generation challenge, and develop a new deep policy network structure to address the varying action space challenge, and, finally, propose an effective adversarial training method for optimization. Finally, we present extensive experiments to demonstrate the enhanced performance of our method.
翻訳日:2022-01-30 11:23:32 公開日:2022-01-19
# 非線形生成モデルによるベイズ推論:セキュア学習へのコメント

Bayesian Inference with Nonlinear Generative Models: Comments on Secure Learning ( http://arxiv.org/abs/2201.09986v1 )

ライセンス: Link先を確認
Ali Bereyhi and Bruno Loureiro and Florent Krzakala and Ralf R. M\"uller and Hermann Schulz-Baldes(参考訳) 古典的線形モデルとは異なり、非線形生成モデルは文学においてわずかに扱われている。 この研究は、これらのモデルとその秘密性に注意を向けることを目的としている。 この目的のために, 一般化共分散関数を持つガウス確率場により生成モデルを記述する逆確率問題において, 漸近正規化クロスエントロピーを導出するレプリカ法を導出する。 この導出はベイズ推論アルゴリズムの漸近的統計的デカップリングを示し、与えられた非線形モデルのデカップリング設定を指定する。 レプリカの解は、厳密な非線形モデルが全てまたはなしの相転移を確立することを描いている: 最適なベイズ推論が完全から非相関学習に変化する重要な負荷が存在する。 この発見は、盗聴チャネルの機密性を実現するための新しいセキュアな符号化方式の設計につながる。 提案した符号化は、Wynerのランダムな符号化方式に比べて、コードブックサイズがかなり小さい。 この興味深い結果は、厳密な非線形生成モデルはセキュアな符号化なしに完全に安全であることを示している。 後者のステートメントは、完全に安全で信頼できる推論のための説明モデルの分析を通じて正当化します。

Unlike the classical linear model, nonlinear generative models have been addressed sparsely in the literature. This work aims to bring attention to these models and their secrecy potential. To this end, we invoke the replica method to derive the asymptotic normalized cross entropy in an inverse probability problem whose generative model is described by a Gaussian random field with a generic covariance function. Our derivations further demonstrate the asymptotic statistical decoupling of Bayesian inference algorithms and specify the decoupled setting for a given nonlinear model. The replica solution depicts that strictly nonlinear models establish an all-or-nothing phase transition: There exists a critical load at which the optimal Bayesian inference changes from being perfect to an uncorrelated learning. This finding leads to design of a new secure coding scheme which achieves the secrecy capacity of the wiretap channel. The proposed coding has a significantly smaller codebook size compared to the random coding scheme of Wyner. This interesting result implies that strictly nonlinear generative models are perfectly secured without any secure coding. We justify this latter statement through the analysis of an illustrative model for perfectly secure and reliable inference.
翻訳日:2022-01-30 11:23:00 公開日:2022-01-19
# (参考訳) GAP-Gen: ガイド付きPythonコード生成 [全文訳有]

GAP-Gen: Guided Automatic Python Code Generation ( http://arxiv.org/abs/2201.08810v1 )

ライセンス: CC BY-SA 4.0
Junchen Zhao, Yurun Song, Junlin Wang, Ian G. Harris(参考訳) 自然言語記述からの自動コード生成は、ソフトウェア開発の過程で非常に有益である。 本稿では,pythonの構文的制約と意味的制約による自動コード生成手法であるgap-genを提案する。 我々はまず、抽象構文木(AST)の簡易版であるSyntax-Flowという形でPython構文制約を導入し、抽象構文木のサイズと複雑さを低減しつつ、Pythonコードの重要な構文情報を維持する。 Syntax-Flowに加えて、変数と関数名を一貫したコードで抽象化する可変フローを導入します。 我々の研究は、事前学習ではなく、計算要求を減らし、Pythonの自動コード生成タスクにおけるハイジェネレーション性能を維持する微調整プロセスの変更に重点を置いている。 GAP-Genは、CodeSearchNet、CodeSearchNet AdvTest、EdinburghNLPのCode-Docstring-Corpu sを使って、トランスフォーマーベースの言語モデルT5とCodeT5を微調整する。 実験の結果,GAP-GenはPythonの自動コード生成タスクにおいて,従来の作業よりも優れた結果が得られることがわかった。

Automatic code generation from natural language descriptions can be highly beneficial during the process of software development. In this work, we propose GAP-Gen, an automatic code generation method guided by Python syntactic constraints and semantic constraints. We first introduce Python syntactic constraints in the form of Syntax-Flow, which is a simplified version of Abstract Syntax Tree (AST) reducing the size and high complexity of Abstract Syntax Tree but maintaining the crucial syn-tactic information of Python code. In addition to Syntax-Flow, we introduce Variable-Flow which abstracts variable and function names consistently throughout the code. In our work, rather than pre-training, we focus on modifying the fine-tuning process which reduces computational requirements but retains high generation performance on automatic Python code generation task. GAP-Gen fine-tunes the transformer-based language models T5 and CodeT5 using the Code-to-Docstring datasets CodeSearchNet, CodeSearchNet AdvTest, and Code-Docstring-Corpu s from EdinburghNLP. Our experiments show that GAP-Gen achieves better results on automatic Python code generation task than previous works
翻訳日:2022-01-24 23:30:28 公開日:2022-01-19
# (参考訳) 自動因果推論による無作為化臨床試験への応用 [全文訳有]

Automated causal inference in application to randomized controlled clinical trials ( http://arxiv.org/abs/2201.05773v2 )

ライセンス: CC BY 4.0
Jiqing Wu, Nanda Horeweg, Marco de Bruyn, Remi A. Nout, Ina M. J\"urgenliemk-Schulz, Ludy C.H.W. Lutgens, Jan J. Jobsen, Elzbieta M. van der Steen-Banasik, Hans W. Nijman, Vincent T.H.B.M. Smit, Tjalling Bosse, Carien L. Creutzberg, Viktor H. Koelzer(参考訳) ランダム化制御試験(RCTs)は、臨床領域における因果仮説をテストするための金の標準であると考えられている。 しかし, 標準的な統計学的手法では, 患者予後の予測変数を仮説として検討することは不可能である。 本稿では,臨床試験データの因果的再解釈のための不変因果予測(ICP)フレームワーク上に構築された新しい自動因果推論手法を提案する。 既存の方法と比較すると, 子宮内膜癌患者2例において, 臨床病理学的, 分子遺伝学的に有意な差がみられ, 因果変数を効率的に決定できることがわかった。 これは非因果変数の因果確率を広いマージンで抑制することで達成される。 アブレーション研究では,AutoCIによる因果確率の割り当てが,共同創設者の存在下で一貫していることがさらに実証された。 結論として, これらの結果は, 現実臨床分析におけるAutoCIの堅牢性と将来性を示すものである。

Randomized controlled trials (RCTs) are considered as the gold standard for testing causal hypotheses in the clinical domain. However, the investigation of prognostic variables of patient outcome in a hypothesized cause-effect route is not feasible using standard statistical methods. Here, we propose a new automated causal inference method (AutoCI) built upon the invariant causal prediction (ICP) framework for the causal re-interpretation of clinical trial data. Compared to existing methods, we show that the proposed AutoCI allows to efficiently determine the causal variables with a clear differentiation on two real-world RCTs of endometrial cancer patients with mature outcome and extensive clinicopathological and molecular data. This is achieved via suppressing the causal probability of non-causal variables by a wide margin. In ablation studies, we further demonstrate that the assignment of causal probabilities by AutoCI remain consistent in the presence of confounders. In conclusion, these results confirm the robustness and feasibility of AutoCI for future applications in real-world clinical analysis.
翻訳日:2022-01-22 13:30:26 公開日:2022-01-19
# (参考訳) TaxoCom:新しいトピッククラスタの階層的発見によるトピック分類の完成 [全文訳有]

TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters ( http://arxiv.org/abs/2201.06771v2 )

ライセンス: CC BY 4.0
Dongha Lee, Jiaming Shen, SeongKu Kang, Susik Yoon, Jiawei Han, Hwanjo Yu(参考訳) 文書コレクションの潜在トピック(またはカテゴリ)構造を表すトピック分類は、web検索や情報フィルタリングといった多くのアプリケーションにおいて、コンテンツの貴重な知識を提供する。 近年,テキストコーパスからトピック分類を自動的に構築するための教師なし手法がいくつか開発されているが,事前の知識がなくても望ましい分類を生成することは困難である。 本稿では,トピック構造に関する部分的(あるいは不完全な)情報をどのように活用し,トピック分類の完全性を見出すかを検討する。 本稿では,トピック分類の完全化のための新しい枠組みであるtaxocomを提案し,用語と文書の新たなサブトピック・クラスターの発見により,トピック分類体系を再帰的に拡張する。 階層的なトピック構造の中で、新しいトピックを効果的に識別するために、TaxoComは、その埋め込みとクラスタリングテクニックを互いに密接にリンクするように考案した。 (i)局所的判別的埋め込みは、既知の(すなわち与えられた)サブトピック間で識別可能なテキスト埋め込み空間を最適化し、 (ii)新規適応クラスタリングは、既知のサブトピックまたは新しいサブトピックのいずれかに用語を割り当てる。 2つの実世界のデータセットに関する総合的な実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から高品質なトピック分類を生成するだけでなく、下流タスクにおける他のすべてのベースラインよりも優れています。

Topic taxonomies, which represent the latent topic (or category) structure of document collections, provide valuable knowledge of contents in many applications such as web search and information filtering. Recently, several unsupervised methods have been developed to automatically construct the topic taxonomy from a text corpus, but it is challenging to generate the desired taxonomy without any prior knowledge. In this paper, we study how to leverage the partial (or incomplete) information about the topic structure as guidance to find out the complete topic taxonomy. We propose a novel framework for topic taxonomy completion, named TaxoCom, which recursively expands the topic taxonomy by discovering novel sub-topic clusters of terms and documents. To effectively identify novel topics within a hierarchical topic structure, TaxoCom devises its embedding and clustering techniques to be closely-linked with each other: (i) locally discriminative embedding optimizes the text embedding space to be discriminative among known (i.e., given) sub-topics, and (ii) novelty adaptive clustering assigns terms into either one of the known sub-topics or novel sub-topics. Our comprehensive experiments on two real-world datasets demonstrate that TaxoCom not only generates the high-quality topic taxonomy in terms of term coherency and topic coverage but also outperforms all other baselines for a downstream task.
翻訳日:2022-01-22 05:46:29 公開日:2022-01-19
# (参考訳) 医学的概念に基づくグラフニューラルネットワークの認知的説明 [全文訳有]

Cognitive Explainers of Graph Neural Networks Based on Medical Concepts ( http://arxiv.org/abs/2201.07798v1 )

ライセンス: CC BY 4.0
Yingni Wang, Kehong Yuan(参考訳) ディープ・ニューラル・ネットワーク(dnn)は様々な分野で最先端のパフォーマンスを達成しているが、いくつかの予期せぬエラーは、高い信頼性と高いセキュリティを必要とするいくつかのタスクにとって非常に危険であるニューラルネットワークでしばしば見られる。 Despite current studies that have been committed to visualizing the decision process of DNN, most of these methods focus on the low level and do not take into account the prior knowledge of medicine.In this work, we propose an interpretable framework based on key medical concepts, enabling CNN to explain from the perspective of doctors' cognition.We propose an interpretable automatic recognition framework for the ultrasonic standard plane, which uses a concept-based graph convolutional neural network to construct the relationships between key medical concepts, to obtain an interpretation consistent with a doctor's cognition.

Although deep neural networks (DNN) have achieved state-of-the-art performance in various fields, some unexpected errors are often found in the neural network, which is very dangerous for some tasks requiring high reliability and high security.The non-transparency and unexplainably of CNN still limit its application in many fields, such as medical care and finance. Despite current studies that have been committed to visualizing the decision process of DNN, most of these methods focus on the low level and do not take into account the prior knowledge of medicine.In this work, we propose an interpretable framework based on key medical concepts, enabling CNN to explain from the perspective of doctors' cognition.We propose an interpretable automatic recognition framework for the ultrasonic standard plane, which uses a concept-based graph convolutional neural network to construct the relationships between key medical concepts, to obtain an interpretation consistent with a doctor's cognition.
翻訳日:2022-01-22 04:57:30 公開日:2022-01-19
# (参考訳) GPUを用いたディープラーニング推薦モデルトレーニングのパフォーマンスモデルの構築 [全文訳有]

Building a Performance Model for Deep Learning Recommendation Model Training on GPUs ( http://arxiv.org/abs/2201.07821v1 )

ライセンス: CC BY 4.0
Zhongyi Lin and Louis Feng and Ehsan K. Ardestani and Jaewon Lee and John Lundell and Changkyu Kim and Arun Kejariwal and John D. Owens(参考訳) 我々は、他のよく最適化されたCVやNLPモデルと比較してGPU利用率が低いDLRM(Deep Learning Recommendation Models)のGPUトレーニングのパフォーマンスモデルを作成する。 デバイスアクティブタイム(カーネルランタイムの合計)とデバイスアイドルタイムの両方が、デバイス全体のタイムの重要なコンポーネントであることを示す。 そこで我々は,(1)デバイスアクティブタイムを支配するオペレータに対して,ヒューリスティックベースおよびmlベースのカーネルパフォーマンスモデルを柔軟に適用し,(2)オペレーターのオーバーヘッドを5つのタイプに分類し,デバイスアクティブタイムへの貢献度を定量的に決定する。 これら2つの部分を組み合わせることで,実行グラフをトラバースすることでDLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。 我々は,すべてのカーネル性能モデルにおいて,幾何平均誤差(GMAE)の10%未満を達成し,GPUのアクティブ時間に対する5.23%と7.96%のジオ平均誤差と,バッチ毎のトレーニング時間全体のエンドツーエンド予測を実現した。 提案手法は,構成が高度にカスタマイズされ,複数の要因が支配されるDLRM上での予測誤差を低く抑えるだけでなく,従来の手法に照らされた他の計算バウンドMLモデルと同等の精度が得られることを示す。 この性能モデルとグラフレベルのデータとタスク依存性分析を用いて,従来の手法よりも汎用的なモデルシステム設計を提供できることを示す。

We devise a performance model for GPU training of Deep Learning Recommendation Models (DLRM), whose GPU utilization is low compared to other well-optimized CV and NLP models. We show that both the device active time (the sum of kernel runtimes) and the device idle time are important components of the overall device time. We therefore tackle them separately by (1) flexibly adopting heuristic-based and ML-based kernel performance models for operators that dominate the device active time, and (2) categorizing operator overheads into five types to determine quantitatively their contribution to the device active time. Combining these two parts, we propose a critical-path-based algorithm to predict the per-batch training time of DLRM by traversing its execution graph. We achieve less than 10% geometric mean average error (GMAE) in all kernel performance modeling, and 5.23% and 7.96% geomean errors for GPU active time and overall end-to-end per-batch training time prediction, respectively. We show that our general performance model not only achieves low prediction error on DLRM, which has highly customized configurations and is dominated by multiple factors, but also yields comparable accuracy on other compute-bound ML models targeted by most previous methods. Using this performance model and graph-level data and task dependency analyses, we show our system can provide more general model-system co-design than previous methods.
翻訳日:2022-01-22 04:42:41 公開日:2022-01-19
# (参考訳) blinc:低複雑さvvcイントラコーディングのための軽量バイモーダル学習 [全文訳有]

BLINC: Lightweight Bimodal Learning for Low-Complexity VVC Intra Coding ( http://arxiv.org/abs/2201.07823v1 )

ライセンス: CC BY 4.0
Farhad Pakdaman, Mohammad Ali Adelimanesh, Mahmoud Reza Hashemi(参考訳) 最新のビデオコーディング標準であるVersatile Video Coding (VVC)は、前機種であるHEVC(High Efficiency Video Coding)と比較して、コーディング効率をほぼ2倍に向上させる。 しかし、この効率(イントラコーディング)を達成するにはHEVCに比べて31倍の計算量を必要とするため、低消費電力およびリアルタイムアプリケーションでは困難である。 本稿では,2つの特徴を共同で個別に活用し,イントラコーディング決定を簡素化する,新しい機械学習手法を提案する。 まず、VVCの既存のDCTコアを用いて、テクスチャ特性を評価し、データの最初のモダリティを形成する一連の特徴を抽出する。 これにより、ほとんどオーバーヘッドなく高品質な機能が得られる。 隣接するブロックにおけるイントラモードの分布は、フレームに関する統計情報を提供するデータの第2のモダリティを形成するためにも用いられる。 第二に、モード内決定タスクの学習に限られたパラメータの軽量モデルを使用することができるように、特徴セットのサイズを小さくする2段階の特徴量削減法が設計されている。 第3に,1)データの第1(シングル)モダリティを用いたオフライントレーニング戦略,(2)第2(シングル)モダリティを用いたオンライントレーニング戦略,(3)バイモーダル学習を用いた混合オンラインオフライン戦略の3つの異なるトレーニング戦略を提案する。 最後に,提案手法に基づく低複雑さ符号化アルゴリズムを提案する。 広範な実験結果から,提案手法では符号化時間の最大24%削減が可能となり,符号化効率が低下することが判明した。 さらに,バイモーダル学習戦略によって学習性能が向上することを示す。 最後に,提案手法は計算オーバーヘッドが非常に低く(0.2%),VVCエンコーダの既存コンポーネントを使用するため,競合するソリューションに比べてはるかに実用的である。

The latest video coding standard, Versatile Video Coding (VVC), achieves almost twice coding efficiency compared to its predecessor, the High Efficiency Video Coding (HEVC). However, achieving this efficiency (for intra coding) requires 31x computational complexity compared to HEVC, making it challenging for low power and real-time applications. This paper, proposes a novel machine learning approach that jointly and separately employs two modalities of features, to simplify the intra coding decision. First a set of features are extracted that use the existing DCT core of VVC, to assess the texture characteristics, and forms the first modality of data. This produces high quality features with almost no overhead. The distribution of intra modes at the neighboring blocks is also used to form the second modality of data, which provides statistical information about the frame. Second, a two-step feature reduction method is designed that reduces the size of feature set, such that a lightweight model with a limited number of parameters can be used to learn the intra mode decision task. Third, three separate training strategies are proposed (1) an offline training strategy using the first (single) modality of data, (2) an online training strategy that uses the second (single) modality, and (3) a mixed online-offline strategy that uses bimodal learning. Finally, a low-complexity encoding algorithms is proposed based on the proposed learning strategies. Extensive experimental results show that the proposed methods can reduce up to 24% of encoding time, with a negligible loss of coding efficiency. Moreover, it is demonstrated how a bimodal learning strategy can boost the performance of learning. Lastly, the proposed method has a very low computational overhead (0.2%), and uses existing components of a VVC encoder, which makes it much more practical compared to competing solutions.
翻訳日:2022-01-22 04:18:32 公開日:2022-01-19
# (参考訳) 協調ネットワークを用いた批判アルゴリズム [全文訳有]

Critic Algorithms using Cooperative Networks ( http://arxiv.org/abs/2201.07839v1 )

ライセンス: CC BY 4.0
Debangshu Banerjee and Kavita Wagh(参考訳) マルコフ決定過程において、収束率に関して良好な経験的結果を与える政策評価のためのアルゴリズムを提案する。 このアルゴリズムは、射影ベルマン誤差を追跡し、真の勾配に基づくアルゴリズムとして実装されている。 この点において、このアルゴリズムはTD($\lambda$)アルゴリズムのクラスとは異なる。 このアルゴリズムは、射影ベルマンアルゴリズムを追跡し、従って残留アルゴリズムのクラスとは異なる。 さらに、このアルゴリズムの収束は、予測されたベルマン誤差を追跡することを目的としたgtd2クラスのアルゴリズムよりもはるかに高速である。 提案アルゴリズムをDQNとDDPGフレームワークで実装し,両実験で同等の結果が得られた。

An algorithm is proposed for policy evaluation in Markov Decision Processes which gives good empirical results with respect to convergence rates. The algorithm tracks the Projected Bellman Error and is implemented as a true gradient based algorithm. In this respect this algorithm differs from TD($\lambda$) class of algorithms. This algorithm tracks the Projected Bellman Algorithm and is therefore different from the class of residual algorithms. Further the convergence of this algorithm is empirically much faster than GTD2 class of algorithms which aim at tracking the Projected Bellman Error. We implemented proposed algorithm in DQN and DDPG framework and found that our algorithm achieves comparable results in both of these experiments
翻訳日:2022-01-22 03:57:22 公開日:2022-01-19
# (参考訳) Learning-From-Disagr eement: モデル比較とビジュアル分析フレームワーク [全文訳有]

Learning-From-Disagr eement: A Model Comparison and Visual Analytics Framework ( http://arxiv.org/abs/2201.07849v1 )

ライセンス: CC BY 4.0
Junpeng Wang, Liang Wang, Yan Zheng, Chin-Chia Michael Yeh, Shubham Jain, Wei Zhang(参考訳) 毎日生産される分類モデルの数は急速に増加しており、多くのモデル解釈と比較ソリューションも導入されている。 例えば、LIMEとSHAPは、分類器の出力予測にどのような入力機能が寄与するかを解釈できる。 異なる数値測度(例えば精度)を使って2つの分類器を簡単に比較することができる。 しかし、別の分類器への貢献と比較して、データ特徴の分類器への貢献を解釈できる研究はほとんどない。 この比較解釈は、2つの分類器の基本的な違い、異なる特徴条件における分類器の選択、より優れた2つの分類器のアンサンブルを開示するのに役立つ。 そこで我々は2つの分類モデルを視覚的に比較するLFDフレームワークを提案する。 具体的には、lfdは2つの比較分類器から不一致の予測を持つデータインスタンスを特定し、不一致のインスタンスから学習するために判別器を訓練する。 2つの分類器の訓練機能は利用できないため、分類器の特定の仮説に基づいて提案された一連のメタ特徴を通して識別器を訓練し、その行動を調査する。 訓練された判別器を異なるメタ特徴のSHAP値で解釈し、比較分類器に対する実用的な洞察を提供する。 また、異なる視点からメタ機能の重要性をプロファイルするために、複数のメトリクスを導入する。 これらのメトリクスにより、2つの分類器において最も相補的な振る舞いを持つメタフィーチャを容易に識別でき、それらをよりよく分類器をアレンジするために使うことができる。 我々は,金融サービスおよび広告業界におけるバイナリ分類モデルに着目し,提案手法と可視化の有効性を実証する。

With the fast-growing number of classification models being produced every day, numerous model interpretation and comparison solutions have also been introduced. For example, LIME and SHAP can interpret what input features contribute more to a classifier's output predictions. Different numerical metrics (e.g., accuracy) can be used to easily compare two classifiers. However, few works can interpret the contribution of a data feature to a classifier in comparison with its contribution to another classifier. This comparative interpretation can help to disclose the fundamental difference between two classifiers, select classifiers in different feature conditions, and better ensemble two classifiers. To accomplish it, we propose a learning-from-disagr eement (LFD) framework to visually compare two classification models. Specifically, LFD identifies data instances with disagreed predictions from two compared classifiers and trains a discriminator to learn from the disagreed instances. As the two classifiers' training features may not be available, we train the discriminator through a set of meta-features proposed based on certain hypotheses of the classifiers to probe their behaviors. Interpreting the trained discriminator with the SHAP values of different meta-features, we provide actionable insights into the compared classifiers. Also, we introduce multiple metrics to profile the importance of meta-features from different perspectives. With these metrics, one can easily identify meta-features with the most complementary behaviors in two classifiers, and use them to better ensemble the classifiers. We focus on binary classification models in the financial services and advertising industry to demonstrate the efficacy of our proposed framework and visualizations.
翻訳日:2022-01-22 03:48:43 公開日:2022-01-19
# (参考訳) グラフニューラルネットワークの深さとスコープの分離 [全文訳有]

Decoupling the Depth and Scope of Graph Neural Networks ( http://arxiv.org/abs/2201.07858v1 )

ライセンス: CC BY 4.0
Hanqing Zeng, Muhan Zhang, Yinglong Xia, Ajitesh Srivastava, Andrey Malevich, Rajgopal Kannan, Viktor Prasanna, Long Jin, Ren Chen(参考訳) 最先端グラフニューラルネットワーク(gnn)は、グラフとモデルサイズに関してスケーラビリティに制限がある。 大きなグラフでは、モデル深度を増やすことはスコープ(つまり受容場)の指数的拡大を意味することが多い。 ほんのいくつかのレイヤを越えて、2つの根本的な課題が生まれます。 1.過密による表現力の低下、及び 2.近所の爆発による高価な計算 本稿では,GNNの深さと範囲を分離し,対象エンティティ(ノードやエッジなど)の表現を生成する設計原理を提案し,まず,境界サイズの範囲として局所化された部分グラフを抽出し,その部分グラフの上部に任意の深さのGNNを適用する。 適切に抽出された部分グラフは少数の臨界近傍で構成され、無関係な部分を除く。 GNNは、どんなに深くても、グローバルグラフを「ホワイトノイズ」に過度にスムースにするのではなく、地域住民を情報表現に滑らかにする。 理論的には、グラフ信号処理(GCN)、関数近似(GraphSAGE)、トポロジカル学習(GIN)の観点から、GNN表現力を改善する。 実証的に,7つのグラフ(最大110万ノード)と6つのバックボーンGNNアーキテクチャ上では,計算処理とハードウェアコストの桁数削減による大幅な精度向上を実現している。

State-of-the-art Graph Neural Networks (GNNs) have limited scalability with respect to the graph and model sizes. On large graphs, increasing the model depth often means exponential expansion of the scope (i.e., receptive field). Beyond just a few layers, two fundamental challenges emerge: 1. degraded expressivity due to oversmoothing, and 2. expensive computation due to neighborhood explosion. We propose a design principle to decouple the depth and scope of GNNs -- to generate representation of a target entity (i.e., a node or an edge), we first extract a localized subgraph as the bounded-size scope, and then apply a GNN of arbitrary depth on top of the subgraph. A properly extracted subgraph consists of a small number of critical neighbors, while excluding irrelevant ones. The GNN, no matter how deep it is, smooths the local neighborhood into informative representation rather than oversmoothing the global graph into "white noise". Theoretically, decoupling improves the GNN expressive power from the perspectives of graph signal processing (GCN), function approximation (GraphSAGE) and topological learning (GIN). Empirically, on seven graphs (with up to 110M nodes) and six backbone GNN architectures, our design achieves significant accuracy improvement with orders of magnitude reduction in computation and hardware cost.
翻訳日:2022-01-22 03:11:15 公開日:2022-01-19
# (参考訳) pdeに基づくオンライン学習の最適戦略

PDE-Based Optimal Strategy for Unconstrained Online Learning ( http://arxiv.org/abs/2201.07877v1 )

ライセンス: CC BY 4.0
Zhiyu Zhang, Ashok Cutkosky, Ioannis Paschalidis(参考訳) unconstrained online linear optimization(olo)は、機械学習モデルのトレーニングを研究するための実用的な問題設定である。 既存の研究はいくつかの潜在的なアルゴリズムを提案しているが、一般にそのようなポテンシャル関数の設計はアドホックであり、推測に大きく依存している。 本稿では,PDE(Partial Differential Equation)を解くことにより,時間変化ポテンシャル関数を生成するフレームワークを提案する。 我々のフレームワークは、いくつかの古典的なポテンシャルを回復し、より重要なことは、新しいものを設計するための体系的なアプローチを提供する。 私たちのフレームワークのパワーは、具体例で示されています。 損失が 1-Lipschitz である場合、我々は新しい OLO アルゴリズムを設計し、いつでも後悔する上界 $C\sqrt{T}+||||\sqrt{2T}[\sqrt{\log(1+||||||/C)}+2]$ を設計する。 一致する下界を構成することによって、定数乗算器 $\sqrt{2}$ を含む主順序項が密であることを示す。 我々の知る限り、これは最適なリード定数を持つ最初のパラメータフリーアルゴリズムである。 得られた理論的利点は実験によって検証される。

Unconstrained Online Linear Optimization (OLO) is a practical problem setting to study the training of machine learning models. Existing works proposed a number of potential-based algorithms, but in general the design of such potential functions is ad hoc and heavily relies on guessing. In this paper, we present a framework that generates time-varying potential functions by solving a Partial Differential Equation (PDE). Our framework recovers some classical potentials, and more importantly provides a systematic approach to design new ones. The power of our framework is demonstrated through a concrete example. When losses are 1-Lipschitz, we design a novel OLO algorithm with anytime regret upper bound $C\sqrt{T}+||u||\sqrt{2T}[\sqrt{\log(1+||u||/C)}+2]$, where $C$ is a user-specified constant and $u$ is any comparator whose norm is unknown and unbounded a priori. By constructing a matching lower bound, we further show that the leading order term, including the constant multiplier $\sqrt{2}$, is tight. To our knowledge, this is the first parameter-free algorithm with optimal leading constant. The obtained theoretical benefits are validated by experiments.
翻訳日:2022-01-22 02:40:07 公開日:2022-01-19
# (参考訳) マッチング強化分布による事前学習ネットワークの性能向上 [全文訳有]

Enhanced Performance of Pre-Trained Networks by Matched Augmentation Distributions ( http://arxiv.org/abs/2201.07894v1 )

ライセンス: CC BY 4.0
Touqeer Ahmad, Mohsen Jafarzadeh, Akshay Raj Dhamija, Ryan Rabinowitz, Steve Cruz, Chunchun Li, Terrance E. Boult(参考訳) 画像が現代のcnnに供給されるように、トレーニングとテストの間には分布の相違がある。 最近の研究は、異なる解像度でネットワークを微調整または再訓練することで、このギャップを埋めようとした。 しかし、ネットワークの再トレーニングはめったに安く、必ずしも実現できない。 この目的のために、私たちは、列車-テストの分散シフトに対処し、事前訓練されたモデルの性能を高めるための簡単なソリューションを提案します。 具体的には,画像のセンタクロップ上での推論が必ずしも重要な判別情報が切り落とされるため,必ずしも最善ではないことを示す。 代わりに、テスト画像に対する複数のランダムな作物の結果を組み合わせることを提案する。 これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。 我々は,異なるレベルの平均化,深い機能レベル,ロジットレベル,ソフトマックスレベルを用いてランダム作物の表現を組み合わせることを検討する。 本研究では,現代の深層ネットワークの様々なファミリーにおいて,その平均化による検証精度が,画像当たりの中央作物1本よりも高いことを実証する。 softmax平均化は、再トレーニングや微調整をまったく必要とせずに、さまざまな事前学習されたネットワークで最高のパフォーマンスをもたらす。 バッチ処理を備えた最新のGPUでは、プリトレーニング済みネットワークの推論に対する論文のアプローチは、バッチ内のすべてのイメージを一度に処理できるため、基本的に無料である。

There exists a distribution discrepancy between training and testing, in the way images are fed to modern CNNs. Recent work tried to bridge this gap either by fine-tuning or re-training the network at different resolutions. However re-training a network is rarely cheap and not always viable. To this end, we propose a simple solution to address the train-test distributional shift and enhance the performance of pre-trained models -- which commonly ship as a package with deep learning platforms \eg, PyTorch. Specifically, we demonstrate that running inference on the center crop of an image is not always the best as important discriminatory information may be cropped-off. Instead we propose to combine results for multiple random crops for a test image. This not only matches the train time augmentation but also provides the full coverage of the input image. We explore combining representation of random crops through averaging at different levels \ie, deep feature level, logit level, and softmax level. We demonstrate that, for various families of modern deep networks, such averaging results in better validation accuracy compared to using a single central crop per image. The softmax averaging results in the best performance for various pre-trained networks without requiring any re-training or fine-tuning whatsoever. On modern GPUs with batch processing, the paper's approach to inference of pre-trained networks, is essentially free as all images in a batch can all be processed at once.
翻訳日:2022-01-22 02:38:35 公開日:2022-01-19
# (参考訳) cptam:構成型パースツリーアグリゲーション方法 [全文訳有]

CPTAM: Constituency Parse Tree Aggregation Method ( http://arxiv.org/abs/2201.07905v1 )

ライセンス: CC BY 4.0
Adithya Kulkarni, Nasim Sabetpour, Alexey Markin, Oliver Eulenstein, Qi Li(参考訳) 自然言語処理タスクは、句構造文法に従って文の構文構造を理解するために、構成構文解析を用いる。 多くの最先端の選挙区パーサーが提案されているが、同じ文に対して異なる結果が得られるかもしれない。 本論文は, 真理の欠如による信頼性を推定することにより, 異なるパーサから選択構文木を集約する真理発見の考え方を採用する。 私たちの目標は、一貫して高品質な集計構成構文解析木を得ることです。 本稿では,構造集約と構成ラベル集約という2つのステップで,構成解析木集約問題を定式化する。 具体的には,二つの木の間の古典的な対称距離であるrobinson-foulds距離(rf)の重み付き和を最小化することにより,木構造に対する最初の真理発見法を提案する。 さまざまな言語やドメインのベンチマークデータセットで広範な実験が行われている。 実験の結果,CPTAM法は最先端の集約ベースラインよりも優れていた。 また, cptamが推定する重み付けは, 基底真理を欠いた構成パーサを適切に評価できることを実証する。

Diverse Natural Language Processing tasks employ constituency parsing to understand the syntactic structure of a sentence according to a phrase structure grammar. Many state-of-the-art constituency parsers are proposed, but they may provide different results for the same sentences, especially for corpora outside their training domains. This paper adopts the truth discovery idea to aggregate constituency parse trees from different parsers by estimating their reliability in the absence of ground truth. Our goal is to consistently obtain high-quality aggregated constituency parse trees. We formulate the constituency parse tree aggregation problem in two steps, structure aggregation and constituent label aggregation. Specifically, we propose the first truth discovery solution for tree structures by minimizing the weighted sum of Robinson-Foulds (RF) distances, a classic symmetric distance metric between two trees. Extensive experiments are conducted on benchmark datasets in different languages and domains. The experimental results show that our method, CPTAM, outperforms the state-of-the-art aggregation baselines. We also demonstrate that the weights estimated by CPTAM can adequately evaluate constituency parsers in the absence of ground truth.
翻訳日:2022-01-22 02:20:16 公開日:2022-01-19
# シグナライズド交差点におけるハイブリッド強化学習に基づくコネクテッドおよびオートマチック車両のエコ運転戦略

Hybrid Reinforcement Learning-Based Eco-Driving Strategy for Connected and Automated Vehicles at Signalized Intersections ( http://arxiv.org/abs/2201.07833v1 )

ライセンス: Link先を確認
Zhengwei Bai, Peng Hao, Wei Shangguan, Baigen Cai, Matthew Barth(参考訳) 車両間通信(v2x)と自動運転技術の両方を利用して、コネクテッドカーとオートマチックカーは、多くの交通問題に対する変革的な解決策の1つになっている。 しかし,信号交差点における混合交通環境では,交通システムの複雑さや不確実性を考慮した総合的なスループットとエネルギー効率の向上が課題となっている。 本研究では,複合交通における信号交差点におけるコネクテッド・エコドライブを支援するために,ルールベース戦略と深部強化学習を組み合わせたハイブリッド強化学習(HRL)フレームワークを提案する。 視覚知覚手法は車両間通信(V2I)と統合され、混在交通における移動性とエネルギー効率を高める。 HRLフレームワークには、ルールベースのポリシーとRLポリシの協調を運用するルールベースのドライブマネージャ、視覚とV2I情報の隠れた特徴を抽出するマルチストリームニューラルネットワーク、縦方向と横方向の両方のエコドライブアクションを生成する深いRLベースのポリシーネットワークの3つのコンポーネントがある。 このアプローチを評価するために,unityベースのシミュレータを開発し,混合トラフィック交差点シナリオを設計した。 さらに,新しい設計と比較するためにいくつかのベースラインを実装し,HRLモデルの性能評価のための数値実験を行った。 実験の結果, HRL法ではエネルギー消費を12.70%削減し, 11.75%の移動時間を節約できることがわかった。

Taking advantage of both vehicle-to-everythin g (V2X) communication and automated driving technology, connected and automated vehicles are quickly becoming one of the transformative solutions to many transportation problems. However, in a mixed traffic environment at signalized intersections, it is still a challenging task to improve overall throughput and energy efficiency considering the complexity and uncertainty in the traffic system. In this study, we proposed a hybrid reinforcement learning (HRL) framework which combines the rule-based strategy and the deep reinforcement learning (deep RL) to support connected eco-driving at signalized intersections in mixed traffic. Vision-perceptive methods are integrated with vehicle-to-infrastru cture (V2I) communications to achieve higher mobility and energy efficiency in mixed connected traffic. The HRL framework has three components: a rule-based driving manager that operates the collaboration between the rule-based policies and the RL policy; a multi-stream neural network that extracts the hidden features of vision and V2I information; and a deep RL-based policy network that generate both longitudinal and lateral eco-driving actions. In order to evaluate our approach, we developed a Unity-based simulator and designed a mixed-traffic intersection scenario. Moreover, several baselines were implemented to compare with our new design, and numerical experiments were conducted to test the performance of the HRL model. The experiments show that our HRL method can reduce energy consumption by 12.70% and save 11.75% travel time when compared with a state-of-the-art model-based Eco-Driving approach.
翻訳日:2022-01-21 15:00:19 公開日:2022-01-19
# PROMPT:エッジネットワークアプリケーションのための動的リソース割り当てポリシーの学習

PROMPT: Learning Dynamic Resource Allocation Policies for Edge-Network Applications ( http://arxiv.org/abs/2201.07916v1 )

ライセンス: Link先を確認
Drew Penney, Bin Li, Jaroslaw Sydir, Charlie Tai, Eoin Walsh, Thomas Long, Stefan Lee, Lizhong Chen(参考訳) サーバの利用を改善し、消費電力を削減し、高優先度のレイテンシクリティカルなワークロードとベストエフォートなワークロードを共同でスケジュールすることで、総所有コストを削減する方法を模索しているサービスプロバイダが増えている。 このプラクティスでは、リソース競合を低減し、Quality of Service(QoS)の保証を維持するために、ワークロード間のリソース割り当てを厳格に行う必要があります。 事前のリソース割当作業は理想的な状況下でサーバの利用を改善することが示されているが、よりダイナミックな運用環境でqosの保証を破ったり、有効なリソース割当を見つけられなかったりすることが多い。 さらに、先行研究はQoS測定に基本的に依存しており、実際にかなりの過渡的な変動を示すことができるため、安定した制御挙動は確実に達成できない。 本稿では,アクティブなqos予測に基づく動的資源割当のための新しいフレームワークを提案する。 これらの予測は、ワークロードの変動による一時的なQoS違反を避けながら、強化学習ベースのリソースコントローラを最適なリソース割り当てへと導くのに役立つ。 評価の結果,提案手法はQoS違反を4.3倍減らし,QoS違反の深刻度を3.7倍に低減し,作業負荷性能を向上し,従来よりも全体的な電力効率を向上させる。

A growing number of service providers are exploring methods to improve server utilization, reduce power consumption, and reduce total cost of ownership by co-scheduling high-priority latency-critical workloads with best-effort workloads. This practice requires strict resource allocation between workloads to reduce resource contention and maintain Quality of Service (QoS) guarantees. Prior resource allocation works have been shown to improve server utilization under ideal circumstances, yet often compromise QoS guarantees or fail to find valid resource allocations in more dynamic operating environments. Further, prior works are fundamentally reliant upon QoS measurements that can, in practice, exhibit significant transient fluctuations, thus stable control behavior cannot be reliably achieved. In this paper, we propose a novel framework for dynamic resource allocation based on proactive QoS prediction. These predictions help guide a reinforcement-learni ng-based resource controller towards optimal resource allocations while avoiding transient QoS violations due to fluctuating workload demands. Evaluation shows that the proposed method incurs 4.3x fewer QoS violations, reduces severity of QoS violations by 3.7x, improves best-effort workload performance, and improves overall power efficiency compared with prior work.
翻訳日:2022-01-21 14:59:49 公開日:2022-01-19
# エネルギー効率のよい6gネットワーク用分散フェデレート学習に向けて

Towards Energy Efficient Distributed Federated Learning for 6G Networks ( http://arxiv.org/abs/2201.08270v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Kapal Dev, Parus Khuwaja, Paolo Bellavista(参考訳) 5g/6gネットワークで実現すべき重要な概念は,無線基地局などの携帯・移動機器による通信サービスの提供である。 従来iot/edgeデバイスは、機械学習技術を使ってモデルをトレーニングするために、データをベースステーションに直接送信する必要がある。 データ転送はプライバシーの問題をもたらし、セキュリティの懸念と金銭的損失につながる可能性がある。 近年,ベースステーションとのモデル共有によるプライバシー問題を部分的に解決するために,連合学習が提案されている。 しかし、連合学習の中央集権性は、ベースステーション付近のデバイスがトレーニングされたモデルを共有することのみを許している。 さらに、長距離通信はデバイスを補完して送信電力を増大させ、エネルギー効率の懸念を生じさせる。 本研究では,遠隔デバイスにおける接続性とエネルギー効率の問題を克服する分散連合学習(DBFL)フレームワークを提案する。 DBFLフレームワークは、クラスタリングプロトコルを使用してデバイスを分散的に接続するモバイルエッジコンピューティングアーキテクチャと互換性がある。 実験結果から,従来のフェデレーション学習と比較して分類性能が7.4\%向上し,省エネルギー化が図られた。

The provision of communication services via portable and mobile devices, such as aerial base stations, is a crucial concept to be realized in 5G/6G networks. Conventionally, IoT/edge devices need to transmit the data directly to the base station for training the model using machine learning techniques. The data transmission introduces privacy issues that might lead to security concerns and monetary losses. Recently, Federated learning was proposed to partially solve privacy issues via model-sharing with base station. However, the centralized nature of federated learning only allow the devices within the vicinity of base stations to share the trained models. Furthermore, the long-range communication compels the devices to increase transmission power, which raises the energy efficiency concerns. In this work, we propose distributed federated learning (DBFL) framework that overcomes the connectivity and energy efficiency issues for distant devices. The DBFL framework is compatible with mobile edge computing architecture that connects the devices in a distributed manner using clustering protocols. Experimental results show that the framework increases the classification performance by 7.4\% in comparison to conventional federated learning while reducing the energy consumption.
翻訳日:2022-01-21 14:57:33 公開日:2022-01-19
# ROSジオレジゲーション:ロボット・オペレーティング・システムのための空中マルチスペクトル画像シミュレータ

ROS georegistration: Aerial Multi-spectral Image Simulator for the Robot Operating System ( http://arxiv.org/abs/2201.07863v1 )

ライセンス: Link先を確認
Andrew R. Willis, Kevin Brink, and Kathleen Dipple(参考訳) 本稿では,ロボット・オペレーティング・システム(ROS)とガゼボ3Dシミュレーション環境を用いたROSジオレジゲーションというソフトウェアパッケージについて述べる。 rosgeoregistrationは航空地理登録アルゴリズムのシミュレーション、テスト、デプロイのためのツールを提供し、論文に提供されているリンクで利用可能である。 Google Earth Engineデータベースからマルチスペクトル画像をダウンロードし、必要に応じて、これらの画像を単一の、おそらく非常に大きな参照イメージに組み込むモデル作成パッケージが提供される。 また、リアルタイムセンサポーズと画像形成モデルを用いて、特定基準画像を用いたシミュレーション画像を生成するGazeboプラグインと、UAV関連データの関連プラグインが提供される。 The novelty of this work is threefold: (1) this is the first system to link the massive multi-spectral imaging database of Google's Earth Engine to the Gazebo simulator, (2) this is the first example of a system that can simulate geospatially and radiometrically accurate imagery from multiple sensor views of the same terrain region, and (3) integration with other UAS tools creates a new holistic UAS simulation environment to support UAS system and subsystem development where real-world testing would generally be prohibitive. imu、gps/gnss、バロメーター、風速センサデータなど、他のペイロードセンサからのテレメトリと同期して画像を受け取ることができるクライアントアプリケーションに対して、センシングされた画像と地上の真理登録情報を公開する。 機能強調のために,Electro-Optical (EO) とSAR (Synthetic Aperture Radar) の画像センサをシミュレートするためのROSgeoregistrationと,画像ベースのUAS位置フィードバック,すなわち画像ベースの誘導ナビゲーション制御 (GNC) アプリケーションの開発と評価のためのユースケースを示す。

This article describes a software package called ROS georegistration intended for use with the Robot Operating System (ROS) and the Gazebo 3D simulation environment. ROSgeoregistration provides tools for the simulation, test and deployment of aerial georegistration algorithms and is made available with a link provided in the paper. A model creation package is provided which downloads multi-spectral images from the Google Earth Engine database and, if necessary, incorporates these images into a single, possibly very large, reference image. Additionally a Gazebo plugin which uses the real-time sensor pose and image formation model to generate simulated imagery using the specified reference image is provided along with related plugins for UAV relevant data. The novelty of this work is threefold: (1) this is the first system to link the massive multi-spectral imaging database of Google's Earth Engine to the Gazebo simulator, (2) this is the first example of a system that can simulate geospatially and radiometrically accurate imagery from multiple sensor views of the same terrain region, and (3) integration with other UAS tools creates a new holistic UAS simulation environment to support UAS system and subsystem development where real-world testing would generally be prohibitive. Sensed imagery and ground truth registration information is published to client applications which can receive imagery synchronously with telemetry from other payload sensors, e.g., IMU, GPS/GNSS, barometer, and windspeed sensor data. To highlight functionality, we demonstrate ROSgeoregistration for simulating Electro-Optical (EO) and Synthetic Aperture Radar (SAR) image sensors and an example use case for developing and evaluating image-based UAS position feedback, i.e., pose for image-based Guidance Navigation and Control (GNC) applications.
翻訳日:2022-01-21 14:55:42 公開日:2022-01-19
# Degree-Corrected Tensor Block Modelによるマルチウェイ球面クラスタリング

Multiway Spherical Clustering via Degree-Corrected Tensor Block Models ( http://arxiv.org/abs/2201.07401v1 )

ライセンス: Link先を確認
Jiaxin Hu, Miaoyan Wang(参考訳) 未知の次数不均一性の存在下でのマルチウェイクラスタリングの問題点を考察する。 このようなデータ問題は、リコメンデーションシステム、ニューロイメージング、コミュニティ検出、ソーシャルネットワークにおけるハイパーグラフ分割などのアプリケーションで一般的に発生する。 次数の不均一性の許容はクラスタリングモデルにおいて大きな柔軟性をもたらすが、余分な複雑さは統計と計算の両方において重大な課題をもたらす。 本稿では,推定精度を保証した次数補正テンソルブロックモデルを開発した。 本稿では,角度分離性の概念に基づくクラスタリング性能の位相遷移について述べるとともに,異なる統計計算行動に対応する3つの信号対雑音レジームを特徴付ける。 特に,3次以上のテンソルに対してのみ,本質的な統計的-計算的ギャップが生じることを示す。 さらに,軽度信号条件下で正確なクラスタリングを実現する効率的な多項式時間アルゴリズムを開発した。 本手法の有効性は,ヒト脳コネクトームプロジェクトとペルー立法ネットワークデータセットの2つのデータアプリケーションを用いて実証した。

We consider the problem of multiway clustering in the presence of unknown degree heterogeneity. Such data problems arise commonly in applications such as recommendation system, neuroimaging, community detection, and hypergraph partitions in social networks. The allowance of degree heterogeneity provides great flexibility in clustering models, but the extra complexity poses significant challenges in both statistics and computation. Here, we develop a degree-corrected tensor block model with estimation accuracy guarantees. We present the phase transition of clustering performance based on the notion of angle separability, and we characterize three signal-to-noise regimes corresponding to different statistical-computat ional behaviors. In particular, we demonstrate that an intrinsic statistical-to-compu tational gap emerges only for tensors of order three or greater. Further, we develop an efficient polynomial-time algorithm that provably achieves exact clustering under mild signal conditions. The efficacy of our procedure is demonstrated through two data applications, one on human brain connectome project, and another on Peru Legislation network dataset.
翻訳日:2022-01-21 14:52:21 公開日:2022-01-19
# ハイパーパラメータ最適化に基づく自動パレート最適性能と最小品質設定による近隣グラフの類似性探索

Similarity search on neighbor's graphs with automatic Pareto optimal performance and minimum expected quality setups based on hyperparameter optimization ( http://arxiv.org/abs/2201.07917v1 )

ライセンス: Link先を確認
Eric S. Tellez and Guillermo Ruiz(参考訳) 本書では,隣接グラフに基づいて最寄りの近傍を探索する自動調整アルゴリズムを導入し,最適化メタヒューリスティックスを用いて,品質と探索速度を自動的にパレート最適化探索する。 提案手法は,他の最先端の類似性検索手法と併用し,利便性と競争性を示す。

This manuscript introduces an autotuned algorithm for searching nearest neighbors based on neighbor graphs and optimization metaheuristics to produce Pareto-optimal searches for quality and search speed automatically; the same strategy is also used to produce indexes that achieve a minimum quality. Our approach is described and benchmarked with other state-of-the-art similarity search methods, showing convenience and competitiveness.
翻訳日:2022-01-21 14:32:09 公開日:2022-01-19
# 感情認識システムの教師なしパーソナライゼーション--音声における妥当性の外部化の特異性

Unsupervised Personalization of an Emotion Recognition System: The Unique Properties of the Externalization of Valence in Speech ( http://arxiv.org/abs/2201.07876v1 )

ライセンス: Link先を確認
Kusha Sridhar and Carlos Busso(参考訳) 発話の原子価の予測は重要であるが、難しい問題である。 音声におけるヴァレンスの外部化は話者に依存した手がかりを持ち、覚醒や支配といった他の感情的属性の予測よりもかなり低いパフォーマンスに寄与する。 音声からヴァレンス予測を改善するための実用的なアプローチは、テストセットのターゲット話者にモデルを適用することである。 音声感情認識(ser)システムを特定の話者に適応させることは、特にディープニューラルネットワーク(dnn)では、数百万のパラメータを最適化する必要があるため、難しい問題である。 本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。 選択した話者の音声サンプルを用いて適応セットを作成する。 この手法は,これらの音声サンプルに適応した事前学習モデルを用いた伝達学習を利用する。 そこで我々は,ユニークな話者,過剰サンプリング,重み付けアプローチという3つの適応戦略を提案する。 これらの方法は、ヴァレンスモデルのパーソナライズにおける適応セットの使用によって異なる。 その結果, 精度予測モデルは, 教師なしアプローチで効率的にパーソナライズでき, 相対的な改善が13.52%に達することがわかった。

The prediction of valence from speech is an important, but challenging problem. The externalization of valence in speech has speaker-dependent cues, which contribute to performances that are often significantly lower than the prediction of other emotional attributes such as arousal and dominance. A practical approach to improve valence prediction from speech is to adapt the models to the target speakers in the test set. Adapting a speech emotion recognition (SER) system to a particular speaker is a hard problem, especially with deep neural networks (DNNs), since it requires optimizing millions of parameters. This study proposes an unsupervised approach to address this problem by searching for speakers in the train set with similar acoustic patterns as the speaker in the test set. Speech samples from the selected speakers are used to create the adaptation set. This approach leverages transfer learning using pre-trained models, which are adapted with these speech samples. We propose three alternative adaptation strategies: unique speaker, oversampling and weighting approaches. These methods differ on the use of the adaptation set in the personalization of the valence models. The results demonstrate that a valence prediction model can be efficiently personalized with these unsupervised approaches, leading to relative improvements as high as 13.52%.
翻訳日:2022-01-21 14:31:09 公開日:2022-01-19
# ASLにおける表情と感情の役割

The Role of Facial Expressions and Emotion in ASL ( http://arxiv.org/abs/2201.07906v1 )

ライセンス: Link先を確認
Lee Kezar, Pei Zhou(参考訳) アメリカ手話における表情と感情の関係の定量化に関する先行研究はほとんどない。 本報告では,これらの関係を確率と予測を通じて研究するための2つの方法を提案する。 語彙的感情データセットと組み合わせた顔特徴を手作業でアノテートした自然署名の大規模なコーパスを用いて,感情と顔の間には多くの関係性があり,単純な分類器は,顔を見るだけで,広い感情カテゴリの観点で誰かが何を言っているのかを予測できることがわかった。

There is little prior work on quantifying the relationships between facial expressions and emotionality in American Sign Language. In this final report, we provide two methods for studying these relationships through probability and prediction. Using a large corpus of natural signing manually annotated with facial features paired with lexical emotion datasets, we find that there exist many relationships between emotionality and the face, and that a simple classifier can predict what someone is saying in terms of broad emotional categories only by looking at the face.
翻訳日:2022-01-21 14:27:06 公開日:2022-01-19
# correlationd-informe d neural networks: マイクロチャネルの圧力降下を予測する新しい機械学習フレームワーク

Correlated-informed neural networks: a new machine learning framework to predict pressure drop in micro-channels ( http://arxiv.org/abs/2201.07835v1 )

ライセンス: Link先を確認
J.A. Montanez-Barrera, J.M. Barroso-Maldonado, A.F. Bedoya-Santacruz, Adrian Mota-Babiloni(参考訳) 高温熱交換器の熱解析と幾何設計において, 強制沸騰現象の高精度圧力降下推定が重要である。 しかし、現在の圧力降下予測法には、精度の欠如と異なる状況への一般化の2つの問題がある。 本研究では, 人工ニューラルネットワーク(ANN)技術の適用における新たなパラダイムである相関情報ニューラルネットワーク(CoINN)と, マイクロチャネル内のゼオトロピック混合物の圧力降下を予測するためのマッピングツールとしての圧力降下相関について述べる。 提案手法は,データセットの削減を伴う深層学習問題によく用いられる転送学習に着想を得たものである。 提案手法は, 降圧に対する太陽・三島相関の知識をANNに伝達することにより, ANNの性能を向上させる。 マイクロチャネルの圧力降下に物理的および現象学的に影響を及ぼす相関は、ANNの性能と一般化能力を大幅に向上させる。 最終アーキテクチャは、混合蒸気の品質、マイクロチャネル内径、利用可能な圧力降下相関の3つの入力で構成されている。 その結果,訓練に使用する実験データと平均相対誤差 (mre) が6%, 太陽・三島相関 (13%) よりも低い後方試験で得られる利点が得られた。 さらに、このアプローチは他の混合物や実験的な設定にも拡張できるが、これは熱伝達への応用にANNを使用して相関関係をマッピングする他の手法に欠けている特徴である。

Accurate pressure drop estimation in forced boiling phenomena is important during the thermal analysis and the geometric design of cryogenic heat exchangers. However, current methods to predict the pressure drop have one of two problems: lack of accuracy or generalization to different situations. In this work, we present the correlated-informed neural networks (CoINN), a new paradigm in applying the artificial neural network (ANN) technique combined with a successful pressure drop correlation as a mapping tool to predict the pressure drop of zeotropic mixtures in micro-channels. The proposed approach is inspired by Transfer Learning, highly used in deep learning problems with reduced datasets. Our method improves the ANN performance by transferring the knowledge of the Sun & Mishima correlation for the pressure drop to the ANN. The correlation having physical and phenomenological implications for the pressure drop in micro-channels considerably improves the performance and generalization capabilities of the ANN. The final architecture consists of three inputs: the mixture vapor quality, the micro-channel inner diameter, and the available pressure drop correlation. The results show the benefits gained using the correlated-informed approach predicting experimental data used for training and a posterior test with a mean relative error (mre) of 6%, lower than the Sun & Mishima correlation of 13%. Additionally, this approach can be extended to other mixtures and experimental settings, a missing feature in other approaches for mapping correlations using ANNs for heat transfer applications.
翻訳日:2022-01-21 14:02:55 公開日:2022-01-19
# 確率的最適化を用いた連合学習のための通信効率の高いデバイススケジューリング

Communication-Effici ent Device Scheduling for Federated Learning Using Stochastic Optimization ( http://arxiv.org/abs/2201.07912v1 )

ライセンス: Link先を確認
Jake Perazzone, Shiqiang Wang, Mingyue Ji, Kevin Chan(参考訳) フェデレートラーニング(FL)は、ユーザのローカルデータセットをプライバシ保護の方法で活用する分散機械学習において有用なツールである。 しかし、FLを制約された無線環境にデプロイする場合、デバイス間の断続接続、異種接続品質、および非i.d.データにより、トレーニングモデルを時間効率で行うことは難しい課題である。 本稿では,各ラウンド毎に任意のデバイス選択確率を持つ i.i.d. および non-i.d. データセット上で fl を用いた非凸損失関数の新しい収束解析を行う。 次に、導出収束境界を用いて確率的最適化を行い、伝送電力制約下での収束境界と平均通信時間の関数を最小化する新しいクライアント選択と電力割当アルゴリズムを開発する。 最小化問題に対する分析的な解決策を見つける。 このアルゴリズムの重要な特徴の1つは、チャネル統計の知識は不要であり、瞬時チャネル状態情報のみを知る必要があることである。 FEMNIST と CIFAR-10 のデータセットを用いて,本アルゴリズムを用いて,一様ランダムな参加よりも通信時間を大幅に削減できることを示す。

Federated learning (FL) is a useful tool in distributed machine learning that utilizes users' local datasets in a privacy-preserving manner. When deploying FL in a constrained wireless environment; however, training models in a time-efficient manner can be a challenging task due to intermittent connectivity of devices, heterogeneous connection quality, and non-i.i.d. data. In this paper, we provide a novel convergence analysis of non-convex loss functions using FL on both i.i.d. and non-i.i.d. datasets with arbitrary device selection probabilities for each round. Then, using the derived convergence bound, we use stochastic optimization to develop a new client selection and power allocation algorithm that minimizes a function of the convergence bound and the average communication time under a transmit power constraint. We find an analytical solution to the minimization problem. One key feature of the algorithm is that knowledge of the channel statistics is not required and only the instantaneous channel state information needs to be known. Using the FEMNIST and CIFAR-10 datasets, we show through simulations that the communication time can be significantly decreased using our algorithm, compared to uniformly random participation.
翻訳日:2022-01-21 13:57:30 公開日:2022-01-19
# クローズテストによる機械共通感覚の評価

Evaluating Machine Common Sense via Cloze Testing ( http://arxiv.org/abs/2201.07902v1 )

ライセンス: Link先を確認
Ehsan Qasemi, Lee Kezar, Jay Pujara, Pedro Szekely(参考訳) 言語モデル (LM) は, CS の質問応答における技術性能の状態を示すが, この能力がCS の人間レベルの熟達を示唆するかどうかは未解決のままである。 LMの限界と強みを理解することは、研究者がこれらのモデルを改善するのに役立つ。 我々は, cs の異なる側面における性能を体系的に定量化するために, 一連のテストと測定を考案する。 本研究では,単語埋め込みと組み合わせたクローゼテストを用いて,lmの堅牢性と信頼性を測定する。 その結果,言語モデルでは人間のような精度が得られやすいが,信頼性は低いことがわかった。 将来の作業では、この情報を利用して、シンボリック知識と分散知識の集合のような、より複雑なシステムを構築することができる。

Language models (LMs) show state of the art performance for common sense (CS) question answering, but whether this ability implies a human-level mastery of CS remains an open question. Understanding the limitations and strengths of LMs can help researchers improve these models, potentially by developing novel ways of integrating external CS knowledge. We devise a series of tests and measurements to systematically quantify their performance on different aspects of CS. We propose the use of cloze testing combined with word embeddings to measure the LM's robustness and confidence. Our results show than although language models tend to achieve human-like accuracy, their confidence is subpar. Future work can leverage this information to build more complex systems, such as an ensemble of symbolic and distributed knowledge.
翻訳日:2022-01-21 13:55:55 公開日:2022-01-19
# asl video corpora & sign bank: resources available via the american sign language language research project (asllrp)

ASL Video Corpora & Sign Bank: Resources Available through the American Sign Language Linguistic Research Project (ASLLRP) ( http://arxiv.org/abs/2201.07899v1 )

ライセンス: Link先を確認
Carol Neidle, Augustine Opoku, Dimitris Metaxas(参考訳) American Sign Language Linguistic Research Project (ASLLRP)は、高品質のASLビデオデータへのインターネットアクセスを提供する。 署名のマニュアルおよび非マニュアルコンポーネントはSignStream(R)を使用して言語的に注釈付けされている。 最近拡張されたビデオコーパスは、私たちが設計したデータアクセスインターフェース(dai2)を通じて閲覧および検索することができます。 私たちのコーパスからのデータもダウンロードできます。アノテーションはXMLエクスポートフォーマットで利用可能です。 ASLLRP Sign Bank も開発しており, 約6,000 個の語彙記号のサインエントリと, 英語をベースとしたグルースと, 合計41,830 個の語彙記号(約300ジェスチャー, 1,000 個の指先記号, 475 個の分類器の例)が組み込まれている。 Sign Bankもインターネット上でアクセス可能で検索可能であり、SignStream(R)内(言語アノテーションや視覚言語データの分析を容易にするソフトウェア)からアクセスして、アノテーションをより正確かつ効率的にすることができる。 ここで利用可能なリソースについて説明する。 これらのデータは、言語学やビデオによるコンピュータベースの手話認識において、様々な種類の研究に使われてきました。

The American Sign Language Linguistic Research Project (ASLLRP) provides Internet access to high-quality ASL video data, generally including front and side views and a close-up of the face. The manual and non-manual components of the signing have been linguistically annotated using SignStream(R). The recently expanded video corpora can be browsed and searched through the Data Access Interface (DAI 2) we have designed; it is possible to carry out complex searches. The data from our corpora can also be downloaded; annotations are available in an XML export format. We have also developed the ASLLRP Sign Bank, which contains almost 6,000 sign entries for lexical signs, with distinct English-based glosses, with a total of 41,830 examples of lexical signs (in addition to about 300 gestures, over 1,000 fingerspelled signs, and 475 classifier examples). The Sign Bank is likewise accessible and searchable on the Internet; it can also be accessed from within SignStream(R) (software to facilitate linguistic annotation and analysis of visual language data) to make annotations more accurate and efficient. Here we describe the available resources. These data have been used for many types of research in linguistics and in computer-based sign language recognition from video; examples of such research are provided in the latter part of this article.
翻訳日:2022-01-21 13:33:53 公開日:2022-01-19
# データセットバイアスの複数の源が存在する場合のAIアルゴリズムの下位診断の検討

Investigating underdiagnosis of AI algorithms in the presence of multiple sources of dataset bias ( http://arxiv.org/abs/2201.07856v1 )

ライセンス: Link先を確認
Melanie Bernhardt, Charles Jones, Ben Glocker(参考訳) 深層学習モデルは、臨床意思決定を支援する画像ベースの診断に大きな可能性を示している。 同時に、多くのレポートが、トレーニングデータに埋め込まれた人間のバイアスによって、機械学習が既存の健康格差を増幅する可能性があるという潜在的なリスクを提起している。 公平な人工知能システムを構築したいのであれば、バイアスの再現や増幅の程度を慎重に検討することが非常に重要です。 seyyed-kalantariらはこの会話を進め、集団における病原体分類器の性能を分析した。 この分析から,下垂体症に関連するパフォーマンスの格差が指摘され,さらなる注意を払わなければならないと考えられる領域が特定される。 具体的には、トレーニングデータと同じバイアス分布から引き出されたデータ、特に情報源やバイアス量が不明な場合に、モデルフェアネスを評価することに関連する理論的、実践的な困難を強調したい。

Deep learning models have shown great potential for image-based diagnosis assisting clinical decision making. At the same time, an increasing number of reports raise concerns about the potential risk that machine learning could amplify existing health disparities due to human biases that are embedded in the training data. It is of great importance to carefully investigate the extent to which biases may be reproduced or even amplified if we wish to build fair artificial intelligence systems. Seyyed-Kalantari et al. advance this conversation by analysing the performance of a disease classifier across population subgroups. They raise performance disparities related to underdiagnosis as a point of concern; we identify areas from this analysis which we believe deserve additional attention. Specifically, we wish to highlight some theoretical and practical difficulties associated with assessing model fairness through testing on data drawn from the same biased distribution as the training data, especially when the sources and amount of biases are unknown.
翻訳日:2022-01-21 13:30:45 公開日:2022-01-19
# (参考訳) 言語モデル駆動型会話推薦における意図しないバイアス [全文訳有]

Unintended Bias in Language Model-driven Conversational Recommendation ( http://arxiv.org/abs/2201.06224v2 )

ライセンス: CC BY 4.0
Tianshu Shen, Jiaru Li, Mohamed Reda Bouadjenek, Zheda Mai, Scott Sanner(参考訳) Conversational Recommendation Systems (CRSs) は、最近、様々な好み文のバリエーションを意味論的に解釈できるBERTのような事前訓練された言語モデル (LM) を活用し始めている。 しかし、事前学習されたLMは、トレーニングデータに固有のバイアスが伴うことがよく知られており、これは、CRSのための微調整に使用されるドメイン固有の言語データ(例えば、ユーザレビュー)に埋め込まれたバイアスによって悪化する可能性がある。 本研究では,最近導入したcrsのlm-driven recommendation backbone (lmrec) について検討し,レストランの推薦価格やカテゴリー分布が著しく変化した際に,リコメンデーションに影響を与えない名前や性的指向の間接的指標といった意図しないバイアスや位置など,意図しないバイアスについて検討した。 その結果,lmrecは有害なステレオタイプを推奨することで強化できることが強く示唆された。 例えば、黒人コミュニティに関連する名前のオフハンド言及は推奨レストランの価格分布を著しく下げる一方、男性関連の名前のオフハンド言及は推奨アルコール飲食施設の増加につながっている。 LM駆動CRSの言語処理能力が向上する赤旗は、将来のデプロイされたCRSアシスタントにおける意図しないバイアスを軽減し、数十万のエンドユーザにリーチできるという重大な課題を伴わない。

Conversational Recommendation Systems (CRSs) have recently started to leverage pretrained language models (LM) such as BERT for their ability to semantically interpret a wide range of preference statement variations. However, pretrained LMs are well-known to be prone to intrinsic biases in their training data, which may be exacerbated by biases embedded in domain-specific language data(e.g., user reviews) used to fine-tune LMs for CRSs. We study a recently introduced LM-driven recommendation backbone (termed LMRec) of a CRS to investigate how unintended bias i.e., language variations such as name references or indirect indicators of sexual orientation or location that should not affect recommendations manifests in significantly shifted price and category distributions of restaurant recommendations. The alarming results we observe strongly indicate that LMRec has learned to reinforce harmful stereotypes through its recommendations. For example, offhand mention of names associated with the black community significantly lowers the price distribution of recommended restaurants, while offhand mentions of common male-associated names lead to an increase in recommended alcohol-serving establishments. These and many related results presented in this work raise a red flag that advances in the language handling capability of LM-drivenCRSs do not come without significant challenges related to mitigating unintended bias in future deployed CRS assistants with a potential reach of hundreds of millions of end-users.
翻訳日:2022-01-21 07:01:20 公開日:2022-01-19
# (参考訳) Deep $\Delta$-Interpolato r によるモーションインベント [全文訳有]

Motion Inbetweening via Deep $\Delta$-Interpolato r ( http://arxiv.org/abs/2201.06701v2 )

ライセンス: CC BY 4.0
Boris N. Oreshkin, Antonios Valkanas, F\'elix G. Harvey, Louis-Simon M\'enard, Florent Bocquelet, Mark J. Coates(参考訳) アニメーション業界で一般的にはモーションインベンションとして知られる中間フレームを合成するタスクは、球状線形補間器をベースラインとしてデルタモードで深層学習補間器が動作した場合、より正確かつ効果的に解決できることを示す。 公開されているLaFAN1データセット上で実証的な結果を示す。 我々は、この結果をさらに一般化し、最後の既知のフレーム(ゼロ速度モデルとしても知られる)の参照に関して$\Delta$-regimeが実現可能であることを示す。 これは、入力フレームに局所的な参照フレームの深いインベントワイニングが、以前の研究で提唱されたグローバル(世界)参照フレームのインベントワイニングよりも正確で堅牢である、というより一般的な結論を支持する。 私たちのコードはhttps://github.com/b oreshkinai/delta-int erpolatorで公開しています。

We show that the task of synthesizing missing middle frames, commonly known as motion inbetweening in the animation industry, can be solved more accurately and effectively if a deep learning interpolator operates in the delta mode, using the spherical linear interpolator as a baseline. We demonstrate our empirical findings on the publicly available LaFAN1 dataset. We further generalize this result by showing that the $\Delta$-regime is viable with respect to the reference of the last known frame (also known as the zero-velocity model). This supports the more general conclusion that deep inbetweening in the reference frame local to input frames is more accurate and robust than inbetweening in the global (world) reference frame advocated in previous work. Our code is publicly available at https://github.com/b oreshkinai/delta-int erpolator.
翻訳日:2022-01-21 02:37:11 公開日:2022-01-19
# (参考訳) COPA-SSE:Commonsense Reasoningのための半構造化説明 [全文訳有]

COPA-SSE: Semi-structured Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2201.06777v2 )

ライセンス: CC BY 4.0
Ana Brassard, Benjamin Heinzerling, Pride Kavumba, Kentaro Inui(参考訳) 我々は,COPA質問に対する英語の半構造化・常識的説明をクラウドソーシングした新しいデータセットであるCOPA-SSE(Semi-Struct ured Explanations for COPA)を提案する。 これらの説明は、概念ネットの関係を持つが自由に書かれた三重類似の常識文の集合として形式化されている。 この半構造化フォーマットは、構造化データの高品質だが低いカバレッジと低い品質と自由形式のクラウドソーシングとのバランスをとる。 それぞれの説明には、人間による品質評価も含まれている。 慣れ親しんだ形式で、これらの説明は知識グラフを操作する常識的推論者に向けられ、そのようなシステムを改善するための継続的な取り組みの出発点となる。

We present Semi-Structured Explanations for COPA (COPA-SSE), a new crowdsourced dataset of 9,747 semi-structured, English common sense explanations for COPA questions. The explanations are formatted as a set of triple-like common sense statements with ConceptNet relations but freely written concepts. This semi-structured format strikes a balance between the high quality but low coverage of structured data and the lower quality but high coverage of free-form crowdsourcing. Each explanation also includes a set of human-given quality ratings. With their familiar format, the explanations are geared towards commonsense reasoners operating on knowledge graphs and serve as a starting point for ongoing work on improving such systems.
翻訳日:2022-01-21 02:20:07 公開日:2022-01-19
# (参考訳) Denoising Trainingによるニューラルマシン翻訳の改善 [全文訳有]

Improving Neural Machine Translation by Denoising Training ( http://arxiv.org/abs/2201.07365v1 )

ライセンス: CC0 1.0
Liang Ding, Keqin Peng and Dacheng Tao(参考訳) 本稿では,ニューラルネットワーク翻訳のための簡易かつ効果的な事前学習戦略 {D}en{o}ising {T}raining DoTを提案する。 具体的には、モデルパラメータを初期段階でソースおよびターゲットサイドのデノイジングタスクで更新し、モデルを正常にチューニングします。 特に、我々のアプローチはパラメータやトレーニングステップを増やさず、単に並列データを必要とします。 実験によると、dotは12のバイリンガルと16の多言語方向(データサイズは80kから20m)で一貫してニューラルネットワークの翻訳性能を向上させる。 さらに,dotが既存のデータ操作戦略,すなわちカリキュラム学習,知識蒸留,データの多様化,双方向トレーニング,バックトランスレーションを補完できることも示す。 その結果,DoTは高リソース環境での事前学習モデルmBARTよりも優れていることがわかった。 分析によるとdotは、新しいドメイン内クロスリンガル事前学習戦略であり、タスク関連の自己スーパービジョンによりさらなる改善を提供する可能性がある。

We present a simple and effective pretraining strategy {D}en{o}ising {T}raining DoT for neural machine translation. Specifically, we update the model parameters with source- and target-side denoising tasks at the early stage and then tune the model normally. Notably, our approach does not increase any parameters or training steps, requiring the parallel data merely. Experiments show that DoT consistently improves the neural machine translation performance across 12 bilingual and 16 multilingual directions (data size ranges from 80K to 20M). In addition, we show that DoT can complement existing data manipulation strategies, i.e. curriculum learning, knowledge distillation, data diversification, bidirectional training, and back-translation. Encouragingly, we found that DoT outperforms costly pretrained model mBART in high-resource settings. Analyses show DoT is a novel in-domain cross-lingual pretraining strategy and could offer further improvements with task-relevant self-supervisions.
翻訳日:2022-01-21 00:00:53 公開日:2022-01-19
# (参考訳) 先見的な学習: 未来への回帰 [全文訳有]

Prospective Learning: Back to the Future ( http://arxiv.org/abs/2201.07372v1 )

ライセンス: CC BY 4.0
Joshua T. Vogelstein, Timothy Verstynen, Konrad P. Kording, Leyla Isik, John W. Krakauer, Ralph Etienne-Cummings, Elizabeth L. Ogburn, Carey E. Priebe, Randal Burns, Kwame Kutten, James J. Knierim, James B. Potash, Thomas Hartung, Lena Smirnova, Paul Worley, Alena Savonenko, Ian Phillips, Michael I. Miller, Rene Vidal, Jeremias Sulam, Adam Charles, Noah J. Cowan, Maxim Bichuch, Archana Venkataraman, Chen Li, Nitish Thakor, Justus M Kebschull, Marilyn Albert, Jinchong Xu, Marshall Hussain Shuler, Brian Caffo, Tilak Ratnanather, Ali Geisa, Seung-Eon Roh, Eva Yezerets, Meghana Madhyastha, Javier J. How, Tyler M. Tomita, Jayanta Dey, Ningyuan (Teresa) Huang, Jong M. Shin, Kaleab Alemayehu Kinfu, Pratik Chaudhari, Ben Baker, Anna Schapiro, Dinesh Jayaraman, Eric Eaton, Michael Platt, Lyle Ungar, Leila Wehbe, Adam Kepecs, Amy Christensen, Onyema Osuagwu, Bing Brunton, Brett Mensh, Alysson R. Muotri, Gabriel Silva, Francesca Puppo, Florian Engert, Elizabeth Hillman, Julia Brown, Chris White, Weiwei Yang(参考訳) ナチュラル・インテリジェンス(NI)と人工知能(AI)の両方の研究は、未来は過去のものと似ていると一般的に仮定している。 これを「振り返り学習」と呼ぶ。 例えば、知性は、オブジェクトの一連の写真とそれらの名前を見て、それらを命名することを学ぶかもしれない。 振り返り学習インテリジェンスは、単に同じオブジェクトのより多くの写真に名前を付けることができる。 これは真の知性ではない、と私たちは主張する。 多くの現実世界の問題では、NIとAIの両方が不確実な未来について学ぶ必要がある。 どちらも、基本的な新しいオブジェクトの命名や、これらのオブジェクトを新しいコンテキストで効果的に使用したり、これまで管理されていなかった目標を達成するなど、将来のタスクに役立つように内部モデルを更新する必要がある。 私たちが「プロスペクティブ・ラーニング」と呼ぶ未来のために学ぶ能力。 予測学習を共同で定義する4つの関連要因を述べる。 継続的学習は、知性が将来最も役に立つと信じている過去のこれらの側面を思い出せるようにする。 先進的な制約(バイアスや事前を含む)は、将来の問題に適用可能な一般的な解を見つけるインテリジェンスを促進する。 好奇心は将来の意思決定を知らせる行動を取る動機となる。 因果推定(Causal Estimation)は、特定の結果に対する選択行動のガイドとなる関係構造を学習することを可能にする。 ふりかえりから前向きな学習へのパラダイムシフトは、知性を研究するコミュニティが既存のボトルネックを統一し、克服し、より効果的に説明し、拡張し、エンジニアの知性を高めることを可能にします。

Research on both natural intelligence (NI) and artificial intelligence (AI) generally assumes that the future resembles the past: intelligent agents or systems (what we call 'intelligence') observe and act on the world, then use this experience to act on future experiences of the same kind. We call this 'retrospective learning'. For example, an intelligence may see a set of pictures of objects, along with their names, and learn to name them. A retrospective learning intelligence would merely be able to name more pictures of the same objects. We argue that this is not what true intelligence is about. In many real world problems, both NIs and AIs will have to learn for an uncertain future. Both must update their internal models to be useful for future tasks, such as naming fundamentally new objects and using these objects effectively in a new context or to achieve previously unencountered goals. This ability to learn for the future we call 'prospective learning'. We articulate four relevant factors that jointly define prospective learning. Continual learning enables intelligences to remember those aspects of the past which it believes will be most useful in the future. Prospective constraints (including biases and priors) facilitate the intelligence finding general solutions that will be applicable to future problems. Curiosity motivates taking actions that inform future decision making, including in previously unmet situations. Causal estimation enables learning the structure of relations that guide choosing actions for specific outcomes, even when the specific action-outcome contingencies have never been observed before. We argue that a paradigm shift from retrospective to prospective learning will enable the communities that study intelligence to unite and overcome existing bottlenecks to more effectively explain, augment, and engineer intelligences.
翻訳日:2022-01-20 23:48:19 公開日:2022-01-19
# (参考訳) ニューラルコードモデルにおけるProject-Specific Biasの展開 [全文訳有]

Unveiling Project-Specific Bias in Neural Code Models ( http://arxiv.org/abs/2201.07381v1 )

ライセンス: CC BY 4.0
Zhiming Li, Yanzhou Li, Tianlin Li, Mengnan Du, Bozhi Wu, Yushi Cao, Xiaofei Xie, Yi Li, Yang Liu(参考訳) ニューラルコードモデルは、型推論や脆弱性検出など、多くのソフトウェア分析タスクに対して大幅に改善されている。 プロジェクト内独立かつ同一分散(IID)トレーニングおよび検証設定下では,このようなモデルの性能は良好であるにもかかわらず,実際のプロジェクト間アウトオブディストリビューション(OOD)設定に一般化できないことが多い。 本研究では,プロジェクト固有の,自己定義変数や関数名などの一般化不可能なトークンを下流予測に頼り,プロジェクト固有のバイアス学習行動として定式化することで,そのような現象が引き起こされることを示す。 本研究では,共起確率と逆文書頻度を組み合わせ,トークンとラベルの関連度とそのプロジェクト固有性を測定することで,このような振る舞いをCond-Idfと呼ぶ。 この近似は、事前の知識と適切な正規化がなければ、モデルは予測に急激な統計的手がかりを利用する傾向があることを示している。 そこで本研究では, サンプル間の潜在論理関係を活用し, 適切な行動に基づいて推論するモデルを定式化するバイアス緩和機構バッチ分割正則化(bpr)を提案する。 2つのディープコードベンチマークの実験結果は、bprがiidデータの精度を犠牲にすることなく、プロジェクト間oodの一般化と敵対的ロバスト性の両方を改善できることを示している。

Neural code models have introduced significant improvements over many software analysis tasks like type inference, vulnerability detection, etc. Despite the good performance of such models under the common intra-project independent and identically distributed (IID) training and validation setting, we observe that they usually fail to generalize to real-world inter-project out-of-distribution (OOD) setting. In this work, we show that such phenomenon is caused by model heavily relying on project-specific, ungeneralizable tokens like self-defined variable and function names for downstream prediction, and we formulate it as the project-specific bias learning behavior. We propose a measurement to interpret such behavior, termed as Cond-Idf, which combines co-occurrence probability and inverse document frequency to measure the level of relatedness of token with label and its project-specificness . The approximation indicates that without proper regularization with prior knowledge, model tends to leverage spurious statistical cues for prediction. Equipped with these observations, we propose a bias mitigation mechanism Batch Partition Regularization (BPR) that regularizes model to infer based on proper behavior by leveraging latent logic relations among samples. Experimental results on two deep code benchmarks indicate that BPR can improve both inter-project OOD generalization and adversarial robustness while not sacrificing accuracy on IID data.
翻訳日:2022-01-20 23:14:14 公開日:2022-01-19
# (参考訳) オートエンコーダに基づくオンラインディープラーニング [全文訳有]

Online Deep Learning based on Auto-Encoder ( http://arxiv.org/abs/2201.07383v1 )

ライセンス: CC BY 4.0
Si-si Zhang, Jian-wei Liu, Xin Zuo, Run-kun Lu, Si-ming Lian(参考訳) オンライン学習は、大量のリアルタイムおよび高速データをスケッチする重要な技術手段である。 この方向性に注目が集まっているが,本分野の文献の多くは,(1)抽象的階層的潜在情報のうち,たとえこれらの抽象的階層的潜在表現を抽出しても,例のクラスラベルをよりよく予測するのに有用であったとしても,その基礎となる抽象的階層的潜在情報はほとんど考えていない,(2)未確認データポイントの事前割り当てモデルは,確率分布の進化を伴うストリーミングデータのモデリングには適さない,という3つの問題を無視している。 この課題はモデルの柔軟性と呼ばれる。 したがって、このことを念頭に置いて、私たちが設計する必要があるオンラインディープラーニングモデルは、可変な基盤構造を持つべきである。(3)さらに、データ分散が変化するデータストリーミングを扱う際に、これらの抽象階層的潜在表現を融合して、より優れた分類性能を達成することは最も重要である。 そこで本研究では,auto-encoder (odlae) に基づく2段階のオンライン深層学習を提案する。 自己エンコーダに基づいて,レコンストラクション損失を考慮し,インスタンスの抽象階層的潜在表現を抽出する。予測損失に基づいて,エンコーダの各隠れレイヤの分類結果を融合して得られる出力レベル融合戦略と,すべての隠れレイヤ出力を融合するために自己アテンション機構を活用した特徴レベル融合戦略と,2つの融合戦略を考案する。 最後に,アルゴリズムのロバスト性を向上させるため,階層的潜在表現を生成するために,雑音化オートエンコーダも活用する。 提案アルゴリズム (ODLAE) の有効性を検証するために, 異なるデータセットに対する実験結果を示す。

Online learning is an important technical means for sketching massive real-time and high-speed data. Although this direction has attracted intensive attention, most of the literature in this area ignore the following three issues: (1) they think little of the underlying abstract hierarchical latent information existing in examples, even if extracting these abstract hierarchical latent representations is useful to better predict the class labels of examples; (2) the idea of preassigned model on unseen datapoints is not suitable for modeling streaming data with evolving probability distribution. This challenge is referred as model flexibility. And so, with this in minds, the online deep learning model we need to design should have a variable underlying structure; (3) moreover, it is of utmost importance to fusion these abstract hierarchical latent representations to achieve better classification performance, and we should give different weights to different levels of implicit representation information when dealing with the data streaming where the data distribution changes. To address these issues, we propose a two-phase Online Deep Learning based on Auto-Encoder (ODLAE). Based on auto-encoder, considering reconstruction loss, we extract abstract hierarchical latent representations of instances; Based on predictive loss, we devise two fusion strategies: the output-level fusion strategy, which is obtained by fusing the classification results of encoder each hidden layer; and feature-level fusion strategy, which is leveraged self-attention mechanism to fusion every hidden layer output. Finally, in order to improve the robustness of the algorithm, we also try to utilize the denoising auto-encoder to yield hierarchical latent representations. Experimental results on different datasets are presented to verify the validity of our proposed algorithm (ODLAE) outperforms several baselines.
翻訳日:2022-01-20 22:58:54 公開日:2022-01-19
# (参考訳) 通常の因果発見 [全文訳有]

Ordinal Causal Discovery ( http://arxiv.org/abs/2201.07396v1 )

ライセンス: CC BY 4.0
Yang Ni and Bani Mallick(参考訳) 純粋に観察的で分類的なデータの因果発見は、長年の課題である。 連続データとは異なり、分類データの既存のほとんどの方法はマルコフ同値類のみを推論することに集中しており、因果関係の方向は決定されていない。 本稿では,実世界の多くのアプリケーションに含まれる順序情報を利用して因果構造を一意に識別する,同定可能な順序因果発見手法を提案する。 構造学習のための単純なスコア・アンド・サーチアルゴリズムを開発した。 提案手法は, 順序データを超えたデータ離散化に適用できる。 実世界および合成実験により,提案手法は,順序的分類と非カテゴリー的データの両方において,最先端の代替法と比較して良好かつロバストな性能を示すことを実証した。

Causal discovery for purely observational, categorical data is a long-standing challenging problem. Unlike continuous data, the vast majority of existing methods for categorical data focus on inferring the Markov equivalence class only, which leaves the direction of some causal relationships undetermined. This paper proposes an identifiable ordinal causal discovery method that exploits the ordinal information contained in many real-world applications to uniquely identify the causal structure. Simple score-and-search algorithms are developed for structure learning. The proposed method is applicable beyond ordinal data via data discretization. Through real-world and synthetic experiments, we demonstrate that the proposed ordinal causal discovery method has favorable and robust performance compared to state-of-the-art alternative methods in both ordinal categorical and non-categorical data.
翻訳日:2022-01-20 22:42:56 公開日:2022-01-19
# (参考訳) ニューラルネットワークモデルは効果的なプラジャリストである

Neural Language Models are Effective Plagiarists ( http://arxiv.org/abs/2201.07406v1 )

ライセンス: CC BY 4.0
Stella Biderman and Edward Raff(参考訳) 人工知能(AI)技術が社会においてますます強力で顕著になるにつれて、その誤用が懸念されている。 教育環境では、AI技術は学生が課題や試験で不正に利用することができる。 本稿では、一般的なaiツールを用いて盗作を検知しながら、導入レベルのプログラミング課題を解決するためにトランスフォーマーが使用できるかどうかを考察する。 我々は, GPT-J (Wang and Komatsuzaki, 2021) を用いた学生が, MOSS (Aiken, 2000) から疑念を生じさせることなく, 導入レベルのプログラミング課題を完了できることを発見した。 これは、GPT-Jが問題に関するトレーニングを受けておらず、そこから動くサンプルが提供されていないにもかかわらず、成り立っている。 さらに、GPT-Jで書かれたコードは構造的に多様であり、将来の盗作検出技術がアルゴリズムによって生成されたコードを特定するために使われる可能性があることを特に示していない。 本稿では,大規模言語モデルと今後の研究の方向性の倫理的・教育的意味について論じる。

As artificial intelligence (AI) technologies become increasingly powerful and prominent in society, their misuse is a growing concern. In educational settings, AI technologies could be used by students to cheat on assignments and exams. In this paper we explore whether transformers can be used to solve introductory level programming assignments while bypassing commonly used AI tools to detect plagiarism. We find that a student using GPT-J [Wang and Komatsuzaki, 2021] can complete introductory level programming assignments without triggering suspicion from MOSS [Aiken, 2000], a widely used plagiarism detection tool. This holds despite the fact that GPT-J was not trained on the problems in question and is not provided with any examples to work from. We further find that the code written by GPT-J is diverse in structure, lacking any particular tells that future plagiarism detection techniques may use to try to identify algorithmically generated code. We conclude with a discussion of the ethical and educational implications of large language models and directions for future research.
翻訳日:2022-01-20 22:22:44 公開日:2022-01-19
# (参考訳) 孤独な多くの方法--「孤独」の微粒化と新型コロナウイルスの潜在的変化- [全文訳有]

Many Ways to be Lonely: Fine-grained Characterization of Loneliness and its Potential Changes in COVID-19 ( http://arxiv.org/abs/2201.07423v1 )

ライセンス: CC BY 4.0
Yueyi Jiang, Yunfan Jiang, Leqi Liu, Piotr Winkielman(参考訳) 孤独は身体的および精神的な健康に対する否定的な結果に結びついている。 さまざまな孤独の表現や対処方法を理解することは、特に若い大人のような脆弱なグループにおいて、孤独を減らすための早期スクリーニングや目標とした介入に不可欠である。 孤独な自己開示において、孤独と対処戦略の異なる形態がどのように現れるかを調べるために、さまざまな年齢グループで構成される2つの若者向けフォーラムと2つの孤独関連フォーラムでReddit投稿を使用することにより、FIG-Loneliness(Fine- Grained Loneliness)というデータセットを構築した。 ポストの2値および細粒度の寂しさ分類のための,訓練された人間アノテーションによるアノテーションを提供する。 FIG-Lonelinessに基づいてトレーニングされた2つのBERTベースのモデルは、これらのフォーラムにおける孤独な形式と著者の対処戦略を理解するために使用された。 我々のバイナリ孤独分類は97%以上の精度でアーカイブされ、細粒度の孤独分類はすべてのラベル付きカテゴリーで平均77%の精度に達した。 FIG-Lonelinessとモデル予測により,若年者関連フォーラムにおける孤独表現は他のフォーラムと異なることがわかった。 若者向けフォーラムの参加者は、相互関係に関わる懸念を表明する可能性が高く、新型コロナウイルス(covid-19)のパンデミックによる地理的孤立に敏感になる可能性がある。 また,異なる孤独形態が対処戦略において異なる利用法を持つことを示す。

Loneliness has been associated with negative outcomes for physical and mental health. Understanding how people express and cope with various forms of loneliness is critical for early screening and targeted interventions to reduce loneliness, particularly among vulnerable groups such as young adults. To examine how different forms of loneliness and coping strategies manifest in loneliness self-disclosure, we built a dataset, FIG-Loneliness (FIne-Grained Loneliness) by using Reddit posts in two young adult-focused forums and two loneliness related forums consisting of a diverse age group. We provide annotations by trained human annotators for binary and fine-grained loneliness classifications of the posts. Trained on FIG-Loneliness, two BERT-based models were used to understand loneliness forms and authors' coping strategies in these forums. Our binary loneliness classification archived an accuracy above 97%, and fine-grained loneliness category classification reached an average accuracy of 77% across all labeled categories. With FIG-Loneliness and model predictions, we found that loneliness expressions in the young adult related forums are distinct from other forums. Those in young adult-focused forums are more likely to express concerns pertaining to peer relationship, and are potentially more sensitive to geographical isolation impacted by the COVID-19 pandemic lockdown. Also, we show that different forms of loneliness have differential use in coping strategies.
翻訳日:2022-01-20 22:21:40 公開日:2022-01-19
# (参考訳) WebUAV-3M: 数百万ものUAV追跡のパワーを示すベンチマーク [全文訳有]

WebUAV-3M: A Benchmark Unveiling the Power of Million-Scale Deep UAV Tracking ( http://arxiv.org/abs/2201.07425v1 )

ライセンス: CC BY 4.0
Chunhui Zhang, Guanjie Huang, Li Liu, Shan Huang, Yinan Yang, Yuxuan Zhang, Xiang Wan, Shiming Ge(参考訳) 本研究は,WebUAV-3M(Unmanned Aerial Vehicle (UAV)) と呼ばれる新しい100万台の無人航空機の追跡ベンチマークに貢献する。 まず、インターネットから3Mフレーム以上の4,485本のビデオを収集します。 次に,SATA(Semi-Automatic Target Annotation)パイプラインを設計し,各フレームに巨大なWebUAV-3Mをラベル付けする。 我々の知る限りでは、密接なバウンディングボックスのWebUAV-3Mは、UAV追跡ベンチマークで最大のものである。 幅広い対象カテゴリをカバーする100万規模のアノテートベンチマークを確立することで、UAV追跡におけるフォローアップ研究の道を開くことを期待する。 さらに,視覚的外観,自然言語,音声の密接な関係を考慮し,自然言語仕様と音声記述を提供することでWebUAV-3Mを充実させ,UAV追跡のための自然言語特徴と音声の探索を奨励する。 このベンチマークと合わせて、100万件のUAV追跡問題を掘り下げ、深いUAVトラッカーをトレーニングし、UAV追跡アプローチを評価するための大規模なベンチマークをコミュニティに提供することを目的としています。 WebUAV-3Mの大規模な実験は、依然として強力なUAV追跡の改善の余地があることを実証している。 データセット、ツールキット、ベースラインの結果は \url{https://github.com/9 83632847/webuav-3m} で入手できる。

In this work, we contribute a new million-scale Unmanned Aerial Vehicle (UAV) tracking benchmark, called WebUAV-3M. Firstly, we collect 4,485 videos with more than 3M frames from the Internet. Then, an efficient and scalable Semi-Automatic Target Annotation (SATA) pipeline is devised to label the tremendous WebUAV-3M in every frame. To the best of our knowledge, the densely bounding box annotated WebUAV-3M is by far the largest public UAV tracking benchmark. We expect to pave the way for the follow-up study in the UAV tracking by establishing a million-scale annotated benchmark covering a wide range of target categories. Moreover, considering the close connections among visual appearance, natural language and audio, we enrich WebUAV-3M by providing natural language specification and audio description, encouraging the exploration of natural language features and audio cues for UAV tracking. Equipped with this benchmark, we delve into million-scale deep UAV tracking problems, aiming to provide the community with a dedicated large-scale benchmark for training deep UAV trackers and evaluating UAV tracking approaches. Extensive experiments on WebUAV-3M demonstrate that there is still a big room for robust deep UAV tracking improvements. The dataset, toolkits and baseline results will be available at \url{https://github.com/9 83632847/WebUAV-3M}.
翻訳日:2022-01-20 21:59:49 公開日:2022-01-19
# (参考訳) アラビア語トランスフォーマーモデルの解釈 [全文訳有]

Interpreting Arabic Transformer Models ( http://arxiv.org/abs/2201.07434v1 )

ライセンス: CC BY 4.0
Ahmed Abdelali, Nadir Durrani, Fahim Dalvi, and Hassan Sajjad(参考訳) アラビア語はセム語であり、多くの方言で広く話されている。 事前訓練された言語モデルの成功を踏まえ、アラビア語とその方言で訓練された多くのトランスフォーマーモデルが浮上した。 これらのモデルは下流のnlpタスクについて比較されてきたが、内部表現を直接比較する評価は行われていない。 アラビア語の異なる種類で訓練されたアラビア語の事前学習モデルにおいて, 言語情報がどのようにエンコードされているかを調べる。 本研究は,msa(現代標準アラビア語)に基づく2つの形態的タギングタスクと,方言的posタグと弁別識別タスクを用いて,モデルにおける層およびニューロンの解析を行う。 私たちの分析は、次のような興味深い発見を啓蒙する。 一 下層及び中層で語の形態について学ぶこと 二 方言の識別は、より多くの知識を必要とし、従って最終層でも保存する。 三 語彙の重複が大きいにもかかわらず、MSAベースのモデルは、アラビア語方言のニュアンスを捉えない。 iv) 埋め込み層内のニューロンは自然界において多義的であるのに対し, 中間層内のニューロンは特定の性質に限定していることがわかった。

Arabic is a Semitic language which is widely spoken with many dialects. Given the success of pre-trained language models, many transformer models trained on Arabic and its dialects have surfaced. While these models have been compared with respect to downstream NLP tasks, no evaluation has been carried out to directly compare the internal representations. We probe how linguistic information is encoded in Arabic pretrained models, trained on different varieties of Arabic language. We perform a layer and neuron analysis on the models using three intrinsic tasks: two morphological tagging tasks based on MSA (modern standard Arabic) and dialectal POS-tagging and a dialectal identification task. Our analysis enlightens interesting findings such as: i) word morphology is learned at the lower and middle layers ii) dialectal identification necessitate more knowledge and hence preserved even in the final layers, iii) despite a large overlap in their vocabulary, the MSA-based models fail to capture the nuances of Arabic dialects, iv) we found that neurons in embedding layers are polysemous in nature, while the neurons in middle layers are exclusive to specific properties.
翻訳日:2022-01-20 21:18:43 公開日:2022-01-19
# (参考訳) 垂直切削深さを用いた単眼深度推定のためのグローバルローカルパスネットワーク [全文訳有]

Global-Local Path Networks for Monocular Depth Estimation with Vertical CutDepth ( http://arxiv.org/abs/2201.07436v1 )

ライセンス: CC BY 4.0
Doyeon Kim, Woonghyun Ga, Pyungwhan Ahn, Donggyu Joo, Sehwan Chun, and Junmo Kim(参考訳) 単一画像からの深さ推定はコンピュータビジョンの様々な分野に適用可能な重要なタスクであり、畳み込みニューラルネットワークの開発によって急速に成長してきた。 本稿では,ネットワークの予測精度をさらに向上させるために,単眼深度推定のための新しい構造と訓練戦略を提案する。 グローバルなコンテキストを捕捉し伝達するための階層型トランスフォーマーエンコーダをデプロイし、ローカル接続性を考慮して推定深度マップを生成する軽量で強力なデコーダを設計する。 提案する選択的機能融合モジュールにより,マルチスケールな局所的特徴とグローバルデコードストリーム間の接続経路を構築することにより,ネットワークは表現の統合と詳細の復元が可能となる。 さらに,提案するデコーダは,従来提案していたデコーダよりも性能が良く,計算量もかなり少ない。 さらに、深度推定における重要な観測を利用して、深度比増大法を改善し、モデルを強化する。 我々のネットワークは、挑戦的な深度データセットNYU Depth V2に対して最先端の性能を達成する。 提案手法の有効性を検証するため,広範囲にわたる実験を行った。 最後に、我々のモデルは、他の比較モデルよりも優れた一般化能力と堅牢性を示す。

Depth estimation from a single image is an important task that can be applied to various fields in computer vision, and has grown rapidly with the development of convolutional neural networks. In this paper, we propose a novel structure and training strategy for monocular depth estimation to further improve the prediction accuracy of the network. We deploy a hierarchical transformer encoder to capture and convey the global context, and design a lightweight yet powerful decoder to generate an estimated depth map while considering local connectivity. By constructing connected paths between multi-scale local features and the global decoding stream with our proposed selective feature fusion module, the network can integrate both representations and recover fine details. In addition, the proposed decoder shows better performance than the previously proposed decoders, with considerably less computational complexity. Furthermore, we improve the depth-specific augmentation method by utilizing an important observation in depth estimation to enhance the model. Our network achieves state-of-the-art performance over the challenging depth dataset NYU Depth V2. Extensive experiments have been conducted to validate and show the effectiveness of the proposed approach. Finally, our model shows better generalisation ability and robustness than other comparative models.
翻訳日:2022-01-20 21:06:16 公開日:2022-01-19
# (参考訳) カラーデータの保持:条件付き可逆ニューラルネットワークによるセキュアでロスレスなディープ・イメージ・ステガノグラフィ [全文訳有]

Hiding Data in Colors: Secure and Lossless Deep Image Steganography via Conditional Invertible Neural Networks ( http://arxiv.org/abs/2201.07444v1 )

ライセンス: CC BY 4.0
Yanzhen Ren, Ting Liu, Liming Zhai, Lina Wang(参考訳) 深層画像ステガノグラフィ(deep image steganography)は、深層ニューラルネットワークを介してデジタル画像にデータを隠蔽するデータ隠蔽技術である。 しかし、既存のディープイメージステガノグラフィー手法は、コンテナイメージのホストイメージに対する視覚的類似性のみを考慮し、コンテナイメージの統計的セキュリティ(ステガノグラフィー)を無視する。 さらに、通常、イメージタイプに限定されたデータを隠すため、ロスレス抽出の制約を緩和する。 本稿では,上記の課題を統一的に解決し,任意の型を持つデータを画像に埋め込み,安全なデータ隠蔽とロスレスデータ顕在化を可能にする深部画像ステガノグラフィを提案する。 まず、画像のカラー化問題として隠れたデータを定式化し、そのデータを二項化してさらにグレースケールのホスト画像の色情報にマッピングする。 第2に,カラー生成のガイドとしてグレースケール画像を用いた条件付きインバータブルニューラルネットワークを設計し,安全な方法でデータを隠蔽する。 最後に,損失のないデータの露見を実現するために,隠蔽過程と露見過程の丸め誤差によるデータ損失を管理する多段階学習方式を提案する。 広範な実験により,本手法は実色画像を生成し,ステグアナリシスの検出に有効であることを示す。 さらに,実世界のステガノグラフィーの実用性を示すために,異なるシナリオで100%の精度を達成できることを示す。

Deep image steganography is a data hiding technology that conceal data in digital images via deep neural networks. However, existing deep image steganography methods only consider the visual similarity of container images to host images, and neglect the statistical security (stealthiness) of container images. Besides, they usually hides data limited to image type and thus relax the constraint of lossless extraction. In this paper, we address the above issues in a unified manner, and propose deep image steganography that can embed data with arbitrary types into images for secure data hiding and lossless data revealing. First, we formulate the data hiding as an image colorization problem, in which the data is binarized and further mapped into the color information for a gray-scale host image. Second, we design a conditional invertible neural network which uses gray-scale image as prior to guide the color generation and perform data hiding in a secure way. Finally, to achieve lossless data revealing, we present a multi-stage training scheme to manage the data loss due to rounding errors between hiding and revealing processes. Extensive experiments demonstrate that the proposed method can perform secure data hiding by generating realism color images and successfully resisting the detection of steganalysis. Moreover, we can achieve 100% revealing accuracy in different scenarios, indicating the practical utility of our steganography in the real-world.
翻訳日:2022-01-20 20:53:23 公開日:2022-01-19
# (参考訳) TourBERT:観光産業のための事前訓練型言語モデル [全文訳有]

TourBERT: A pretrained language model for the tourism industry ( http://arxiv.org/abs/2201.07449v1 )

ライセンス: CC BY 4.0
Veronika Arefieva and Roman Egger(参考訳) Bidirectional Encoder Representations from Transformers (BERT) は現在、自然言語の最も重要かつ最先端のモデルの一つである。 しかし、ドメイン固有のタスクでは、BERTをドメイン固有のコーパスで事前訓練するのに役立つことが示されている。 本稿では,観光のための事前学習型言語モデルであるTourBERTを紹介する。 TourBERTの開発と評価について述べる。 評価の結果, TourBERT は観光特化タスクにおいて BERT を上回っていることがわかった。

The Bidirectional Encoder Representations from Transformers (BERT) is currently one of the most important and state-of-the-art models for natural language. However, it has also been shown that for domain-specific tasks it is helpful to pretrain BERT on a domain-specific corpus. In this paper, we present TourBERT, a pretrained language model for tourism. We describe how TourBERT was developed and evaluated. The evaluations show that TourBERT is outperforming BERT in all tourism-specific tasks.
翻訳日:2022-01-20 20:40:46 公開日:2022-01-19
# (参考訳) インフォーマティブ・創発的コミュニケーションの制御のための一貫性スパース離散法 [全文訳有]

The Enforcers: Consistent Sparse-Discrete Methods for Constraining Informative Emergent Communication ( http://arxiv.org/abs/2201.07452v1 )

ライセンス: CC BY 4.0
Seth Karten, Siddharth Agrawal, Mycal Tucker, Dana Hughes, Michael Lewis, Julie Shah, Katia Sycara(参考訳) コミュニケーションは、エージェントが目標を達成するために協力することを可能にする。 スパース通信(sparse communication)と呼ばれるコミュニケーションの学習は、人間とエージェントが対話する状況や、エージェントが他人に情報を伝達しなければならない部分観察可能なシナリオ、エージェントが情報を隠蔽して競争上の優位性を得る非協力的なシナリオにおいて、特に重要である。 しかし、コミュニケーションの疎通を学ぶ最近の研究は、コミュニケーションを減少させるコストが特に協調作業において報酬を減少させる高分散トレーニングに苦しめられている。 スパース通信は、エージェント通信を限られた人間の帯域幅に合わせるために必要である。 人間は個別の言語トークンを介してコミュニケーションするが、以前は連続的なコミュニケーションベクトルと比較してタスク性能が低下することが示されていた。 本研究は、コミュニケーションの減少による報酬の損失を抑え、差別に対するペナルティを排除し、上記の課題に対処する。 本研究では, 学習ゲートを用いた学習訓練を成功させ, 部分可観測性のある協調作業のためのコミュニケーションを反映した個別プロトタイプを用いて, コミュニケーションのタイミングを調節する。 ハード予算とソフト予算の制約に対する2種類の「強制力」を提供し,異なる予算下でのコミュニケーションの結果を示す。 提案手法は制約を満たしながら,同等の制約のない手法と同じ性能が得られることを示す。

Communication enables agents to cooperate to achieve their goals. Learning when to communicate, i.e. sparse communication, is particularly important where bandwidth is limited, in situations where agents interact with humans, in partially observable scenarios where agents must convey information unavailable to others, and in non-cooperative scenarios where agents may hide information to gain a competitive advantage. Recent work in learning sparse communication, however, suffers from high variance training where, the price of decreasing communication is a decrease in reward, particularly in cooperative tasks. Sparse communications are necessary to match agent communication to limited human bandwidth. Humans additionally communicate via discrete linguistic tokens, previously shown to decrease task performance when compared to continuous communication vectors. This research addresses the above issues by limiting the loss in reward of decreasing communication and eliminating the penalty for discretization. In this work, we successfully constrain training using a learned gate to regulate when to communicate while using discrete prototypes that reflect what to communicate for cooperative tasks with partial observability. We provide two types of "Enforcers" for hard and soft budget constraints and present results of communication under different budgets. We show that our method satisfies constraints while yielding the same performance as comparable, unconstrained methods.
翻訳日:2022-01-20 20:33:03 公開日:2022-01-19
# (参考訳) 能動学習におけるセルフ・スーパーバイザード・プレテキスト・タスクの利用 [全文訳有]

Using Self-Supervised Pretext Tasks for Active Learning ( http://arxiv.org/abs/2201.07459v1 )

ライセンス: CC BY 4.0
John Seon Keun Yi, Minseok Seo, Jongchan Park, Dong-Geol Choi(参考訳) 大量のデータのラベル付けは高価です。 アクティブラーニングは、ラベルなし集合から最も情報性の高いデータのみに注釈を付けることでこの問題に対処することを目的としている。 本稿では,自己教師付きプリテキストタスクとユニークなデータサンプルラを用いて,難易度と代表性を兼ね備えたデータを選択する新しいアクティブラーニング手法を提案する。 回転予測などの単純な自己教師付き述語タスクの損失は,下流タスクの損失と密接に関連していることがわかった。 プリテキストタスク学習者は、ラベルなしのセットでトレーニングされ、ラベルなしのデータは、プリテキストタスクの損失によってソートされ、バッチにグループ化される。 各イテレーションでは、メインタスクモデルを使用して、アノテートされるバッチ内の最も不確実なデータをサンプリングする。 CIFAR10, Caltech-101, ImageNet, CityScapesにおいて, 画像分類とセグメンテーションのベンチマークを行い, 性能評価を行った。

Labeling a large set of data is expensive. Active learning aims to tackle this problem by asking to annotate only the most informative data from the unlabeled set. We propose a novel active learning approach that utilizes self-supervised pretext tasks and a unique data sampler to select data that are both difficult and representative. We discover that the loss of a simple self-supervised pretext task, such as rotation prediction, is closely correlated to the downstream task loss. The pretext task learner is trained on the unlabeled set, and the unlabeled data are sorted and grouped into batches by their pretext task losses. In each iteration, the main task model is used to sample the most uncertain data in a batch to be annotated. We evaluate our method on various image classification and segmentation benchmarks and achieve compelling performances on CIFAR10, Caltech-101, ImageNet, and CityScapes.
翻訳日:2022-01-20 20:22:13 公開日:2022-01-19
# (参考訳) POPPINS : Integer Quadratic Integrate-and-Fire Neuronsを用いた人口ベースデジタルスパイキングニューロモルフィックプロセッサ [全文訳有]

POPPINS : A Population-Based Digital Spiking Neuromorphic Processor with Integer Quadratic Integrate-and-Fire Neurons ( http://arxiv.org/abs/2201.07490v1 )

ライセンス: CC BY 4.0
Zuo-Wei Yeh, Chia-Hua Hsu, Alexander White, Chen-Fu Yeh, Wen-Chieh Wu, Cheng-Te Wang, Chung-Chuan Lo, Kea-Tiong Tang(参考訳) 生物学的処理システムとしての人間の脳の内部操作は、ほとんど謎のままである。 ヒト脳の機能にインスパイアされ、ショウジョウバエなどの他の種における単純なニューラルネットワークシステムの解析に基づいて、ニューロモルフィックコンピューティングシステムはかなりの関心を集めている。 細胞レベルでのコネクトミクス研究では、ネットワーク内でのリカレント完全接続だけでなく、各ニューロンにおける外部刺激や自己結合を構成する、集団と呼ばれる生物学的ニューラルネットワークの特性を同定することができる。 ネットワークおよび入力データにおけるスパイク伝送の低データ帯域幅に依存するスパイクニューラルネットワークは、低遅延かつ低電力設計を示す。 本研究では,2つの階層を持つ180nmプロセス技術において,構成可能な人口ベースのデジタルスパイキングニューロモルフィックプロセッサを提案する。 また、プロセッサ内のこれらのニューロンは、符号なしの8ビット膜電位値を含む整数二次積分・ファイアニューロンモデルとして構成することができる。 プロセッサは、リアルタイムに回避のためのインテリジェントな意思決定を実装できる。 さらに,本提案手法により,生体模倣型ニューロモルフィックシステムと各種低消費電力,低遅延推論処理アプリケーションの開発が可能となる。

The inner operations of the human brain as a biological processing system remain largely a mystery. Inspired by the function of the human brain and based on the analysis of simple neural network systems in other species, such as Drosophila, neuromorphic computing systems have attracted considerable interest. In cellular-level connectomics research, we can identify the characteristics of biological neural network, called population, which constitute not only recurrent fullyconnection in network, also an external-stimulus and selfconnection in each neuron. Relying on low data bandwidth of spike transmission in network and input data, Spiking Neural Networks exhibit low-latency and low-power design. In this study, we proposed a configurable population-based digital spiking neuromorphic processor in 180nm process technology with two configurable hierarchy populations. Also, these neurons in the processor can be configured as novel models, integer quadratic integrate-and-fire neuron models, which contain an unsigned 8-bit membrane potential value. The processor can implement intelligent decision making for avoidance in real-time. Moreover, the proposed approach enables the developments of biomimetic neuromorphic system and various low-power, and low-latency inference processing applications.
翻訳日:2022-01-20 20:15:34 公開日:2022-01-19
# (参考訳) 説明法に基づく樹木分類のためのリモートセンシング画像の弱教師付きセマンティックセマンティックセグメンテーション [全文訳有]

Weakly Supervised Semantic Segmentation of Remote Sensing Images for Tree Species Classification Based on Explanation Methods ( http://arxiv.org/abs/2201.07495v1 )

ライセンス: CC BY 4.0
Steve Ahlswede, Nimisha Thekke-Madam, Christian Schulz, Birgit Kleinschmit, Beg\"um Demir(参考訳) 木種識別のための大量のピクセルベースのラベル付きトレーニングサンプルの収集は、運用林業への応用に時間と費用がかかる。 本稿では,画像レベルのラベルのみを用いて,弱い教師付きセマンティックセマンティックセグメンテーションを行う際のディープニューラルネットワークの説明手法の有効性を検討する。 具体的には、以下の4つの方法を考える:i)クラスアクティベーションマップ(cam) 二 勾配に基づくCAM 三 画素相関モジュール、及び iv)自己啓発マップ(sem)。 我々はこれらの手法を,その分節精度の定量的および定性的な測定値と計算要求値を用いて比較する。 航空画像アーカイブで得られた実験結果から, 説明手法は, 監督の弱い樹木種の識別に極めて重要であることが明らかとなった。 ii) semは、他の検討方法に勝る。 この論文のコードはhttps://git.tu-berli n.de/rsim/rs_wsssで公開されている。

The collection of a high number of pixel-based labeled training samples for tree species identification is time consuming and costly in operational forestry applications. To address this problem, in this paper we investigate the effectiveness of explanation methods for deep neural networks in performing weakly supervised semantic segmentation using only image-level labels. Specifically, we consider four methods:i) class activation maps (CAM); ii) gradient-based CAM; iii) pixel correlation module; and iv) self-enhancing maps (SEM). We compare these methods with each other using both quantitative and qualitative measures of their segmentation accuracy, as well as their computational requirements. Experimental results obtained on an aerial image archive show that:i) considered explanation techniques are highly relevant for the identification of tree species with weak supervision; and ii) the SEM outperforms the other considered methods. The code for this paper is publicly available at https://git.tu-berli n.de/rsim/rs_wsss.
翻訳日:2022-01-20 20:01:17 公開日:2022-01-19
# (参考訳) 盗めないの? コントステール! 画像エンコーダに対するコントラスト盗み攻撃 [全文訳有]

Can't Steal? Cont-Steal! Contrastive Stealing Attacks Against Image Encoders ( http://arxiv.org/abs/2201.07513v1 )

ライセンス: CC BY 4.0
Zeyang Sha and Xinlei He and Ning Yu and Michael Backes and Yang Zhang(参考訳) 教師なし表現学習技術はラベルなしの画像をフル活用するために急速に開発されている。 イメージを下流のタスクに不利なリッチな機能にエンコードする。 その革命的な表現力の背後にあるのは、専用モデル設計の要件と大量の計算リソースが、イメージエンコーダを潜在的なモデル盗難攻撃のリスクにさらしていることだ。 しかし、従来の攻撃は、予測されたラベルと/または後方を考慮し、教師なしエンコーダの脆弱性を残している教師付き分類器のみを標的とする。 本稿では,まず,エンコーダに対する従来の盗難攻撃をインスタンス化し,下流の分類器と比較して深刻な脆弱性を示す。 エンコーダのリッチな表現をよりよく活用するために、コントラスト学習に基づく攻撃であるcont-stealを提案し、様々な実験環境での盗みの有効性を検証する。 そこで我々は,表現学習技術の知的財産保護,特に我々のような攻撃をエンコーダが盗むことに対する防御に,コミュニティの注意を喚起する。

Unsupervised representation learning techniques have been developing rapidly to make full use of unlabeled images. They encode images into rich features that are oblivious to downstream tasks. Behind its revolutionary representation power, the requirements for dedicated model designs and a massive amount of computation resources expose image encoders to the risks of potential model stealing attacks -- a cheap way to mimic the well-trained encoder performance while circumventing the demanding requirements. Yet conventional attacks only target supervised classifiers given their predicted labels and/or posteriors, which leaves the vulnerability of unsupervised encoders unexplored. In this paper, we first instantiate the conventional stealing attacks against encoders and demonstrate their severer vulnerability compared with downstream classifiers. To better leverage the rich representation of encoders, we further propose Cont-Steal, a contrastive-learning -based attack, and validate its improved stealing effectiveness in various experiment settings. As a takeaway, we appeal to our community's attention to the intellectual property protection of representation learning techniques, especially to the defenses against encoder stealing attacks like ours.
翻訳日:2022-01-20 19:54:23 公開日:2022-01-19
# (参考訳) 対向ネットワークによるプライバシを意識したヒューマンモビリティ予測 [全文訳有]

Privacy-Aware Human Mobility Prediction via Adversarial Networks ( http://arxiv.org/abs/2201.07519v1 )

ライセンス: CC BY 4.0
Yuting Zhan, Alex Kyllo, Afra Mashhadi, Hamed Haddadi(参考訳) さまざまなモバイルデバイスやロケーションベースのサービスが,さまざまなスマートシティシナリオやアプリケーションで開発されるようになっているため,位置情報収集や共有によって,予期せぬプライバシリークが数多く発生している。 これらの位置情報データは、人間の移動パターンを深く理解し、様々な社会的研究課題に対処する可能性があるが、ユーザーの機密情報に対するプライバシー上の懸念は利用を制限している。 本稿では,従来の位置情報データ(移動データ)のプライバシ保護特徴表現を共有目的に達成するための表現学習を備えたLSTMベースの新しい逆数機構の設計と実装を行う。 我々は,軌道再構成リスク,ユーザ再識別リスク,移動予測可能性の観点から,移動データセットのユーティリティプライバシトレードオフを定量化する。 提案するアーキテクチャは,ラグランジアン損失重みパラメータの関数として,ユーザがこのトレードオフを評価できるパレートフロンティア解析を行う。 4つの代表的モビリティデータセットの比較結果から,提案するアーキテクチャの優位性と,提案するプライバシ保存機能抽出器の効率が示された。 その結果,paretoの最適設定を探索することで,プライバシ(45%)とユーティリティ(32%)を同時に向上できることがわかった。

As various mobile devices and location-based services are increasingly developed in different smart city scenarios and applications, many unexpected privacy leakages have arisen due to geolocated data collection and sharing. While these geolocated data could provide a rich understanding of human mobility patterns and address various societal research questions, privacy concerns for users' sensitive information have limited their utilization. In this paper, we design and implement a novel LSTM-based adversarial mechanism with representation learning to attain a privacy-preserving feature representation of the original geolocated data (mobility data) for a sharing purpose. We quantify the utility-privacy trade-off of mobility datasets in terms of trajectory reconstruction risk, user re-identification risk, and mobility predictability. Our proposed architecture reports a Pareto Frontier analysis that enables the user to assess this trade-off as a function of Lagrangian loss weight parameters. The extensive comparison results on four representative mobility datasets demonstrate the superiority of our proposed architecture and the efficiency of the proposed privacy-preserving features extractor. Our results show that by exploring Pareto optimal setting, we can simultaneously increase both privacy (45%) and utility (32%).
翻訳日:2022-01-20 19:29:05 公開日:2022-01-19
# (参考訳) cm3: 因果マスキングによるインターネットのマルチモーダルモデル [全文訳有]

CM3: A Causal Masked Multimodal Model of the Internet ( http://arxiv.org/abs/2201.07520v1 )

ライセンス: CC BY 4.0
Armen Aghajanyan, Bernie Huang, Candace Ross, Vladimir Karpukhin, Hu Xu, Naman Goyal, Dmytro Okhonko, Mandar Joshi, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer(参考訳) CM3は,テキストおよび画像トークンの両方を格納可能な構造化マルチモーダル文書の大規模コーパス上でトレーニングされた因果マスク付き生成モデルのファミリーである。 我々の新しい因果的にマスクされたアプローチは、左から右にトークンを生成し、同時に元の位置ではなく、文字列の最後に生成される少数の長いトークンスパンをマスクする。 カジュアルなマスキングオブジェクトは、マスキングスパンを生成する際に双方向コンテキストを提供しながら完全な生成モデリングを可能にすることで、より一般的な因果およびマスキング言語モデルのハイブリッドを提供する。 ドキュメントには、テキスト、ハイパーテキストマークアップ、ハイパーリンク、画像トークン(vqvae-ganから)のすべてが含まれており、元のhtmlソース(マスキングの前に)に表示される順番で提供される。 結果として得られたcm3モデルは、任意のマスクされたドキュメントコンテキストを条件付けしながら、リッチな構造化されたマルチモーダル出力を生成し、暗黙的に幅広いテキスト、イメージ、クロスモーダルタスクを学習することができる。 ゼロショットで、DALL-E、GENRE、HTLMなどのモデルの機能を回復するよう促すことができる。 我々は,ゼロショット要約,エンティティリンク,エンティティ曖昧さの新たな状態を設定しながら,微調整環境での競争力を維持した。 イメージを無条件に生成し、テキスト(dall-eなど)で条件付けし、ゼロショット設定でキャプションを1つのモデルで実行できます。

We introduce CM3, a family of causally masked generative models trained over a large corpus of structured multi-modal documents that can contain both text and image tokens. Our new causally masked approach generates tokens left to right while also masking out a small number of long token spans that are generated at the end of the string, instead of their original positions. The casual masking object provides a type of hybrid of the more common causal and masked language models, by enabling full generative modeling while also providing bidirectional context when generating the masked spans. We train causally masked language-image models on large-scale web and Wikipedia articles, where each document contains all of the text, hypertext markup, hyperlinks, and image tokens (from a VQVAE-GAN), provided in the order they appear in the original HTML source (before masking). The resulting CM3 models can generate rich structured, multi-modal outputs while conditioning on arbitrary masked document contexts, and thereby implicitly learn a wide range of text, image, and cross modal tasks. They can be prompted to recover, in a zero-shot fashion, the functionality of models such as DALL-E, GENRE, and HTLM. We set the new state-of-the-art in zero-shot summarization, entity linking, and entity disambiguation while maintaining competitive performance in the fine-tuning setting. We can generate images unconditionally, conditioned on text (like DALL-E) and do captioning all in a zero-shot setting with a single model.
翻訳日:2022-01-20 19:08:30 公開日:2022-01-19
# (参考訳) ジャンプ知識を用いたGNNベースのAndroidマルウェア検出 [全文訳有]

GNN-based Android Malware Detection with Jumping Knowledge ( http://arxiv.org/abs/2201.07537v1 )

ライセンス: CC BY-SA 4.0
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marcus Gallagher, Marius Portmann(参考訳) 本稿では,Jumping-Knowledge(J K)を用いたグラフニューラルネットワーク(GNN)に基づく新しいAndroidマルウェア検出手法を提案する。 android function call graphs (fcgs) は一連のプログラム関数とその手続き間呼び出しで構成される。 そこで本研究では,有意義な手続き内コールパスパターンを捉えたgnnに基づくandroidマルウェア検出手法を提案する。 また,GNNでは一般的であるオーバースムーシング問題の影響を最小限に抑えるために,Jumping-Knowledge手法を適用した。 提案手法は2つのベンチマークデータセットを用いて広範に評価されている。 その結果,Android マルウェア検出における GNN の可能性を示す主要な分類基準の基準法と比較して,本手法の優位性を示した。

This paper presents a new Android malware detection method based on Graph Neural Networks (GNNs) with Jumping-Knowledge (JK). Android function call graphs (FCGs) consist of a set of program functions and their inter-procedural calls. Thus, this paper proposes a GNN-based method for Android malware detection by capturing meaningful intra-procedural call path patterns. In addition, a Jumping-Knowledge technique is applied to minimize the effect of the over-smoothing problem, which is common in GNNs. The proposed method has been extensively evaluated using two benchmark datasets. The results demonstrate the superiority of our approach compared to baseline methods in terms of key classification metrics, which demonstrates the potential of GNNs in Android malware detection.
翻訳日:2022-01-20 18:46:40 公開日:2022-01-19
# (参考訳) 新型コロナウイルス(covid-19)ワクチンに関する執筆: 感情的プロファイリングは、アストラゼネカやファイザー、予防接種キャンペーンの主流や代替メディアの枠組みを解明する [全文訳有]

Writing about COVID-19 vaccines: Emotional profiling unravels how mainstream and alternative press framed AstraZeneca, Pfizer and vaccination campaigns ( http://arxiv.org/abs/2201.07538v1 )

ライセンス: CC BY 4.0
Alfonso Semeraro, Salvatore Vilella, Giancarlo Ruffo and Massimo Stella(参考訳) 2020年11月の発表以来、新型コロナウイルスワクチンはメディアやソーシャルメディアで大々的に議論された。 ソーシャルメディアにおける新型コロナウイルスの偽情報に焦点を当てた研究は多いが、主流のニュースメディアがcovid-19の物語を他の情報源と比較した場合、ほとんど注目されていない。 このギャップを埋めるために、私たちはコグニティブネットワーク科学と自然言語処理を使って、5745のイタリアニュースの時間進化する意味と感情のフレームを再構築します。 主流のソースが"ワクチン/ワクチン"という一般的な考え方を形作る方法において、私たちは一貫して高いレベルの信頼/期待と嫌悪感を見出しました。 これらの感情は、covid-19ワクチンの枠組化方法において極めて欠落していた。 ワクチンの特定の例でより多くの違いが見られた。 別のニュースとしては、アストラゼネカワクチンに強い悲しみを抱かせるタイトルがあり、主流のタイトルには存在しなかった。 メインストリーム・ニュースは当初、「アスタラゼネカ」よりも副作用との負の関連で「ファイザー」を枠組にした。 2021年3月15日,「アストラゼネカ」(AstraZeneca)の題名でさえ,副作用と負の関係において意味的に富み,「ファイザー」(Pfizer)は高い効力に大きく関連し,正の値変化を経験した。 恐怖的な概念的結社とともに「恐怖症」がワクチンの枠組みに入り、「死」は代替のタイトルに対する恐怖に傾倒し、主流のタイトルにおける希望的な意味を失った。 今回の調査結果は、報道機関が採用した新型コロナウイルスワクチンに関する感情的な物語の重要な側面を浮き彫りにし、代替手段や主流メディアが予防接種ニュースをどう報告するかを理解する必要性を強調した。

Since their announcement in November 2020, COVID-19 vaccines were largely debated by the press and social media. With most studies focusing on COVID-19 disinformation in social media, little attention has been paid to how mainstream news outlets framed COVID-19 narratives compared to alternative sources. To fill this gap, we use cognitive network science and natural language processing to reconstruct time-evolving semantic and emotional frames of 5745 Italian news, that were massively re-shared on Facebook and Twitter, about COVID-19 vaccines. We found consistently high levels of trust/anticipation and less disgust in the way mainstream sources framed the general idea of "vaccine/vaccino" ;. These emotions were crucially missing in the ways alternative sources framed COVID-19 vaccines. More differences were found within specific instances of vaccines. Alternative news included titles framing the AstraZeneca vaccine with strong levels of sadness, absent in mainstream titles. Mainstream news initially framed "Pfizer" along more negative associations with side effects than "AstraZeneca". With the temporary suspension of the latter, on March 15th 2021, we identified a semantic/emotional shift: Even mainstream article titles framed "AstraZeneca" as semantically richer in negative associations with side effects, while "Pfizer" underwent a positive shift in valence, mostly related to its higher efficacy. "Thrombosis" entered the frame of vaccines together with fearful conceptual associations, while "death" underwent an emotional shift, steering towards fear in alternative titles and losing its hopeful connotation in mainstream titles. Our findings expose crucial aspects of the emotional narratives around COVID-19 vaccines adopted by the press, highlighting the need to understand how alternative and mainstream media report vaccination news.
翻訳日:2022-01-20 18:31:06 公開日:2022-01-19
# (参考訳) ニューラル正規微分方程式を用いた学習コーンビームCT再構成 [全文訳有]

Learned Cone-Beam CT Reconstruction Using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2201.07562v1 )

ライセンス: CC BY 4.0
Mareike Thies, Fabian Wagner, Mingxuan Gu, Lukas Folle, Lina Felsner, Andreas Maier(参考訳) 逆問題に対する反復的再構成アルゴリズムは、問題に関する解析的知識とデータから学んだモジュールを組み合わせる柔軟性を提供する。 これにより、測定データとの一貫性を確保しつつ、高い復元性能を実現する。 計算トモグラフィでは、そのようなアプローチを2Dファンビームから3Dコーンビームデータに拡張することは、そのようなモデルをトレーニングするのに必要となる、極めて高いGPUメモリのために困難である。 本稿では,ニューラルネットワークを用いた数値積分による残差定式化における再構成問題の解法を提案する。 トレーニングでは、複数の未ロールネットワークブロックをバックプロパゲートしたり、ソルバの内部を経由する必要はない。 代わりに、勾配はニューラルネットワークode設定で非常にメモリ効率良く取得され、単一のコンシューマのグラフィックカードでトレーニングできる。 本手法は,古典的反復再構成アルゴリズムと比較して根平均2乗誤差を30%以上削減し,スパースビューシナリオにおいても高品質なコーンビーム再構成を実現できる。

Learned iterative reconstruction algorithms for inverse problems offer the flexibility to combine analytical knowledge about the problem with modules learned from data. This way, they achieve high reconstruction performance while ensuring consistency with the measured data. In computed tomography, extending such approaches from 2D fan-beam to 3D cone-beam data is challenging due to the prohibitively high GPU memory that would be needed to train such models. This paper proposes to use neural ordinary differential equations to solve the reconstruction problem in a residual formulation via numerical integration. For training, there is no need to backpropagate through several unrolled network blocks nor through the internals of the solver. Instead, the gradients are obtained very memory-efficiently in the neural ODE setting allowing for training on a single consumer graphics card. The method is able to reduce the root mean squared error by over 30% compared to the best performing classical iterative reconstruction algorithm and produces high quality cone-beam reconstructions even in a sparse view scenario.
翻訳日:2022-01-20 18:10:14 公開日:2022-01-19
# (参考訳) 推薦システムにおけるバッチ対逐次アクティブラーニング [全文訳有]

Batch versus Sequential Active Learning for Recommender Systems ( http://arxiv.org/abs/2201.07571v1 )

ライセンス: CC BY 4.0
Toon De Pessemier, Sander Vanhove, Luc Martens(参考訳) もっとも正確なレコメンデーションを生成することを目的として、長年にわたってレコメンデーションシステムが調査されてきた。 しかし、新ユーザーに関するデータは不十分な場合が多く、不正確なレコメンデーション(コールドスタート問題として知られる問題)が発生する。 解決策は積極的学習である。 アクティブな学習戦略は積極的にアイテムを選択し、ユーザに評価を依頼する。 これにより、詳細なユーザの好みを取得することができ、その結果、より正確なレコメンデーションをユーザに提供できる。 本研究では,5つの能動学習アルゴリズムと3つの予測アルゴリズムを組み合わせて,質問された項目をどの程度の確率で評価するかを推定する。 さらに、バッチモード(全てのアイテムを一度に)とシーケンシャルモード(各アイテムを1つずつ)の2つのモードがテストされている。 評価予測,意思決定支援,項目のランク付けの観点からの推薦者の評価は,逐次モードが高密度データセットに対して最も正確なレコメンデーションを生成することを示した。 アクティブな学習アルゴリズムの違いは小さい。 ほとんどのアクティブな学習者にとって、最良の予測器はシーケンシャルモードと組み合わせてFunkSVDであることが判明した。

Recommender systems have been investigated for many years, with the aim of generating the most accurate recommendations possible. However, available data about new users is often insufficient, leading to inaccurate recommendations; an issue that is known as the cold-start problem. A solution can be active learning. Active learning strategies proactively select items and ask users to rate these. This way, detailed user preferences can be acquired and as a result, more accurate recommendations can be offered to the user. In this study, we compare five active learning algorithms, combined with three different predictor algorithms, which are used to estimate to what extent the user would like the item that is asked to rate. In addition, two modes are tested for selecting the items: batch mode (all items at once), and sequential mode (the items one by one). Evaluation of the recommender in terms of rating prediction, decision support, and the ranking of items, showed that sequential mode produces the most accurate recommendations for dense data sets. Differences between the active learning algorithms are small. For most active learners, the best predictor turned out to be FunkSVD in combination with sequential mode.
翻訳日:2022-01-20 18:02:51 公開日:2022-01-19
# (参考訳) 非線形未知入力可観測性と未知入力再構成:一般解析解

Nonlinear Unknown Input Observability and Unknown Input Reconstruction: The General Analytical Solution ( http://arxiv.org/abs/2201.07610v1 )

ライセンス: CC BY 4.0
Agostino Martinelli(参考訳) 可観測性は任意の動的システムの基本的な構造特性であり、入力や出力を観測することからシステムの特徴を特徴づける状態を再構築する可能性を記述する。 この特性を調査し、動的システムがこの特性を満たすかどうかを確認できる解析基準を導入するという大きな努力にもかかわらず、未知の入力によって動的も駆動される場合、状態の可観測性を自動的にチェックする一般的な分析基準は存在しない。 本稿では, 未知入力可観測性問題と呼ばれる, この基本問題の一般解析解を提案する。 本論文は, この問題の一般的な解析解, すなわち, 自動計算(微分および行列ランク決定)に基づく体系的手順を提供し, 未知の入力が存在する場合でも, 状態の可観測性を自動的にチェックできるようにする。 この問題の第一の解は、本書の第2部で「可観測性:不変性群に基づく新しい理論」として提示された [45]。 この論文で提示された解決策は[45]で前のソリューションを完成させます。 特に、新しい解法は、未知の入力に関して正準系に属するシステムのカテゴリに属さないシステムを徹底的に説明する。 新しい解法はまた、新しいアルゴリズムの形で提供される。 45] に与えられたアルゴリズムに関するさらなる新規性は、すべてのケースで保持される新しい収束基準からなる([45] に与えられたアルゴリズムの収束基準は、いくつかのケースで失敗する可能性がある)。 最後に、状態可観測性の問題と密接に関連している未知の入力再構成問題に対する回答を提供する。 本稿では,視覚・慣性センサー融合の枠組みにおける非線形システムの研究による新しいアルゴリズムの実装について述べる。

Observability is a fundamental structural property of any dynamic system and describes the possibility of reconstructing the state that characterizes the system from observing its inputs and outputs. Despite the huge effort made to study this property and to introduce analytical criteria able to check whether a dynamic system satisfies this property or not, there is no general analytical criterion to automatically check the state observability when the dynamics are also driven by unknown inputs. Here, we introduce the general analytical solution of this fundamental problem, often called the unknown input observability problem. This paper provides the general analytical solution of this problem, namely, it provides the systematic procedure, based on automatic computation (differentiation and matrix rank determination), that allows us to automatically check the state observability even in the presence of unknown inputs. A first solution of this problem was presented in the second part of the book: "Observability: A New Theory Based on the Group of Invariance" [45]. The solution presented by this paper completes the previous solution in [45]. In particular, the new solution exhaustively accounts for the systems that do not belong to the category of the systems that are canonic with respect to their unknown inputs. The new solution is also provided in the form of a new algorithm. A further novelty with respect to the algorithm provided in [45] consists of a new convergence criterion that holds in all the cases (the convergence criterion of the algorithm provided in [45] can fail in some cases). Finally, we also provide the answer to the problem of unknown input reconstruction which is intimately related to the problem of state observability. We illustrate the implementation of the new algorithm by studying a nonlinear system in the framework of visual-inertial sensor fusion.
翻訳日:2022-01-20 17:52:56 公開日:2022-01-19
# (参考訳) CAST: トラッキングによる自己監督によるアニメーションの文字ラベリング [全文訳有]

CAST: Character labeling in Animation using Self-supervision by Tracking ( http://arxiv.org/abs/2201.07619v1 )

ライセンス: CC BY-SA 4.0
Oron Nir, Gal Rapoport, Ariel Shamir(参考訳) 漫画やアニメーションのドメインビデオは、実際の画像やビデオとは全く異なる特徴を持っている。 さらに、このドメインはスタイルに大きな可変性を持っている。 現在のコンピュータビジョンとディープラーニングソリューションは、自然画像で訓練されたため、アニメーションコンテンツでは失敗することが多い。 本稿では,特定のアニメーションコンテンツに適した意味表現を洗練する手法を提案する。 まず、大規模なアニメーションビデオセットでニューラルネットワークをトレーニングし、深層機能へのマッピングを埋め込み空間として使用します。 次に、マルチオブジェクトトラッキングを用いて、このスタイルでアニメーションキャラクターの多くの例を収集することにより、特定のアニメーションスタイルの表現を洗練するために自己スーパービジョンを使用する。 これらの例は、コントラスト損失トレーニングのための三重項を定義するために使われる。 洗練された意味空間は、多様な表現を持つ場合でも、アニメーションキャラクタのクラスタリングを改善する。 この空間を使用することで、アニメーションビデオに文字の辞書を作成し、特定のスタイル的コンテンツ(例えば、特定のアニメーションシリーズの文字)の特殊分類器を定義することができる。 これらの分類器はアニメーションビデオ中の文字を自動的にラベリングする基礎である。 本稿では,様々なアニメーションスタイルのキャラクターの集合について報告する。

Cartoons and animation domain videos have very different characteristics compared to real-life images and videos. In addition, this domain carries a large variability in styles. Current computer vision and deep-learning solutions often fail on animated content because they were trained on natural images. In this paper we present a method to refine a semantic representation suitable for specific animated content. We first train a neural network on a large-scale set of animation videos and use the mapping to deep features as an embedding space. Next, we use self-supervision to refine the representation for any specific animation style by gathering many examples of animated characters in this style, using a multi-object tracking. These examples are used to define triplets for contrastive loss training. The refined semantic space allows better clustering of animated characters even when they have diverse manifestations. Using this space we can build dictionaries of characters in an animation videos, and define specialized classifiers for specific stylistic content (e.g., characters in a specific animation series) with very little user effort. These classifiers are the basis for automatically labeling characters in animation videos. We present results on a collection of characters in a variety of animation styles.
翻訳日:2022-01-20 17:51:30 公開日:2022-01-19
# (参考訳) 非線形結合制約をもつ非平滑非凸最適化のためのマルチブロックADMM

Multiblock ADMM for nonsmooth nonconvex optimization with nonlinear coupling constraints ( http://arxiv.org/abs/2201.07657v1 )

ライセンス: CC BY 4.0
Le Thi Khanh Hien, Dimitri Papadimitriou(参考訳) 本稿では,非線形結合制約を持つマルチブロック非滑らかな非凸最適化問題を考える。 J. Bolte, S. Sabach and M. Teboulle, Nonconvex Lagrangian-based optimization: Monitoring schemes and global convergence, Operations Research, 43: 1210--1232, 2018] で提案された情報ゾーンと適応型レギュレーションを利用するアイデアを開発することにより、この問題を解決するための乗算器の多重ブロック交互方向法を提案する。 各ブロック更新において,最大化最小化手順を用いることで,プリミティブ変数の更新を規定する。 独立収束解析は、拡張ラグランジアンの臨界点への生成列の大域収束と同様に後続性を証明するために行われる。 また, 反復複雑性を確立し, 提案アルゴリズムの予備的な数値計算結果を提供する。

This paper considers a multiblock nonsmooth nonconvex optimization problem with nonlinear coupling constraints. By developing the idea of using the information zone and adaptive regime proposed in [J. Bolte, S. Sabach and M. Teboulle, Nonconvex Lagrangian-based optimization: Monitoring schemes and global convergence, Mathematics of Operations Research, 43: 1210--1232, 2018], we propose a multiblock alternating direction method of multipliers for solving this problem. We specify the update of the primal variables by employing a majorization minimization procedure in each block update. An independent convergence analysis is conducted to prove subsequential as well as global convergence of the generated sequence to a critical point of the augmented Lagrangian. We also establish iteration complexity and provide preliminary numerical results for the proposed algorithm.
翻訳日:2022-01-20 17:30:17 公開日:2022-01-19
# (参考訳) 混合モデルと文書特色ファインタニングを用いた中世写本のオープンソース手書き文字認識 [全文訳有]

Open Source Handwritten Text Recognition on Medieval Manuscripts using Mixed Models and Document-Specific Finetuning ( http://arxiv.org/abs/2201.07661v1 )

ライセンス: CC BY 4.0
Christian Reul, Stefan Tomasek, Florian Langhanki, Uwe Springmann(参考訳) 本稿では,ドイツの中世写本における実践的かつオープンソースの手書き文字認識(HTR)の課題を扱う。 本報告では,文書固有の訓練を一切行わず,かつ数ページの書き起こしテキスト(地下真実)に新たなモデルをトレーニングすることで,微調整の出発点として機能する混在認識モデルの構築について述べる。 混合モデルをトレーニングするために、35の原稿とcaのコーパスを集めました。 ゴシック文字とバスターダ文字の2種類の筆跡用の12.5kテキスト行。 4つの未確認原稿の混合モデルの評価の結果、平均的な文字誤り率(CER)は6.22%となった。 2、4ページ、32ページのトレーニングを経て、CERはそれぞれ3.27%、2.58%、1.65%に低下した。 ドメイン内におけるモデル認識とトレーニング(bastarda model to bastarda material, gothic to gothic)は、当然ながら最高の結果をもたらしたが、ドメイン外モデルから見えないスクリプトへの微調整は、いまだにスクラッチからトレーニングよりも優れていることが示されている。 私たちの新しい混合モデルは、コミュニティに公開されています。

This paper deals with the task of practical and open source Handwritten Text Recognition (HTR) on German medieval manuscripts. We report on our efforts to construct mixed recognition models which can be applied out-of-the-box without any further document-specific training but also serve as a starting point for finetuning by training a new model on a few pages of transcribed text (ground truth). To train the mixed models we collected a corpus of 35 manuscripts and ca. 12.5k text lines for two widely used handwriting styles, Gothic and Bastarda cursives. Evaluating the mixed models out-of-the-box on four unseen manuscripts resulted in an average Character Error Rate (CER) of 6.22%. After training on 2, 4 and eventually 32 pages the CER dropped to 3.27%, 2.58%, and 1.65%, respectively. While the in-domain recognition and training of models (Bastarda model to Bastarda material, Gothic to Gothic) unsurprisingly yielded the best results, finetuning out-of-domain models to unseen scripts was still shown to be superior to training from scratch. Our new mixed models have been made openly available to the community.
翻訳日:2022-01-20 17:29:10 公開日:2022-01-19
# (参考訳) 半自動的3dオブジェクトキーポイントアノテーションとマス検出 [全文訳有]

Semi-automatic 3D Object Keypoint Annotation and Detection for the Masses ( http://arxiv.org/abs/2201.07665v1 )

ライセンス: CC BY 4.0
Kenneth Blomqvist, Jen Jen Chung, Lionel Ott, Roland Siegwart(参考訳) コンピュータビジョンデータセットの作成には、慎重な計画と多くの時間と労力が必要です。 ロボット工学研究において、オブジェクト追跡、ポーズ推定、把握、操作などのタスクには、YCBオブジェクトセットのような標準化されたオブジェクトを使う必要があることが多い。 学習ベースのコンピュータビジョン手法は、既存のデータセットでサポートされているシナリオでのみ使用できるため、この研究の影響は限定されます。 本研究では,データ収集,ラベル付け,モデル学習,評価からプロセス全体を包含する,完全なオブジェクトキーポイント追跡ツールキットを提案する。 本稿では,手首装着型カメラを標準ロボットアームに装着し,データセットの収集とラベル付けを行う半自動的な手法を提案する。 当社のツールキットとメソッドを使えば,動作する3dオブジェクトキーポイント検出器を入手して,データ収集,アノテーション,学習のプロセス全体を,わずか数時間のアクティブな時間で実行することが可能です。

Creating computer vision datasets requires careful planning and lots of time and effort. In robotics research, we often have to use standardized objects, such as the YCB object set, for tasks such as object tracking, pose estimation, grasping and manipulation, as there are datasets and pre-learned methods available for these objects. This limits the impact of our research since learning-based computer vision methods can only be used in scenarios that are supported by existing datasets. In this work, we present a full object keypoint tracking toolkit, encompassing the entire process from data collection, labeling, model learning and evaluation. We present a semi-automatic way of collecting and labeling datasets using a wrist mounted camera on a standard robotic arm. Using our toolkit and method, we are able to obtain a working 3D object keypoint detector and go through the whole process of data collection, annotation and learning in just a couple hours of active time.
翻訳日:2022-01-20 17:16:24 公開日:2022-01-19
# (参考訳) コードの洗練: コードレコメンデーションからロジックレコメンデーションへ [全文訳有]

Code Sophistication: From Code Recommendation to Logic Recommendation ( http://arxiv.org/abs/2201.07674v1 )

ライセンス: CC BY 4.0
Jessie Galasso, Michalis Famelis, Houari Sahraoui(参考訳) プログラミングの典型的なアプローチは、まずメインの実行シナリオをコーディングし、次に代替の振る舞いやコーナーケースを埋めることに集中することである。 しかし、ほとんど常に、プログラム仕様では予測が難しい非定型的な振る舞いを誘発する異常な条件が存在するため、しばしばコード化されない。 本稿では,コードの高度化(code sophistication)と呼ばれる,そのような欠落した行動の検出と推奨の問題について考察する。 コーディングアシスタントに関するこれまでの研究は、通常、意図した振る舞いの仕様に基づいてコードフラグメントを推奨することに焦点を当てている。 対照的に、コードの洗練は仕様がないときに起こり、開発者が不明確で特定されていない振る舞いでプログラムのロジックを完成させるのを助けることを目的としている。 本稿では,本問題に対する研究課題を概説し,コード構造と入力パラメータの使用状況に関する情報を利用してプログラム論理の完成方法を示す。

A typical approach to programming is to first code the main execution scenario, and then focus on filling out alternative behaviors and corner cases. But, almost always, there exist unusual conditions that trigger atypical behaviors, which are hard to predict in program specifications, and are thus often not coded. In this paper, we consider the problem of detecting and recommending such missing behaviors, a task that we call code sophistication. Previous research on coding assistants usually focuses on recommending code fragments based on specifications of the intended behavior. In contrast, code sophistication happens in the absence of a specification, aiming to help developers complete the logic of their programs with missing and unspecified behaviors. We outline the research challenges to this problem and present early results showing how program logic can be completed by leveraging code structure and information about the usage of input parameters.
翻訳日:2022-01-20 17:01:53 公開日:2022-01-19
# (参考訳) Tiny, always-on, fragile: デバイス上の機械学習ワークフローの設計選択によるバイアス伝搬 [全文訳有]

Tiny, always-on and fragile: Bias propagation through design choices in on-device machine learning workflows ( http://arxiv.org/abs/2201.07677v1 )

ライセンス: CC BY 4.0
Wiebke Toussaint, Akhil Mathur, Aaron Yi Ding, Fahim Kawsar(参考訳) 何十億もの分散、異質、リソースに制約のあるスマートコンシューマデバイスがデバイス上で機械学習(ML)をデプロイし、個人データに対してプライベート、高速、オフラインの推論を提供する。 オンデバイスMLシステムは、コンテキスト依存性が高く、ユーザ、使用状況、ハードウェア、環境属性に敏感である。 この感度とMLのバイアスに対する妥当性にもかかわらず、オンデバイスMLのバイアスは研究されていない。 本稿では、デバイス上でのML開発ワークフローにおける設計選択によるバイアスの伝播について検討する。 我々は、デバイス上のML設定における不公平性の源として、人口集団間で異なるデバイス障害から生じる「emph{reliablity bias}」を位置づけ、メトリクスを評価して評価する。 次に、ユーザグループ間で異なるパフォーマンスをもたらすことができるオンデバイスMLワークフローにおける、複雑で対話的な技術設計の選択を特定します。 最後に,音声キーワードスポッティング開発ワークフローを通じて,データサンプル率,入力特徴の構築に使用される前処理パラメータ,ハイパーパラメータのpruningなど,一見無作為な設計選択が<emph{reliability bias} を伝搬することを示す。 私たちは洞察を活用して、開発者がデバイス上でより公平なMLを開発するための戦略を提案します。

Billions of distributed, heterogeneous and resource constrained smart consumer devices deploy on-device machine learning (ML) to deliver private, fast and offline inference on personal data. On-device ML systems are highly context dependent, and sensitive to user, usage, hardware and environmental attributes. Despite this sensitivity and the propensity towards bias in ML, bias in on-device ML has not been studied. This paper studies the propagation of bias through design choices in on-device ML development workflows. We position \emph{reliablity bias}, which arises from disparate device failures across demographic groups, as a source of unfairness in on-device ML settings and quantify metrics to evaluate it. We then identify complex and interacting technical design choices in the on-device ML workflow that can lead to disparate performance across user groups, and thus \emph{reliability bias}. Finally, we show with an empirical case study that seemingly innocuous design choices such as the data sample rate, pre-processing parameters used to construct input features and pruning hyperparameters propagate \emph{reliability bias} through an audio keyword spotting development workflow. We leverage our insights to suggest strategies for developers to develop fairer on-device ML.
翻訳日:2022-01-20 16:51:40 公開日:2022-01-19
# (参考訳) ラベル選択バイアスを伴わない偏差グラフニューラルネットワーク [全文訳有]

Debiased Graph Neural Networks with Agnostic Label Selection Bias ( http://arxiv.org/abs/2201.07708v1 )

ライセンス: CC BY 4.0
Shaohua Fan, Xiao Wang, Chuan Shi, Kun Kuang, Nian Liu, Bai Wang(参考訳) 既存のグラフニューラルネットワーク(GNN)のほとんどは、データの選択バイアス、すなわちテストセットによるトレーニングセット間の不整合分布を考慮せずに提案されている。 実際には、トレーニングプロセス中にテストデータが利用できないため、選択バイアスが非依存になる。 バイアスのある選択ノードによるGNNのトレーニングは、重要なパラメータ推定バイアスをもたらし、テストノードの一般化能力に大きな影響を及ぼす。 本稿では,まず,選択バイアスがGNNの一般化能力を著しく阻害することを示す実験を行い,選択バイアスがGNNパラメータに対するバイアス推定を引き起こすことを理論的に証明する。 そして、GNN推定におけるバイアスを取り除くために、微分デコリレーション正則化を用いた新しいデバイアスドグラフニューラルネットワーク(DGNN)を提案する。 差分デコリレーション正則化器は各ラベル付きノードの標本重量を推定し、学習した埋め込みの急激な相関を排除できる。 因果的視点で正規化子を分析し,それらの共起バイアスに対する寄与に基づいて変数の重みを区別する動機付けを行う。 そして、これらのサンプル重みをGNNの重み付けに用いて推定バイアスを排除し、未知のテストノードでの予測の安定性を向上させる。 2種類のラベル選択バイアスを持ついくつかの挑戦グラフデータセットに対して総合的な実験を行った。 その結果,提案モデルが最先端の手法より優れており,DGNNは既存のGNNを強化する柔軟なフレームワークであることがわかった。

Most existing Graph Neural Networks (GNNs) are proposed without considering the selection bias in data, i.e., the inconsistent distribution between the training set with test set. In reality, the test data is not even available during the training process, making selection bias agnostic. Training GNNs with biased selected nodes leads to significant parameter estimation bias and greatly impacts the generalization ability on test nodes. In this paper, we first present an experimental investigation, which clearly shows that the selection bias drastically hinders the generalization ability of GNNs, and theoretically prove that the selection bias will cause the biased estimation on GNN parameters. Then to remove the bias in GNN estimation, we propose a novel Debiased Graph Neural Networks (DGNN) with a differentiated decorrelation regularizer. The differentiated decorrelation regularizer estimates a sample weight for each labeled node such that the spurious correlation of learned embeddings could be eliminated. We analyze the regularizer in causal view and it motivates us to differentiate the weights of the variables based on their contribution on the confounding bias. Then, these sample weights are used for reweighting GNNs to eliminate the estimation bias, thus help to improve the stability of prediction on unknown test nodes. Comprehensive experiments are conducted on several challenging graph datasets with two kinds of label selection biases. The results well verify that our proposed model outperforms the state-of-the-art methods and DGNN is a flexible framework to enhance existing GNNs.
翻訳日:2022-01-20 16:27:20 公開日:2022-01-19
# (参考訳) human-driven dynamic dataset augmentationによる行動クローニングの改善 [全文訳有]

Improving Behavioural Cloning with Human-Driven Dynamic Dataset Augmentation ( http://arxiv.org/abs/2201.07719v1 )

ライセンス: CC BY 4.0
Federico Malato, Joona Jehkonen, Ville Hautam\"aki(参考訳) 行動クローニングはエージェントの訓練に広く使われており、専門家の軌跡に基づく一般的な行動を教えるための高速で堅固なアプローチとして認識されている。 このような手法は教師付き学習パラダイムに従っており、データの分布に強く依存する。 本稿では,ループ内トレーニングと行動のクローニングを組み合わせることで,その欠点のいくつかを解消し,訓練時間を短縮し,必要なリソースを削減しつつ,厄介な状況を克服するためのエージェントタスク固有の修正を行う。 そこで,我々は,専門家がシミュレーション中にエージェントをいつでも制御し,問題のある状況に対して最適な解決策を提供するための新しい手法を提案する。 我々の実験は、このアプローチが定量的評価と人間の類似性の両方においてより良い政策をもたらすことを示している。

Behavioural cloning has been extensively used to train agents and is recognized as a fast and solid approach to teach general behaviours based on expert trajectories. Such method follows the supervised learning paradigm and it strongly depends on the distribution of the data. In our paper, we show how combining behavioural cloning with human-in-the-loop training solves some of its flaws and provides an agent task-specific corrections to overcome tricky situations while speeding up the training time and lowering the required resources. To do this, we introduce a novel approach that allows an expert to take control of the agent at any moment during a simulation and provide optimal solutions to its problematic situations. Our experiments show that this approach leads to better policies both in terms of quantitative evaluation and in human-likeliness.
翻訳日:2022-01-20 15:50:48 公開日:2022-01-19
# (参考訳) Scotch: セキュア集約のための効率的なセキュア計算フレームワーク [全文訳有]

Scotch: An Efficient Secure Computation Framework for Secure Aggregation ( http://arxiv.org/abs/2201.07730v1 )

ライセンス: CC BY 4.0
Arup Mondal, Yash More, Prashanthi Ramachandran, Priyam Panda, Harpreet Virk, Debayan Gupta(参考訳) フェデレーション学習は、複数のデータ所有者がプライベートデータセットを公開せずに、機械学習モデルを共同でトレーニングすることを可能にする。 しかし、悪意のあるアグリゲーションサーバは、モデルパラメータを使用して、使用するトレーニングデータセットに関する機密情報を導き出すことができる。 このような漏洩に対処するために、ディファレンシャルプライバシと暗号化技術が先行研究で研究されてきたが、これは大きな通信オーバーヘッドやモデルパフォーマンスへの影響をもたらすことが多い。 この中央集権化を緩和するため,我々は,分散型 \textit{m-party} secure-computation frameworkである \textit{secret sharing} という mpc プリミティブをデプロイするフェデレートアグリゲーションのための \textsc{scotch} を提案する。 私たちのプロトコルはシンプルで効率的で、興味のあるアグリゲータに対する厳格なプライバシー保証や、通信オーバーヘッドを最小限に抑えるデータ所有者とのコラボレーションを提供する。 我々は,有望な結果を得た複数のデータセットに対して広範な実験を行うことで,我々のフレームワークを評価する。 \textsc{Scotch} は、トレーニングデータセットを3人の参加ユーザと3つの集約サーバに分割し、MNISTで96.57\%、拡張MNIST(digits)データセットで98.40\%の精度でトレーニングすることができる。

Federated learning enables multiple data owners to jointly train a machine learning model without revealing their private datasets. However, a malicious aggregation server might use the model parameters to derive sensitive information about the training dataset used. To address such leakage, differential privacy and cryptographic techniques have been investigated in prior work, but these often result in large communication overheads or impact model performance. To mitigate this centralization of power, we propose \textsc{Scotch}, a decentralized \textit{m-party} secure-computation framework for federated aggregation that deploys MPC primitives, such as \textit{secret sharing}. Our protocol is simple, efficient, and provides strict privacy guarantees against curious aggregators or colluding data-owners with minimal communication overheads compared to other existing \textit{state-of-the-art} privacy-preserving federated learning frameworks. We evaluate our framework by performing extensive experiments on multiple datasets with promising results. \textsc{Scotch} can train the standard MLP NN with the training dataset split amongst 3 participating users and 3 aggregating servers with 96.57\% accuracy on MNIST, and 98.40\% accuracy on the Extended MNIST (digits) dataset, while providing various optimizations.
翻訳日:2022-01-20 15:41:42 公開日:2022-01-19
# 分散ディープラーニングのための準最適スパースallreduce

Near-Optimal Sparse Allreduce for Distributed Deep Learning ( http://arxiv.org/abs/2201.07598v1 )

ライセンス: Link先を確認
Shigang Li, Torsten Hoefler(参考訳) 大規模なディープラーニングモデルをトレーニングする上で,コミュニケーションのオーバーヘッドは大きな障害のひとつだ。 勾配スパーシフィケーションは通信量を減らすための有望な技術である。 しかし,(1)スケーラブルで効率的なsparse allreduceアルゴリズムの達成が困難で,(2)スパース化オーバーヘッドの低減が困難であることから,実性能の向上は困難である。 本稿では,分散勾配を持つ分散学習のためのスキームであるo$k$-top$k$を提案する。 O$k$-Top$k$は、分散並列SGD(Stochastic Gradient Descent)オプティマイザと新しいスパースアレーダアルゴリズム(漸近的に最適である6$k$以下の通信量)を統合し、その収束性を証明する。 スパーシフィケーションオーバーヘッドを低減するため、o$k$-top$k$は推定しきい値に応じてトップ$k$勾配値を効率的に選択する。 異なるディープラーニング領域のニューラルネットワークモデルを用いたpiz daintスーパーコンピュータ上で評価を行う。 実験の結果、o$k$-top$k$ は密集したallreduceと類似のモデル精度が得られることがわかった。 最適化されたsparse allreduceと最先端のsparse allreduceと比較して、o$k$-top$k$はよりスケーラブルで、トレーニングスループットが大幅に向上している(256gpuでのbertの3.29x-12.95倍の改善など)。

Communication overhead is one of the major obstacles to train large deep learning models at scale. Gradient sparsification is a promising technique to reduce the communication volume. However, it is very challenging to obtain real performance improvement because of (1) the difficulty of achieving an scalable and efficient sparse allreduce algorithm and (2) the sparsification overhead. This paper proposes O$k$-Top$k$, a scheme for distributed training with sparse gradients. O$k$-Top$k$ integrates a novel sparse allreduce algorithm (less than 6$k$ communication volume which is asymptotically optimal) with the decentralized parallel Stochastic Gradient Descent (SGD) optimizer, and its convergence is proved. To reduce the sparsification overhead, O$k$-Top$k$ efficiently selects the top-$k$ gradient values according to an estimated threshold. Evaluations are conducted on the Piz Daint supercomputer with neural network models from different deep learning domains. Empirical results show that O$k$-Top$k$ achieves similar model accuracy to dense allreduce. Compared with the optimized dense and the state-of-the-art sparse allreduces, O$k$-Top$k$ is more scalable and significantly improves training throughput (e.g., 3.29x-12.95x improvement for BERT on 256 GPUs).
翻訳日:2022-01-20 15:28:27 公開日:2022-01-19
# Pairwise expecteded Regret を用いたプッシュ通知のランク付け学習

Learning to Rank For Push Notifications Using Pairwise Expected Regret ( http://arxiv.org/abs/2201.07681v1 )

ライセンス: Link先を確認
Yuguang Yue, Yuanpu Xie, Huasen Wu, Haofeng Jia, Shaodan Zhai, Wenzhe Shi, Jonathan J Hunt(参考訳) ランキングの損失は推薦システムで広く研究されている。 しかし,コンテンツ消費の新しいパラダイムは,ランキング手法に新たな課題をもたらす。 本研究では,パーソナライズされたモバイルプッシュ通知に対してランク付けを行うための学習の分析を行い,従来のランキング問題と比較して,提示するユニークな課題について論じる。 これらの課題に対処するため,提案手法では,候補間の対数損失の重み付けに基づく新しいランキング損失について紹介する。 提案手法は,シミュレーション環境および主要ソーシャルネットワーク上での運用実験において,先行手法を上回ることができることを示す。

Listwise ranking losses have been widely studied in recommender systems. However, new paradigms of content consumption present new challenges for ranking methods. In this work we contribute an analysis of learning to rank for personalized mobile push notifications and discuss the unique challenges this presents compared to traditional ranking problems. To address these challenges, we introduce a novel ranking loss based on weighting the pairwise loss between candidates by the expected regret incurred for misordering the pair. We demonstrate that the proposed method can outperform prior methods both in a simulated environment and in a production experiment on a major social network.
翻訳日:2022-01-20 15:28:00 公開日:2022-01-19
# スマートホームにおける合成データ生成のための変分オートエンコーダ生成逆ネットワーク

Variational Autoencoder Generative Adversarial Network for Synthetic Data Generation in Smart Home ( http://arxiv.org/abs/2201.07387v1 )

ライセンス: Link先を確認
Mina Razghandi, Hao Zhou, Melike Erol-Kantarci, and Damla Turgut(参考訳) データは、他の多くの分野と同様、スマートグリッドアプリケーションのためのデータサイエンスおよび機械学習技術の燃料である。 しかし、プライバシの懸念やデータサイズ、データ品質などによって、データの可用性が問題になる可能性がある。 To this end, in this paper, we propose a Variational AutoEncoder Generative Adversarial Network (VAE-GAN) as a smart grid data generative model which is capable of learning various types of data distributions and generating plausible samples from the same distribution without performing any prior analysis on the data before the training phase.We compared the Kullback-Leibler (KL) divergence, maximum mean discrepancy (MMD), and Wasserstein distance between the synthetic data (electrical load and PV production) distribution generated by the proposed model, vanilla GAN network, and the real data distribution, to evaluate the performance of our model. さらに,スマートグリッドデータ分布を記述するために5つの重要な統計パラメータを用い,モデルと実データの両方から生成された合成データと比較した。 実験により,提案した合成データ生成モデルは,バニラGANネットワークより優れていることが示された。 vae-gan合成データの分布は、実データと最もよく似ている。

Data is the fuel of data science and machine learning techniques for smart grid applications, similar to many other fields. However, the availability of data can be an issue due to privacy concerns, data size, data quality, and so on. To this end, in this paper, we propose a Variational AutoEncoder Generative Adversarial Network (VAE-GAN) as a smart grid data generative model which is capable of learning various types of data distributions and generating plausible samples from the same distribution without performing any prior analysis on the data before the training phase.We compared the Kullback-Leibler (KL) divergence, maximum mean discrepancy (MMD), and Wasserstein distance between the synthetic data (electrical load and PV production) distribution generated by the proposed model, vanilla GAN network, and the real data distribution, to evaluate the performance of our model. Furthermore, we used five key statistical parameters to describe the smart grid data distribution and compared them between synthetic data generated by both models and real data. Experiments indicate that the proposed synthetic data generative model outperforms the vanilla GAN network. The distribution of VAE-GAN synthetic data is the most comparable to that of real data.
翻訳日:2022-01-20 15:25:05 公開日:2022-01-19
# 離散的粗経路によるディープニューラルネットワークの安定性

Stability of Deep Neural Networks via discrete rough paths ( http://arxiv.org/abs/2201.07566v1 )

ライセンス: Link先を確認
Christian Bayer, Peter K. Friz, Nikolas Tapia(参考訳) 粗い経路法を用いて、入力データと(訓練された)ネットワーク重みの双方の観点から、ディープ残留ニューラルネットワークの出力に対する事前推定を行う。 トレーニングされたネットワーク重みは、通常、層の関数と見なすと非常に粗いので、任意の$p\in[1,3]$に対してトレーニングされた重みの合計$p$-variationという観点から、安定性境界を求める。 axiv:2105.12245] で示唆されるようなブラウン運動のように振る舞う重みの制限ケースにおいても、神経ode の文献の基礎となる $c^1$-理論とは異なり、推定値には限界がある。 数学的には、残留ニューラルネットワークを(粗)差分方程式の解として解釈し、離散時間シグネチャと粗経路理論の最近の結果に基づいて解析する。

Using rough path techniques, we provide a priori estimates for the output of Deep Residual Neural Networks in terms of both the input data and the (trained) network weights. As trained network weights are typically very rough when seen as functions of the layer, we propose to derive stability bounds in terms of the total $p$-variation of trained weights for any $p\in[1,3]$. Unlike the $C^1$-theory underlying the neural ODE literature, our estimates remain bounded even in the limiting case of weights behaving like Brownian motions, as suggested in [arXiv:2105.12245]. Mathematically, we interpret residual neural network as solutions to (rough) difference equations, and analyse them based on recent results of discrete time signatures and rough path theory.
翻訳日:2022-01-20 15:24:50 公開日:2022-01-19
# ツープレイヤーゼロサムゲームにおける任意のPSRO

Anytime Optimal PSRO for Two-Player Zero-Sum Games ( http://arxiv.org/abs/2201.07700v1 )

ライセンス: Link先を確認
Stephen McAleer, Kevin Wang, Marc Lanctot, John Lanier, Pierre Baldi, Roy Fox(参考訳) ポリシー空間応答オラクル(psro: policy space response oracles)は、連続したアクションを処理できるゲームのためのマルチエージェント強化学習アルゴリズムであり、大規模なゲームで経験的にナッシュ平衡が発見された。 PSROは、Nash平衡に収束することが保証されるが、あるイテレーションから次のイテレーションへのエクスプロイザビリティを高めることができる、表形式のDouble Oracle(DO)メソッドに基づいている。 我々は,繰り返しから繰り返しへの悪用性を低減しつつ,ナッシュ平衡に収束することを保証した2プレイヤゼロサムゲームのための表型二重オラクルアルゴリズムであるAnytime Optimal Double Oracle (AODO)を提案する。 メタストラテジーが各プレイヤーの戦略セットによって形成された制限されたゲームに基づいているdoとは異なり、aodoは、すべての制限のないゲームにおけるポリシーに対する利用性を最小化する各プレイヤーのメタストラテジーを見つける。 また, rm-br doと呼ばれる連続的に学習されるベスト応答に対して更新されるno-regretアルゴリズムを用いて, このメタストラテジーを求める手法を提案する。 最後に,強化学習によるベスト応答を計算するaodoのバージョンであるanytime optimal psroを提案する。 Leduc ポーカーとランダムな正規形式ゲームの実験では、我々の手法は DO や PSRO よりもはるかに低いエクスプロイラビリティを実現し、エクスプロイラビリティは向上しない。

Policy Space Response Oracles (PSRO) is a multi-agent reinforcement learning algorithm for games that can handle continuous actions and has empirically found approximate Nash equilibria in large games. PSRO is based on the tabular Double Oracle (DO) method, an algorithm that is guaranteed to converge to a Nash equilibrium, but may increase exploitability from one iteration to the next. We propose Anytime Optimal Double Oracle (AODO), a tabular double oracle algorithm for 2-player zero-sum games that is guaranteed to converge to a Nash equilibrium while decreasing exploitability from iteration to iteration. Unlike DO, in which the meta-strategy is based on the restricted game formed by each player's strategy sets, AODO finds the meta-strategy for each player that minimizes its exploitability against any policy in the full, unrestricted game. We also propose a method of finding this meta-strategy via a no-regret algorithm updated against a continually-trained best response, called RM-BR DO. Finally, we propose Anytime Optimal PSRO, a version of AODO that calculates best responses via reinforcement learning. In experiments on Leduc poker and random normal form games, we show that our methods achieve far lower exploitability than DO and PSRO and never increase exploitability.
翻訳日:2022-01-20 15:24:31 公開日:2022-01-19
# ウェアラブル・ブレイン・コンピュータ・インタフェースのセキュリティとプライバシーの強化

Enhancing the Security & Privacy of Wearable Brain-Computer Interfaces ( http://arxiv.org/abs/2201.07711v1 )

ライセンス: Link先を確認
Zahra Tarkhani, Lorena Qendro, Malachy O'Connor Brown, Oscar Hill, Cecilia Mascolo, Anil Madhavapeddy(参考訳) ブレインコンピューティングインターフェース(BCI)は、医療からスマートコミュニケーション、制御に至るまで、安全/プライバシクリティカルな多くのアプリケーションで使用されている。 ウェアラブルなBCIセットアップは通常、ヘッドマウントセンサーをモバイルデバイスに接続し、MLベースのデータ処理と組み合わせる。 そのため、ハードウェア、ソフトウェア、ネットワークスタックにまたがる攻撃が多様になり、ユーザーの脳波データを漏洩したり、最悪の場合、bci支援デバイスの制御を遠隔攻撃者に放棄したりすることができる。 本稿では, (i)オペレーティングシステムと機械学習の観点から、既存のウェアラブルbci製品に対するシステム全体のセキュリティとプライバシーの脅威を分析する。 (ii)これらの攻撃を緩和するウェアラブルbciアプリケーションのための最初の情報フロー制御システムであるargusを紹介する。 Argusのドメイン固有の設計は、既存のBCIユースケースに適したLinux ARMプラットフォームに軽量な実装をもたらす。 実世界のBCIデバイス(Muse、NeuroSky、OpenBCI)に対する概念攻撃の証明は、6つの主要な攻撃ベクトルのスタックに300以上の脆弱性を発見しました。 評価の結果,Argusは機密データフローの追跡に極めて有効であり,これらの攻撃を許容メモリと性能上のオーバーヘッド(15%)で抑制できることがわかった。

Brain computing interfaces (BCI) are used in a plethora of safety/privacy-criti cal applications, ranging from healthcare to smart communication and control. Wearable BCI setups typically involve a head-mounted sensor connected to a mobile device, combined with ML-based data processing. Consequently, they are susceptible to a multiplicity of attacks across the hardware, software, and networking stacks used that can leak users' brainwave data or at worst relinquish control of BCI-assisted devices to remote attackers. In this paper, we: (i) analyse the whole-system security and privacy threats to existing wearable BCI products from an operating system and adversarial machine learning perspective; and (ii) introduce Argus, the first information flow control system for wearable BCI applications that mitigates these attacks. Argus' domain-specific design leads to a lightweight implementation on Linux ARM platforms suitable for existing BCI use-cases. Our proof of concept attacks on real-world BCI devices (Muse, NeuroSky, and OpenBCI) led us to discover more than 300 vulnerabilities across the stacks of six major attack vectors. Our evaluation shows Argus is highly effective in tracking sensitive dataflows and restricting these attacks with an acceptable memory and performance overhead (<15%).
翻訳日:2022-01-20 15:24:03 公開日:2022-01-19
# グラフ上での情報伝達モデル

Models for information propagation on graphs ( http://arxiv.org/abs/2201.07577v1 )

ライセンス: Link先を確認
Oliver R. A. Dunbar, Charles M. Elliott and Lisa Maria Kreusser(参考訳) 本研究では,グラフ上の情報伝達のための異なるモデルのクラスを提案し,統一する。 第1のクラスでは、情報波前線がノードに到達した時刻によって決定された順序で、初期時刻に既知のノードの集合からその後のすべての未知のノードへ伝播する波としてモデル化される。 モデルの第2のクラスは、ノード間の経路に沿った移動時間の概念に基づいている。 初期既知のノードの集合からノードへの情報伝達時間は、全ての許容パスのサブセットに対する一般化された移動時間の最小値として定義される。 最終クラスは、既知のノードの境界条件を持つ未知の各ノードに固有形式の局所方程式を付与することによって与えられる。 ノードにおける局所方程式の解値は、隣接するノードをより小さな解値で結合する。 このグラフ設定において、モデルクラスの正確な定式化を提供し、それらの同値性を証明する。 連続体設定における最初の到着時間モデルと固有方程式の接続により、あるグラフモデルの格子洗練の下でユークリッド空間平均場限界の特定の形式の格子のグラフに対して、ハミルトン・ヤコビ PDE が導かれることを示す。 特定のパラメータの設定では、格子上の解がユークリッド距離に近似することを示す。

In this work we propose and unify classes of different models for information propagation over graphs. In a first class, propagation is modeled as a wave which emanates from a set of known nodes at an initial time, to all other unknown nodes at later times with an ordering determined by the time at which the information wave front reaches nodes. A second class of models is based on the notion of a travel time along paths between nodes. The time of information propagation from an initial known set of nodes to a node is defined as the minimum of a generalized travel time over subsets of all admissible paths. A final class is given by imposing a local equation of an eikonal form at each unknown node, with boundary conditions at the known nodes. The solution value of the local equation at a node is coupled the neighbouring nodes with smaller solution values. We provide precise formulations of the model classes in this graph setting, and prove equivalences between them. Motivated by the connection between first arrival time model and the eikonal equation in the continuum setting, we demonstrate that for graphs in the particular form of grids in Euclidean space mean field limits under grid refinement of certain graph models lead to Hamilton-Jacobi PDEs. For a specific parameter setting, we demonstrate that the solution on the grid approximates the Euclidean distance.
翻訳日:2022-01-20 15:23:30 公開日:2022-01-19
# 意味認識によるニューラルオーディオ駆動映像画像生成

Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation ( http://arxiv.org/abs/2201.07786v1 )

ライセンス: Link先を確認
Xian Liu, Yinghao Xu, Qianyi Wu, Hang Zhou, Wayne Wu, Bolei Zhou(参考訳) バーチャルリアリティーとデジタルエンターテイメントにとって、高忠実度ビデオポートレートを音声でアニメーションすることは不可欠である。 これまでのほとんどの研究は、正確な明示的な構造情報に依存しているが、最近の研究は、現実的な生成のための神経放射場(nerf)の暗黙的なシーン表現を探求している。 不整合運動と人間の頭と胴体の間の意味的差異を捉えるために、いくつかの研究は2つの個別のNeRFを通してそれらをモデル化し、不自然な結果をもたらす。 本稿では,一組のnerfを用いて繊細な音声駆動ポートレートを生成する意味認識型スポーキング・ポートレート・nerf(ssp-nerf)を提案する。 提案モデルは,2つのセマンティクス・アウェアモジュールを通じて,詳細な局所的セマンティクスとグローバルヘッド・トーソ関係を処理できる。 具体的には,音響駆動ボリュームレンダリングを容易にする構文解析ブランチを付加した,意味認識型動的レイサンプリングモジュールを提案する。 さらに、1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは大規模な非剛性胴体運動を安定させるように設計されている。 提案手法は,従来の手法に比べてよりリアルな映像を再現できることを示す。 プロジェクトページ:https://alvinliu0.g ithub.io/projects/SS P-NeRF

Animating high-fidelity video portrait with speech audio is crucial for virtual reality and digital entertainment. While most previous studies rely on accurate explicit structural information, recent works explore the implicit scene representation of Neural Radiance Fields (NeRF) for realistic generation. In order to capture the inconsistent motions as well as the semantic difference between human head and torso, some work models them via two individual sets of NeRF, leading to unnatural results. In this work, we propose Semantic-aware Speaking Portrait NeRF (SSP-NeRF), which creates delicate audio-driven portraits using one unified set of NeRF. The proposed model can handle the detailed local facial semantics and the global head-torso relationship through two semantic-aware modules. Specifically, we first propose a Semantic-Aware Dynamic Ray Sampling module with an additional parsing branch that facilitates audio-driven volume rendering. Moreover, to enable portrait rendering in one unified neural radiance field, a Torso Deformation module is designed to stabilize the large-scale non-rigid torso motions. Extensive evaluations demonstrate that our proposed approach renders more realistic video portraits compared to previous methods. Project page: https://alvinliu0.gi thub.io/projects/SSP -NeRF
翻訳日:2022-01-20 15:23:09 公開日:2022-01-19
# (参考訳) コロナKH-4(1962-1972)ステレオ画像の自動処理パイプライン [全文訳有]

A pipeline for automated processing of Corona KH-4 (1962-1972) stereo imagery ( http://arxiv.org/abs/2201.07756v1 )

ライセンス: CC BY 4.0
Sajid Ghuffar, Tobias Bolch, Ewelina Rupnik, Atanu Bhattacharya(参考訳) 1962-1972年のコロナKH-4偵察衛星ミッションは、空間解像度1.8-7.5mのパノラマステレオ画像を獲得した。 800,000以上の非分類コロナ画像のポテンシャルは、パノラマ画像の幾何処理、フィルムの歪み、コロナ画像のジオ参照に必要なメタデータの入手が限られているため、利用されていない。 本稿では,コロナkh-4ステレオパノラマ画像の処理パイプラインであるcorona stereo pipeline (cosp)を提案する。 CoSPは、ディープラーニングベースの機能マーカSuperGlueを利用して、Corona KH-4イメージと最近の衛星画像との間の特徴点を自動的にマッチングし、グラウンドコントロールポイント(GCP)を生成する。 パノラマKH-4カメラの撮影形状と走査運動をモデル化するために、時間依存の外部配向パラメータを持つ修正コリニアリティ方程式からなる厳密なカメラモデルを用いる。 その結果、コロナ画像のフレーム全体を用いて、よく分散したGCPを用いたバンドル調整により、平均標準偏差(SD)は2ピクセル未満であることが判明した。 エピポラリサンプリング画像におけるgcpとyパララックスの画像残差の歪みパターンは、長期保存によるフィルムの歪みが系統的偏差の原因であることを示唆している。 SRTM DEMと比較すると、CoSPを用いて計算されたコロナDEMは、通常の中性絶対偏差(NMAD)を近似領域で約4mの高度差で達成した。 4000$km^2$。 提案したパイプラインは, 高いレリーフと氷河化地形を含む複雑な景観のシーケンスに適用可能であり, 結果として得られるDEMは, 広範囲にわたる長期の氷河標高変化を計算できることを示す。

The Corona KH-4 reconnaissance satellite missions from 1962-1972 acquired panoramic stereo imagery with high spatial resolution of 1.8-7.5 m. The potential of 800,000+ declassified Corona images has not been leveraged due to the complexities arising from handling of panoramic imaging geometry, film distortions and limited availability of the metadata required for georeferencing of the Corona imagery. This paper presents Corona Stereo Pipeline (CoSP): A pipeline for processing of Corona KH-4 stereo panoramic imagery. CoSP utlizes a deep learning based feature matcher SuperGlue to automatically match features point between Corona KH-4 images and recent satellite imagery to generate Ground Control Points (GCPs). To model the imaging geometry and the scanning motion of the panoramic KH-4 cameras, a rigorous camera model consisting of modified collinearity equations with time dependent exterior orientation parameters is employed. The results show that using the entire frame of the Corona image, bundle adjustment using well-distributed GCPs results in an average standard deviation (SD) of less than 2 pixels. The distortion pattern of image residuals of GCPs and y-parallax in epipolar resampled images suggest that film distortions due to long term storage as likely cause of systematic deviations. Compared to the SRTM DEM, the Corona DEM computed using CoSP achieved a Normalized Median Absolute Deviation (NMAD) of elevation differences of ~4 m over an area of approx. 4000 $km^2$. We show that the proposed pipeline can be applied to sequence of complex scenes involving high relief and glacierized terrain and that the resulting DEMs can be used to compute long term glacier elevation changes over large areas.
翻訳日:2022-01-20 15:21:38 公開日:2022-01-19
# (参考訳) 規則を破ることはいつ受け入れられますか。 経験的データに基づく道徳的判断の知識表現

When Is It Acceptable to Break the Rules? Knowledge Representation of Moral Judgement Based on Empirical Data ( http://arxiv.org/abs/2201.07763v1 )

ライセンス: CC BY 4.0
Edmond Awad, Sydney Levine, Andrea Loreggia, Nicholas Mattei, Iyad Rahwan, Francesca Rossi, Kartik Talamadupula, Joshua Tenenbaum, Max Kleiman-Weiner(参考訳) 人間の道徳心の最も注目すべき点は、その柔軟性です。 これまでに見たことのない事件について 道徳的判断をすることができる 確立済みのルールは破られるべきだと判断できます。 私たちはすぐに新しいルールを発明できる。 この柔軟性の獲得は、人間のような道徳的判断を解釈し、生み出すことができるAIシステムの開発における中心的な課題の1つだ。 本稿では,確立された規範を破ることが許容できるかどうかを判断する実世界の意思決定者の調査結果について詳述する。 様々なシナリオにおいて、人間の参加者がラインカットの受理性を判断する方法についてのデータを集めます。 そこで,これらの推論能力を機械に効果的に組み込むために,モラル判断の標準「二重過程」理論の新たな修正を捉えた選好ベースの構造を用いてモデル化する手法を提案する。

One of the most remarkable things about the human moral mind is its flexibility. We can make moral judgments about cases we have never seen before. We can decide that pre-established rules should be broken. We can invent novel rules on the fly. Capturing this flexibility is one of the central challenges in developing AI systems that can interpret and produce human-like moral judgment. This paper details the results of a study of real-world decision makers who judge whether it is acceptable to break a well-established norm: ``no cutting in line.'' We gather data on how human participants judge the acceptability of line-cutting in a range of scenarios. Then, in order to effectively embed these reasoning capabilities into a machine, we propose a method for modeling them using a preference-based structure, which captures a novel modification to standard ``dual process'' theories of moral judgment.
翻訳日:2022-01-20 14:59:13 公開日:2022-01-19
# Data-to-Value: 自然言語プロジェクトの評価ファースト方法論

Data-to-Value: An Evaluation-First Methodology for Natural Language Projects ( http://arxiv.org/abs/2201.07725v1 )

ライセンス: Link先を確認
Jochen L. Leidner(参考訳) ビッグデータ、すなわち大規模なデータの収集、保存、処理は、HDFS/Hadoop/Sparkのようなアプリケーションレベルの分散並列オペレーティングシステムをベースとするコモディティコンピュータのクラスタが登場し、そのようなインフラストラクチャが大規模なデータマイニングに革命をもたらしたため、最近可能になった。 データマイニングプロジェクトがより一貫して成功するためには、いくつかの方法論(CRISP-DM、SEMMA、KDDなど)が開発されたが、これは(1)非常に大規模な処理、(2)テキスト(非構造化)データ(NLP、テキスト分析)、(3)非技術的考察(法的、倫理的、プロジェクト管理的側面など)を考慮に入れていない。 これらの欠点に対処するために、ビッグデータテキスト分析プロジェクトチームが方法論に共通する抽象的なボックス・アンド・アローダイアグラムに直面した際に、トピックとの切り離しを避けるために、詳細な質問カタログによってガイドされる"data to value"(d2v)と呼ばれる新しい方法論が導入されている。

Big data, i.e. collecting, storing and processing of data at scale, has recently been possible due to the arrival of clusters of commodity computers powered by application-level distributed parallel operating systems like HDFS/Hadoop/Spark, and such infrastructures have revolutionized data mining at scale. For data mining project to succeed more consistently, some methodologies were developed (e.g. CRISP-DM, SEMMA, KDD), but these do not account for (1) very large scales of processing, (2) dealing with textual (unstructured) data (i.e. Natural Language Processing (NLP, "text analytics"), and (3) non-technical considerations (e.g. legal, ethical, project managerial aspects). To address these shortcomings, a new methodology, called "Data to Value" (D2V), is introduced, which is guided by a detailed catalog of questions in order to avoid a disconnect of big data text analytics project team with the topic when facing rather abstract box-and-arrow diagrams commonly associated with methodologies.
翻訳日:2022-01-20 14:57:57 公開日:2022-01-19
# 肺超音波AIにおけるPleuraとAdiposeの役割

The Role of Pleura and Adipose in Lung Ultrasound AI ( http://arxiv.org/abs/2201.07368v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare, Wanwen Chen, Alex Ling Yu Hung, Edward Chen, Hai V. Tran, Tom Fox, Pete Lowery, Kevin Zamora, Bennett P deBoisblanc, Ricardo Luis Rodriguez, John Michael Galeotti(参考訳) 本稿では,肺超音波AI解析における胸膜および脂肪組織の重要性について検討する。 曲線型超音波プローブの代わりに高周波リニア(hfl)を使用する場合,より顕著に現れることを示し,より詳細な胸膜像を示す。 hfl超音波プローブを用いて胸膜組織と脂肪組織の診断的有用性を比較した。 トレーニングと推論中に脂肪組織をマスキングする(胸腔線とA線やB線のようなメルリンの空間アーティファクトを保持する)ことで、AIモデルの診断精度が向上した。

In this paper, we study the significance of the pleura and adipose tissue in lung ultrasound AI analysis. We highlight their more prominent appearance when using high-frequency linear (HFL) instead of curvilinear ultrasound probes, showing HFL reveals better pleura detail. We compare the diagnostic utility of the pleura and adipose tissue using an HFL ultrasound probe. Masking the adipose tissue during training and inference (while retaining the pleural line and Merlin's space artifacts such as A-lines and B-lines) improved the AI model's diagnostic accuracy.
翻訳日:2022-01-20 14:57:35 公開日:2022-01-19
# 非可逆MRコイル圧縮のための可変拡張ネットワーク

Variable Augmented Network for Invertible MR Coil Compression ( http://arxiv.org/abs/2201.07428v1 )

ライセンス: Link先を確認
Xianghao Liao, Shanshan Wang, Lanlan Tu, Yuhao Wang, Dong Liang, Qiegen Liu(参考訳) 多数のコイルは、信号対雑音比を高め、並列撮像における撮像性能を向上させることができる。 しかし、コイル数の増加に伴い、特に反復的な再構築において、データストレージと再構築速度の欠点を同時に増大させる。 コイル圧縮は仮想コイルが少ないことでこれらの問題に対処する。 本研究では, 正規化フローモデルの固有可逆性を利用し, 圧縮性および可逆性回復性を向上させるために, インバータブルコイル圧縮のための可変拡張ネットワーク(van-icc)を提案する。 van-iccは、元の画像を圧縮画像にマッピングできる可逆かつ単射関数を見つけることで、可逆ネットワークを訓練する。 実験では,完全サンプリング画像とアンダーサンプリング画像の両方を用いて,モデルの有効性を検証した。 広範に定量的および定性的評価を行った結果、SCCとGCCと比較すると、VAN-ICCは仮想コイルの数に等しい圧縮効果を発揮できることがわかった。 さらに、その性能は異なる仮想コイルの数値バーに影響を受けない。

A large number of coils are able to provide enhanced signal-to-noise ratio and improve imaging performance in parallel imaging. As the increasingly grow of coil number, however, it simultaneously aggravates the drawbacks of data storage and reconstruction speed, especially in some iterative reconstructions. Coil compression addresses these issues by generating fewer virtual coils. In this work, a novel variable augmented network for invertible coil compression (VAN-ICC) is presented, which utilizes inherent reversibility of normalizing-flow-bas ed models, for better compression and invertible recovery. VAN-ICC trains invertible network by finding an invertible and bijective function, which can map the original image to the compression image. In the experiments, both fully-sampled images and under-sampled images were used to verify the effectiveness of the model. Extensive quantitative and qualitative evaluations demonstrated that, in comparison with SCC and GCC, VAN-ICC can carry through better compression effect with equal number of virtual coils. Additionally, its performance is not susceptible to different num-ber of virtual coils.
翻訳日:2022-01-20 14:57:23 公開日:2022-01-19
# 新型コロナウイルス患者のウェアラブル健康データの可視化と分析

Visualization and Analysis of Wearable Health Data From COVID-19 Patients ( http://arxiv.org/abs/2201.07698v1 )

ライセンス: Link先を確認
Susanne K. Suter and Georg R. Spinner and Bianca Hoelz and Sofia Rey and Sujeanthraa Thanabalasingam and Jens Eckstein and Sven Hirsch(参考訳) 新型コロナウイルスの入院患者からバイタルサインが記録されたマルチセンサーリアルタイムウェアラブルデバイスから、関連する健康パターンを明らかにするために、効果的な視覚化が評価された。 さらに、コンプライアンス問題によるデータ品質の変動、デバイスの充電に要する時間、技術的な問題など、ウェアラブルの健康データ可視化に関連する具体的な課題について述べる。 主なユースケースとして,本技術が取得したバイタルサインで見る健康パターンの検出とコミュニケーションについて検討した。 カスタマイズされたヒートマップとバーチャートは、医療関連パターンを重要な兆候として強調するために使用された。 2名の医師、1名の臨床プロジェクトマネージャー、7名の健康データサイエンス研究者による可視化手法の評価を行った。 入院した84人の患者のデータセットから、典型的な1つのCOVID-19患者履歴を抽出し、2人の注目すべき患者の健康史を視覚化した。 ビジュアライゼーションは,患者の健康状態を推定する上で効果的で,シンプルで,直感的であった。 時間に制約され、多くの患者に責任がある臨床スタッフにとって、このような可視化手法は患者の健康状態の継続的な獲得と監視を可能にする効果的なツールとなる。

Effective visualizations were evaluated to reveal relevant health patterns from multi-sensor real-time wearable devices that recorded vital signs from patients admitted to hospital with COVID-19. Furthermore, specific challenges associated with wearable health data visualizations, such as fluctuating data quality resulting from compliance problems, time needed to charge the device and technical problems are described. As a primary use case, we examined the detection and communication of relevant health patterns visible in the vital signs acquired by the technology. Customized heat maps and bar charts were used to specifically highlight medically relevant patterns in vital signs. A survey of two medical doctors, one clinical project manager and seven health data science researchers was conducted to evaluate the visualization methods. From a dataset of 84 hospitalized COVID-19 patients, we extracted one typical COVID-19 patient history and based on the visualizations showcased the health history of two noteworthy patients. The visualizations were shown to be effective, simple and intuitive in deducing the health status of patients. For clinical staff who are time-constrained and responsible for numerous patients, such visualization methods can be an effective tool to enable continuous acquisition and monitoring of patients' health statuses even remotely.
翻訳日:2022-01-20 14:57:06 公開日:2022-01-19
# ramanmetrix:ramanのスペクトルを分析する楽しい方法

RAMANMETRIX: a delightful way to analyze Raman spectra ( http://arxiv.org/abs/2201.07586v1 )

ライセンス: Link先を確認
Darina Storozhuk, Oleg Ryabchykov, Juergen Popp, Thomas Bocklitz(参考訳) ラマン分光法は生物医学的サンプルの調査に広く用いられており、臨床応用での利用の可能性も高いが、臨床ルーチンでは一般的ではない。 Raman分光ツールを臨床ルーチンに統合することを妨げる要因の1つは、データ処理ワークフローの複雑さである。 分光データハンドリングを簡素化するソフトウェアツールは、臨床専門家とラマン分光法の利点を親しむことによって、そのような統合を促進する。 そこでRAMANMETRIXは、生データ前処理から機械学習モデルの堅牢な検証に至るまで、Ramanスペクトルの化学分析のための完全なワークフローを組み込んだ、直感的なWebベースのグラフィカルユーザインタフェース(GUI)を備えたユーザフレンドリーなソフトウェアとして紹介されている。 このソフトウェアは、モデルトレーニングと、新しいデータセットへの事前トレーニングされたモデルの適用の両方に使用できる。 ユーザはモデルトレーニング中にパラメータを完全にコントロールするが、データフローのテストは凍結され、追加のユーザ入力は必要ない。 RAMANMETRIXはスタンドアロンソフトウェアとWebアプリケーションという2つのバージョンで利用可能である。 現代のソフトウェアアーキテクチャのため、計算バックエンド部分はguiとは別々に実行でき、計測データに事前構築されたモデルを適用するためのアプリケーションプログラミングインタフェース(api)を介してアクセスすることができる。 これにより、リアルタイムで測定装置のデータ処理バックエンドとしてソフトウェアを使用する可能性が開ける。 より経験豊富なユーザによって構築されたモデルは、簡単なワンクリックデータ前処理と予測のためにエクスポートおよび再利用することができる。 このような予測と異なるデータ処理ステップのグラフィカル出力の結果をエクスポートして保存することができる。

Although Raman spectroscopy is widely used for the investigation of biomedical samples and has a high potential for use in clinical applications, it is not common in clinical routines. One of the factors that obstruct the integration of Raman spectroscopic tools into clinical routines is the complexity of the data processing workflow. Software tools that simplify spectroscopic data handling may facilitate such integration by familiarizing clinical experts with the advantages of Raman spectroscopy. Here, RAMANMETRIX is introduced as a user-friendly software with an intuitive web-based graphical user interface (GUI) that incorporates a complete workflow for chemometric analysis of Raman spectra, from raw data pretreatment to a robust validation of machine learning models. The software can be used both for model training and for the application of the pretrained models onto new data sets. Users have full control of the parameters during model training, but the testing data flow is frozen and does not require additional user input. RAMANMETRIX is available in two versions: as standalone software and web application. Due to the modern software architecture, the computational backend part can be executed separately from the GUI and accessed through an application programming interface (API) for applying a preconstructed model to the measured data. This opens up possibilities for using the software as a data processing backend for the measurement devices in real-time. The models preconstructed by more experienced users can be exported and reused for easy one-click data preprocessing and prediction, which requires minimal interaction between the user and the software. The results of such prediction and graphical outputs of the different data processing steps can be exported and saved.
翻訳日:2022-01-20 14:56:47 公開日:2022-01-19
# (参考訳) 科学機械学習における不確かさの定量化:方法,メトリクス,比較

Uncertainty Quantification in Scientific Machine Learning: Methods, Metrics, and Comparisons ( http://arxiv.org/abs/2201.07766v1 )

ライセンス: CC BY 4.0
Apostolos F Psaros, Xuhui Meng, Zongren Zou, Ling Guo, George Em Karniadakis(参考訳) ニューラルネットワーク(nns)は現在、物理学と工学における数学的法則とデータをどのように結合するかという計算パラダイムを変えており、従来の方法では解決できない逆問題や不適切な問題に取り組んでいる。 しかし、nnに基づく推論の誤りや不確かさの定量化は従来の手法よりも複雑である。 これは、ノイズデータに関連するアレータティック不確実性に加えて、限られたデータによる不確実性もあるが、NNハイパーパラメータ、過度なパラメータ化、最適化、サンプリングエラー、モデル誤特定などによる。 nns における不確かさ量子化(uq)に関する最近の研究はいくつかあるが、関数近似においても不確かさを効果的かつ効率的に定量化するための適切な方法に関する体系的な調査はなく、偏微分方程式の解法や nns を用いた無限次元関数空間間の学習作用素写像の解法も少ない。 本研究では,不確実性モデリング,新しい解法,既存解法,評価指標,ポストホック改善アプローチを含む包括的フレームワークを提案する。 本研究では,本フレームワークの適用性と信頼性を示すために,混合入力出力データにおける問題や高次元確率問題など,プロトタイプ問題に対する様々な手法のテストを行った。 付録には、採用されているすべてのuqメソッドの包括的な説明が含まれており、このフレームワークに含まれるすべてのコードのオープンソースライブラリとして利用可能になります。

Neural networks (NNs) are currently changing the computational paradigm on how to combine data with mathematical laws in physics and engineering in a profound way, tackling challenging inverse and ill-posed problems not solvable with traditional methods. However, quantifying errors and uncertainties in NN-based inference is more complicated than in traditional methods. This is because in addition to aleatoric uncertainty associated with noisy data, there is also uncertainty due to limited data, but also due to NN hyperparameters, overparametrization, optimization and sampling errors as well as model misspecification. Although there are some recent works on uncertainty quantification (UQ) in NNs, there is no systematic investigation of suitable methods towards quantifying the total uncertainty effectively and efficiently even for function approximation, and there is even less work on solving partial differential equations and learning operator mappings between infinite-dimensional function spaces using NNs. In this work, we present a comprehensive framework that includes uncertainty modeling, new and existing solution methods, as well as evaluation metrics and post-hoc improvement approaches. To demonstrate the applicability and reliability of our framework, we present an extensive comparative study in which various methods are tested on prototype problems, including problems with mixed input-output data, and stochastic problems in high dimensions. In the Appendix, we include a comprehensive description of all the UQ methods employed, which we will make available as open-source library of all codes included in this framework.
翻訳日:2022-01-20 14:54:15 公開日:2022-01-19
# エッジシナリオにおける柔軟な並列学習:コミュニケーション,計算,エネルギーコスト

Flexible Parallel Learning in Edge Scenarios: Communication, Computational and Energy Cost ( http://arxiv.org/abs/2201.07402v1 )

ライセンス: Link先を確認
Francesco Malandrino and Carla Fabiana Chiasserini(参考訳) 伝統的に、分散機械学習はヒントを取り入れる (i)同一モデルを訓練する異なるノード(連合学習の場合のように)、又は (II)複数のノードに分割された1つのモデル(分散確率勾配勾配)。 本稿では,フォグおよびiotベースのシナリオにおいて,それぞれのアプローチを組み合わせる必要がある場合が多いことに注目し,フレキシブル並列学習(fpl)のためのフレームワークを提案する。 さらに,各ノード間での学習タスクの分散と並列化が,計算,通信,エネルギーコストの異なる結果をもたらすかを検討する。 我々の実験は、最先端のディープネットワークアーキテクチャと大規模データセットを用いて行われ、FPLが計算コスト、通信オーバーヘッド、学習性能に優れたトレードオフを実現することを確認した。

Traditionally, distributed machine learning takes the guise of (i) different nodes training the same model (as in federated learning), or (ii) one model being split among multiple nodes (as in distributed stochastic gradient descent). In this work, we highlight how fog- and IoT-based scenarios often require combining both approaches, and we present a framework for flexible parallel learning (FPL), achieving both data and model parallelism. Further, we investigate how different ways of distributing and parallelizing learning tasks across the participating nodes result in different computation, communication, and energy costs. Our experiments, carried out using state-of-the-art deep-network architectures and large-scale datasets, confirm that FPL allows for an excellent trade-off among computational (hence energy) cost, communication overhead, and learning performance.
翻訳日:2022-01-20 14:53:36 公開日:2022-01-19
# 圧縮滑らかなスパース分解

Compressed Smooth Sparse Decomposition ( http://arxiv.org/abs/2201.07404v1 )

ライセンス: Link先を確認
Shancong Mou and Jianjun Shi(参考訳) 画像に基づく異常検出システムは、様々な製造用途において極めて重要である。 近年,画像センシング技術の急速な発展に伴い,このようなシステムの解像度と取得率が大きく向上している。 これにより、小さな欠陥をリアルタイムで検出できる。 しかし、画像データの高解像度化と取得率により、画像処理アルゴリズムの速度が低下するだけでなく、データストレージや送信コストも増大する。 そこで本研究では,背景の滑らかな画像(スムース+スムース信号)におけるスムース異常検出に適した,高速でデータ効率の良い理論性能保証手法を提案する。 提案手法は圧縮滑らかなスパース分解 (cssd) と呼ばれ, 圧縮的画像取得と分解に基づく画像処理技術を統合する一段階の手法である。 高次元シナリオにおいて、さらにその性能を向上させるために、クロネッカー圧縮滑らかなスパース分解(kroncssd)法が提案されている。 従来のスムーズかつスパースな分解アルゴリズムと比較して、伝送コストの大幅な削減と計算速度の向上は無視できる性能損失で達成できる。 各種応用におけるシミュレーション例といくつかのケーススタディは,提案手法の有効性を示す。

Image-based anomaly detection systems are of vital importance in various manufacturing applications. The resolution and acquisition rate of such systems is increasing significantly in recent years under the fast development of image sensing technology. This enables the detection of tiny defects in real-time. However, such a high resolution and acquisition rate of image data not only slows down the speed of image processing algorithms but also increases data storage and transmission cost. To tackle this problem, we propose a fast and data-efficient method with theoretical performance guarantee that is suitable for sparse anomaly detection in images with a smooth background (smooth plus sparse signal). The proposed method, named Compressed Smooth Sparse Decomposition (CSSD), is a one-step method that unifies the compressive image acquisition and decomposition-based image processing techniques. To further enhance its performance in a high-dimensional scenario, a Kronecker Compressed Smooth Sparse Decomposition (KronCSSD) method is proposed. Compared to traditional smooth and sparse decomposition algorithms, significant transmission cost reduction and computational speed boost can be achieved with negligible performance loss. Simulation examples and several case studies in various applications illustrate the effectiveness of the proposed framework.
翻訳日:2022-01-20 14:53:23 公開日:2022-01-19
# 双対空間グラフの対比学習

Dual Space Graph Contrastive Learning ( http://arxiv.org/abs/2201.07409v1 )

ライセンス: Link先を確認
Haoran Yang, Hongxu Chen, Shirui Pan, Lin Li, Philip S. Yu, Guandong Xu(参考訳) 教師なしグラフ表現学習は、現実世界の問題を解決する強力なツールとして登場し、グラフ学習領域で大きな成功を収めている。 グラフコントラスト学習は教師なしグラフ表現学習手法の1つであり、近年研究者の注目を集め、様々なタスクで最先端のパフォーマンスを達成した。 グラフコントラスト学習の成功の鍵は、グラフの構造的意味論を取得するために適切なコントラストペアを構築することである。 しかし、このキー部分は現時点では完全には探索されておらず、コントラストペアを生成するほとんどの方法は、入力グラフの異なるビューを得るためにグラフ構造を拡大または摂動することに焦点を当てている。 しかし、このような戦略は、グラフにノイズを追加することによってパフォーマンスを低下させ、グラフコントラスト学習の応用分野を狭める可能性がある。 本稿では,双曲空間やユークリッド空間を含む異なる空間で生成されたビュー間でグラフコントラスト学習を行うために,新しいグラフコントラスト学習法,すなわち \textbf{D}ual \textbf{S}pace \textbf{G}raph \textbf{C}ontrastive (DSGC)学習を提案する。 両空間にはグラフデータを埋め込み空間に表現する独自の利点があるので、グラフコントラスト学習を用いて空間をブリッジし、双方の利点を活用することを期待する。 比較実験の結果,DSGCは全データセットの競合的あるいはより良い性能を達成することが示された。 さらに,dsgcに対する異なるグラフエンコーダの影響を分析するための広範な実験を行い,異なる空間間のコントラスト学習の利点をより活用するための洞察を与える。

Unsupervised graph representation learning has emerged as a powerful tool to address real-world problems and achieves huge success in the graph learning domain. Graph contrastive learning is one of the unsupervised graph representation learning methods, which recently attracts attention from researchers and has achieved state-of-the-art performances on various tasks. The key to the success of graph contrastive learning is to construct proper contrasting pairs to acquire the underlying structural semantics of the graph. However, this key part is not fully explored currently, most of the ways generating contrasting pairs focus on augmenting or perturbating graph structures to obtain different views of the input graph. But such strategies could degrade the performances via adding noise into the graph, which may narrow down the field of the applications of graph contrastive learning. In this paper, we propose a novel graph contrastive learning method, namely \textbf{D}ual \textbf{S}pace \textbf{G}raph \textbf{C}ontrastive (DSGC) Learning, to conduct graph contrastive learning among views generated in different spaces including the hyperbolic space and the Euclidean space. Since both spaces have their own advantages to represent graph data in the embedding spaces, we hope to utilize graph contrastive learning to bridge the spaces and leverage advantages from both sides. The comparison experiment results show that DSGC achieves competitive or better performances among all the datasets. In addition, we conduct extensive experiments to analyze the impact of different graph encoders on DSGC, giving insights about how to better leverage the advantages of contrastive learning between different spaces.
翻訳日:2022-01-20 14:53:06 公開日:2022-01-19
# 政策勾配法の収束率について

On the Convergence Rates of Policy Gradient Methods ( http://arxiv.org/abs/2201.07443v1 )

ライセンス: Link先を確認
Lin Xiao(参考訳) 有限状態および作用空間を持つ無限水平割引マルコフ決定問題を考える。 政策空間における直接パラメトリゼーションでは、重み付き値関数は一般には非凸であるが、準凸と準凸の両方であることが示される。 準凸性は、政策勾配法のグローバルオプティマへの収束を説明するのに役立つが、準凸性は、値関数の滑らかさを特徴付けるリプシッツ定数によって引き起こされない任意の大きなステップサイズを用いて、それらの収束保証を示唆する。 特に, 幾何的に増加するステップサイズ, 自然方針勾配法, 投影Q-descent法などの一般的な方針ミラー降下法を用いることで, エントロピーや凸正則化に頼らずに収束率の線形化を享受できることが示される。 さらに,弱勾配行列支配理論を開発し,それを用いて予測された政策勾配法のよりシャープなサブ線形収束率を示す。 最後に,不正確なポリシーミラー降下法の収束率を解析し,そのサンプル複雑性を単純な生成モデルで推定する。

We consider infinite-horizon discounted Markov decision problems with finite state and action spaces. We show that with direct parametrization in the policy space, the weighted value function, although non-convex in general, is both quasi-convex and quasi-concave. While quasi-convexity helps explain the convergence of policy gradient methods to global optima, quasi-concavity hints at their convergence guarantees using arbitrarily large step sizes that are not dictated by the Lipschitz constant charactering smoothness of the value function. In particular, we show that when using geometrically increasing step sizes, a general class of policy mirror descent methods, including the natural policy gradient method and a projected Q-descent method, all enjoy a linear rate of convergence without relying on entropy or other strongly convex regularization. In addition, we develop a theory of weak gradient-mapping dominance and use it to prove sharper sublinear convergence rate of the projected policy gradient method. Finally, we also analyze the convergence rate of an inexact policy mirror descent method and estimate its sample complexity under a simple generative model.
翻訳日:2022-01-20 14:52:36 公開日:2022-01-19
# 多発性硬化症における皮質病変, 中心静脈徴候, 常磁性リム病変 : 新しい機械学習技術と今後の道

Cortical lesions, central vein sign, and paramagnetic rim lesions in multiple sclerosis: emerging machine learning techniques and future avenues ( http://arxiv.org/abs/2201.07463v1 )

ライセンス: Link先を確認
Francesco La Rosa, Maxence Wynen, Omar Al-Louzi, Erin S Beck, Till Huelnhagen, Pietro Maggi, Jean-Philippe Thiran, Tobias Kober, Russell T Shinohara, Pascal Sati, Daniel S Reich, Cristina Granziera, Martina Absinta, Meritxell Bach Cuadra(参考訳) 現在の多発性硬化症 (MS) の診断基準には特異性が欠如しており, 誤診につながる可能性がある。 加えて、従来のバイオマーカーはMS病の進行と適度に相関している。 近年,mri(特殊磁気共鳴画像法)で観察される皮質病変(cl),中枢静脈徴候(cvs),常磁性リム病変(prl)などの高度なms病変画像バイオマーカーが鑑別診断において高い特異性を示した。 さらに、CLとPRLは潜在的な予後を示すバイオマーカーであり、前者は認知障害、後者は早期障害の進行に関連する。 機械学習に基づく手法は、白質病変のセグメンテーションなどの従来の画像バイオマーカーの評価において異常な性能を達成しているため、CL、CVS、PRLにもいくつかの自動または半自動手法が提案されている。 本稿では,これらの高度msイメージングバイオマーカーとそのイメージング手法について紹介する。 続いて,これらの臨床的疑問に対処した機械学習ベースの手法について述べるとともに,mriプロトコルの標準化やデータセットの制限,適度なレート間変動など,現在直面している課題について文脈的に考察する。 結論として,より広範な展開を妨げる現在の制限を提示し,今後の研究方向性を示唆する。

The current multiple sclerosis (MS) diagnostic criteria lack specificity, and this may lead to misdiagnosis, which remains an issue in present-day clinical practice. In addition, conventional biomarkers only moderately correlate with MS disease progression. Recently, advanced MS lesional imaging biomarkers such as cortical lesions (CL), the central vein sign (CVS), and paramagnetic rim lesions (PRL), visible in specialized magnetic resonance imaging (MRI) sequences, have shown higher specificity in differential diagnosis. Moreover, studies have shown that CL and PRL are potential prognostic biomarkers, the former correlating with cognitive impairments and the latter with early disability progression. As machine learning-based methods have achieved extraordinary performance in the assessment of conventional imaging biomarkers, such as white matter lesion segmentation, several automated or semi-automated methods have been proposed for CL, CVS, and PRL as well. In the present review, we first introduce these advanced MS imaging biomarkers and their imaging methods. Subsequently, we describe the corresponding machine learning-based methods that were used to tackle these clinical questions, putting them into context with respect to the challenges they are still facing, including non-standardized MRI protocols, limited datasets, and moderate inter-rater variability. We conclude by presenting the current limitations that prevent their broader deployment and suggesting future research directions.
翻訳日:2022-01-20 14:52:14 公開日:2022-01-19
# TriCoLo: 微細なテキストと形状検索のための3モーダルコントラスト損失

TriCoLo: Trimodal Contrastive Loss for Fine-grained Text to Shape Retrieval ( http://arxiv.org/abs/2201.07366v1 )

ライセンス: Link先を確認
Yue Ruan, Han-Hung Lee, Ke Zhang, Angel X. Chang(参考訳) マルチモーダルデータに対する統合埋め込み学習のためのコントラスト損失に関する最近の研究は、検索や分類などの下流タスクで成功している。 一方,3次元形状とテキストに対する共同表現学習の研究は,表現間の複雑な注意のモデリングやマルチタスク学習による埋め込みの改善に重点を置いている。 大規模なバッチコントラスト学習では,複雑な注意機構や損失を伴わずに,テキスト形状検索においてSoTAを実現できることを示す。 3dおよびテキスト表現の先行研究は、voxelまたはテキストによるマルチビュー画像を用いたバイモーダル表現学習にも重点を置いている。 そこで本研究では,すべてのモダリティに対して,さらに高いパフォーマンスとより良い表現を実現するための三角学習方式を提案する。

Recent work on contrastive losses for learning joint embeddings over multimodal data has been successful at downstream tasks such as retrieval and classification. On the other hand, work on joint representation learning for 3D shapes and text has thus far mostly focused on improving embeddings through modeling of complex attention between representations , or multi-task learning . We show that with large batch contrastive learning we achieve SoTA on text-shape retrieval without complex attention mechanisms or losses. Prior work in 3D and text representations has also focused on bimodal representation learning using either voxels or multi-view images with text. To this end, we propose a trimodal learning scheme to achieve even higher performance and better representations for all modalities.
翻訳日:2022-01-20 14:49:38 公開日:2022-01-19
# Swin-Pose:スイム・トランスフォーマーによる人文推定

Swin-Pose: Swin Transformer Based Human Pose Estimation ( http://arxiv.org/abs/2201.07384v1 )

ライセンス: Link先を確認
Zinan Xiong, Chenxi Wang, Ying Li, Yan Luo, Yu Cao(参考訳) 畳み込みニューラルネットワーク(cnns)は多くのコンピュータビジョンタスクで広く使われている。 しかし、CNNは一定の受信場を持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。 画素間の長距離依存関係をキャプチャできるため、最近のコンピュータビジョンアプリケーションではトランスフォーマーアーキテクチャが採用されており、非常に効果的なアーキテクチャであることが証明されている。 我々は,人間のポーズ推定におけるその能力を探ることに興味を持ち,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。 具体的には、トレーニング済みのSwin Transformerをバックボーンとして使用し、入力画像から特徴を抽出し、特徴ピラミッド構造を利用して異なるステージから特徴マップを抽出する。 機能を融合することで,キーポイントヒートマップを予測できる。 本研究では,提案するトランスフォーマーモデルが最先端cnnモデルよりも優れた性能を実現することを実証した。

Convolutional neural networks (CNNs) have been widely utilized in many computer vision tasks. However, CNNs have a fixed reception field and lack the ability of long-range perception, which is crucial to human pose estimation. Due to its capability to capture long-range dependencies between pixels, transformer architecture has been adopted to computer vision applications recently and is proven to be a highly effective architecture. We are interested in exploring its capability in human pose estimation, and thus propose a novel model based on transformer architecture, enhanced with a feature pyramid fusion structure. More specifically, we use pre-trained Swin Transformer as our backbone and extract features from input images, we leverage a feature pyramid structure to extract feature maps from different stages. By fusing the features together, our model predicts the keypoint heatmap. The experiment results of our study have demonstrated that the proposed transformer-based model can achieve better performance compared to the state-of-the-art CNN-based models.
翻訳日:2022-01-20 14:49:27 公開日:2022-01-19
# KappaFace: ディープラーニングのための適応的な付加的なAngular Margin損失

KappaFace: Adaptive Additive Angular Margin Loss for Deep Face Recognition ( http://arxiv.org/abs/2201.07394v1 )

ライセンス: Link先を確認
Chingis Oinar, Binh M. Le, Simon S. Woo(参考訳) 機能学習は大規模顔認識に広く用いられている手法である。 近年,大きなマージンソフトマックス損失法が深部顔認識において大幅に改善されている。 これらの手法はクラス内コンパクト性とクラス間多様性を強制するために固定正のマージンを提案する。 しかし,提案手法の大部分は,深層顔認識モデルを開発する上で大きな課題であるクラス不均衡問題を考慮していない。 深層面モデルの一般化能力に大きな影響を与えると仮定する。 この観察に触発されて,クラス難しさと不均衡に基づく相対的重要性を変調するkappafaceと呼ばれる新しい適応戦略を導入した。 von mises-fisher分布のサポートにより,提案するkappaface損失は,ハードラーニングクラスや低濃度クラスではマージンの大きさを増大させ,カウンタークラスでは緩和する。 一般的な顔のベンチマーク実験により,提案手法は最先端技術よりも優れた性能を示すことが示された。

Feature learning is a widely used method employed for large-scale face recognition. Recently, large-margin softmax loss methods have demonstrated significant enhancements on deep face recognition. These methods propose fixed positive margins in order to enforce intra-class compactness and inter-class diversity. However, the majority of the proposed methods do not consider the class imbalance issue, which is a major challenge in practice for developing deep face recognition models. We hypothesize that it significantly affects the generalization ability of the deep face models. Inspired by this observation, we introduce a novel adaptive strategy, called KappaFace, to modulate the relative importance based on class difficultness and imbalance. With the support of the von Mises-Fisher distribution, our proposed KappaFace loss can intensify the margin's magnitude for hard learning or low concentration classes while relaxing it for counter classes. Experiments conducted on popular facial benchmarks demonstrate that our proposed method achieves superior performance to the state-of-the-art.
翻訳日:2022-01-20 14:49:12 公開日:2022-01-19
# Poseur: トランスフォーマーによる直接の人間姿勢回帰

Poseur: Direct Human Pose Regression with Transformers ( http://arxiv.org/abs/2201.07412v1 )

ライセンス: Link先を確認
Weian Mao and Yongtao Ge and Chunhua Shen and Zhi Tian and Xinlong Wang and Zhibin Wang and Anton van den Hengel(参考訳) 単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。 この問題をシーケンス予測タスクとして定式化し、トランスフォーマーネットワークを用いて解決する。 このネットワークは、熱マップのような中間表現に頼ることなく、画像からキーポイント座標への回帰マッピングを直接学習する。 このアプローチは、ヒートマップベースのアプローチに関連する複雑さの多くを回避する。 従来の回帰型手法の特徴的不一致を克服するために,ターゲットキーポイントに最も関係のある特徴に適応して対応し,精度を大幅に向上する注意機構を提案する。 重要なことは、私たちのフレームワークはエンドツーエンドの差別化可能であり、キーポイント間の依存関係を自然に活用することを学びます。 2つの主要なポーズ推定データセットであるMS-COCOとMPIIの実験は、回帰に基づくポーズ推定における最先端の手法を著しく改善することを示した。 さらに注目すべきは、最も優れたヒートマップベースのポーズ推定手法と比較して、回帰に基づく最初のアプローチである。

We propose a direct, regression-based approach to 2D human pose estimation from single images. We formulate the problem as a sequence prediction task, which we solve using a Transformer network. This network directly learns a regression mapping from images to the keypoint coordinates, without resorting to intermediate representations such as heatmaps. This approach avoids much of the complexity associated with heatmap-based approaches. To overcome the feature misalignment issues of previous regression-based methods, we propose an attention mechanism that adaptively attends to the features that are most relevant to the target keypoints, considerably improving the accuracy. Importantly, our framework is end-to-end differentiable, and naturally learns to exploit the dependencies between keypoints. Experiments on MS-COCO and MPII, two predominant pose-estimation datasets, demonstrate that our method significantly improves upon the state-of-the-art in regression-based pose estimation. More notably, ours is the first regression-based approach to perform favorably compared to the best heatmap-based pose estimation methods.
翻訳日:2022-01-20 14:48:57 公開日:2022-01-19
# 自己監督型深層ブラインドビデオスーパーリゾリューション

Self-Supervised Deep Blind Video Super-Resolution ( http://arxiv.org/abs/2201.07422v1 )

ライセンス: Link先を確認
Haoran Bai and Jinshan Pan(参考訳) 既存のディープラーニングベースのビデオ超解像法(SR)は、通常、教師付き学習アプローチに依存し、トレーニングデータは、既知のまたは定義されたカーネル(例えば、ビクビックカーネル)でぼやけた操作と、デシメーション操作によって生成される。 しかし、分解過程が複雑であり、これらのアイデアのケースで近似できないため、これは実際の応用には当てはまらない。 さらに,現実シナリオにおける高解像度(HR)ビデオとそれに対応する低解像度(LR)ビデオの取得も困難である。 これらの問題を解決するために,視線ビデオSR問題に対する自己教師付き学習手法を提案し,LRビデオからぼやけたカーネルとHRビデオを同時に推定する。 LRビデオを直接監督として使用すると、通常、自明な解決につながるため、ビデオSRの画像形成に応じて、元のLRビデオから補助的なペア化データを生成するための簡易かつ効率的な方法を開発し、カーネル推定と潜時HRビデオ復元の両方において、生成されたペア化データにより、ネットワークがよりよく制約されるようにした。 さらに、隣接するフレームからの情報を利用してHRビデオの復元を行うための光フロー推定モジュールを導入する。 実験の結果,本手法はベンチマークや実世界ビデオにおいて最先端の手法に対して好適に機能することが示された。

Existing deep learning-based video super-resolution (SR) methods usually depend on the supervised learning approach, where the training data is usually generated by the blurring operation with known or predefined kernels (e.g., Bicubic kernel) followed by a decimation operation. However, this does not hold for real applications as the degradation process is complex and cannot be approximated by these idea cases well. Moreover, obtaining high-resolution (HR) videos and the corresponding low-resolution (LR) ones in real-world scenarios is difficult. To overcome these problems, we propose a self-supervised learning method to solve the blind video SR problem, which simultaneously estimates blur kernels and HR videos from the LR videos. As directly using LR videos as supervision usually leads to trivial solutions, we develop a simple and effective method to generate auxiliary paired data from original LR videos according to the image formation of video SR, so that the networks can be better constrained by the generated paired data for both blur kernel estimation and latent HR video restoration. In addition, we introduce an optical flow estimation module to exploit the information from adjacent frames for HR video restoration. Experiments show that our method performs favorably against state-of-the-art ones on benchmarks and real-world videos.
翻訳日:2022-01-20 14:48:40 公開日:2022-01-19
# TransFuse: 自己教師型学習を用いた統一型トランスフォーマーベース画像融合フレームワーク

TransFuse: A Unified Transformer-based Image Fusion Framework using Self-supervised Learning ( http://arxiv.org/abs/2201.07451v1 )

ライセンス: Link先を確認
Linhao Qu, Shaolei Liu, Manning Wang, Shiman Li, Siqi Yin, Qin Qiao, Zhijian Song(参考訳) image fusionは、複数のソースイメージからの情報と補完的な情報を統合する技術であり、単一の画像の豊かさを向上させる。 タスク固有のトレーニングデータ不足とそれに対応する基礎的事実のため、既存の画像融合手法のほとんどは、過度に適合したり、面倒なパラメータ最適化プロセスに陥りやすい。 2段階の手法では,大規模な自然画像データセット上でエンコーダ・デコーダネットワークをトレーニングし,抽出した特徴を融合に利用することにより,タスク固有の大量のトレーニングデータの必要性を回避することができる。 本研究では,新しいエンコーダ・デコーダに基づく画像融合フレームワークを設計し,タスク固有の特徴を学習するための破壊再構成に基づく自己教師型トレーニングスキームを提案する。 具体的には、画素強度非直線変換、輝度変換、雑音変換に基づくマルチモーダル画像融合、マルチ露光画像融合、マルチフォーカス画像融合の3つの破壊再構成支援タスクを提案する。 異なる融合タスクが互いに促進し、訓練されたネットワークの一般化可能性を高めるために、モデルトレーニングにおいて自然像をランダムに選択して3つの自己教師付き補助タスクを統合する。 さらに,cnnとtransformerを組み合わせた特徴抽出のための新しいエンコーダの設計を行った。 マルチモーダル画像融合,マルチ露光画像融合,マルチフォーカス画像融合タスクの広範な実験により,提案手法が主観的,客観的両評価において最先端の性能を達成することを示す。 コードは近々公開される予定だ。

Image fusion is a technique to integrate information from multiple source images with complementary information to improve the richness of a single image. Due to insufficient task-specific training data and corresponding ground truth, most existing end-to-end image fusion methods easily fall into overfitting or tedious parameter optimization processes. Two-stage methods avoid the need of large amount of task-specific training data by training encoder-decoder network on large natural image datasets and utilizing the extracted features for fusion, but the domain gap between natural images and different fusion tasks results in limited performance. In this study, we design a novel encoder-decoder based image fusion framework and propose a destruction-reconstr uction based self-supervised training scheme to encourage the network to learn task-specific features. Specifically, we propose three destruction-reconstr uction self-supervised auxiliary tasks for multi-modal image fusion, multi-exposure image fusion and multi-focus image fusion based on pixel intensity non-linear transformation, brightness transformation and noise transformation, respectively. In order to encourage different fusion tasks to promote each other and increase the generalizability of the trained network, we integrate the three self-supervised auxiliary tasks by randomly choosing one of them to destroy a natural image in model training. In addition, we design a new encoder that combines CNN and Transformer for feature extraction, so that the trained model can exploit both local and global information. Extensive experiments on multi-modal image fusion, multi-exposure image fusion and multi-focus image fusion tasks demonstrate that our proposed method achieves the state-of-the-art performance in both subjective and objective evaluations. The code will be publicly available soon.
翻訳日:2022-01-20 14:48:18 公開日:2022-01-19
# キー球面に基づく高忠実度3次元モデル圧縮

High-fidelity 3D Model Compression based on Key Spheres ( http://arxiv.org/abs/2201.07486v1 )

ライセンス: Link先を確認
Yuanzhan Li, Yuqi Liu, Yujie Lu, Siyu Zhang, Shen Cai and Yanting Zhang(参考訳) 近年, ニューラルサイン距離関数 (SDF) は3次元モデルにおいて最も効果的な表現法の一つである。 3D空間で連続的なSDFを学習することにより、ニューラルネットワークは、与えられたクエリ空間ポイントから最も近いオブジェクト表面までの距離を予測し、各オブジェクトの内外を示す正と負の符号をそれぞれ予測し、個々の3Dモデルに対して特定のネットワークを設計し、その形状を個別に埋め込み、より少ないネットワーク(おそらくは潜在)パラメータを格納することで、オブジェクトの圧縮表現を実現できる。 これにより、ネットワーク推論と表面復元による再構成が可能となる。 本稿では,明示的なキースフィアを入力として用いたSDF予測ネットワークを提案する。 キー球面は物体の内部空間から抽出され、中心は比較的大きなsdf値(球面半径)を持つか、本質的な位置に位置する。 局所的な形状の異なる複数の球体の空間情報を入力することにより,その再現精度を大幅に向上させることができる。 従来の手法と比較して,高忠実度および高圧縮性3次元オブジェクトの符号化と再構成を実現する。 3つのデータセットによる実験により,本手法の優れた性能が検証された。

In recent years, neural signed distance function (SDF) has become one of the most effectiverepresentat ion methods for 3D models. By learning continuous SDFs in 3D space, neuralnetworks can predict the distance from a given query space point to its closest object surface,whose positive and negative signs denote inside and outside of the object, respectively.Trainin g a specific network for each 3D model, which individually embeds its shape, canrealize compressed representation of objects by storing fewer network (and possibly latent)parameters. Consequently, reconstruction through network inference and surface recoverycan be achieved. In this paper, we propose an SDF prediction network using explicit keyspheres as input. Key spheres are extracted from the internal space of objects, whosecenters either have relatively larger SDF values (sphere radii), or are located at essentialpositions. By inputting the spatial information of multiple spheres which imply differentlocal shapes, the proposed method can significantly improve the reconstruction accuracywith a negligible storage cost. Compared to previous works, our method achieves the high-fidelity and high-compression 3D object coding and reconstruction. Experiments conductedon three datasets verify the superior performance of our method.
翻訳日:2022-01-20 14:46:50 公開日:2022-01-19
# 深層学習によるMRI用仮想コイル拡張技術

Virtual Coil Augmentation Technology for MRI via Deep Learning ( http://arxiv.org/abs/2201.07540v1 )

ライセンス: Link先を確認
Cailian Yang, Xianghao Liao, Yuhao Wang, Minghui Zhang, Qiegen Liu(参考訳) 磁気共鳴イメージング(MRI)は医用画像モダリティとして広く用いられている。 しかしながら、ハードウェア、スキャン時間、スループットの制限のため、高品質のmr画像を得るのが臨床的に困難であることが多い。 本稿では,仮想コイルの増加効果を達成するために,人工知能を用いてチャネルを拡張する手法を提案する。 我々の研究の主な特徴は、ダミー可変技術を利用して、画像領域とk空間領域の両方でチャネルを拡張することである。 パラレルイメージングの先行情報としてチャネル展開により形成される高次元情報を用い、パラレルイメージングの再構成効果を向上させる。 2つの特徴、すなわち変数拡張と平方(SOS)目的関数の和が導入された。 可変引数は、ネットワークにより高次元の事前情報を提供し、ネットワークが画像の深い特徴インフォーメーションを抽出するのに役立つ。 SOSの目的関数は、収束速度を高速化しながらk空間データのトレーニングが難しいという問題を解決するために用いられる。 アブレーション実験と実験の結果,現在の技術よりも画像再構成性能が有意に高いことがわかった。

Magnetic resonance imaging (MRI) is a widely used medical imaging modality. However, due to the limitations in hardware, scan time, and throughput, it is often clinically challenging to obtain high-quality MR images. In this article, we propose a method of using artificial intelligence to expand the channel to achieve the effect of increasing the virtual coil. The main feature of our work is utilizing dummy variable technology to expand the channel in both the image and k-space domains. The high-dimensional information formed by channel expansion is used as the prior information of parallel imaging to improve the reconstruction effect of parallel imaging. Two features are introduced, namely variable enhancement and sum of squares (SOS) objective function. Variable argumentation provides the network with more high-dimensional prior information, which is helpful for the network to extract the deep feature in-formation of the image. The SOS objective function is employed to solve the problem that k-space data is difficult to train while speeding up the convergence speed. Ablation studies and experimental results demonstrate that our method achieves significantly higher image reconstruction performance than current state-of-the-art techniques.
翻訳日:2022-01-20 14:46:28 公開日:2022-01-19
# dmf-net:アンチカウンタフェイトqrコードのコピー偽造識別のためのデュアルブランチマルチスケール機能融合ネットワーク

DMF-Net: Dual-Branch Multi-Scale Feature Fusion Network for copy forgery identification of anti-counterfeiting QR code ( http://arxiv.org/abs/2201.07583v1 )

ライセンス: Link先を確認
Zhongyuan Guo, Hong Zheng, Changhui You, Tianyu Wang, Chang Liu(参考訳) 反偽造QRコードは人々の仕事や生活、特に製品の包装に広く使われている。 しかし、偽造防止QRコードは、流通過程で複製され偽造されるリスクがある。 実際には、コピーは通常、本物の偽造防止qrコードに基づいているが、コピーメーカーのブランドやモデルは多様であり、偽造防止コードの中からどのコピーが派生するかを判断するのは極めて困難である。 そこで本稿では,これらの問題に対して,ディープラーニングに基づくアンチカウンタフェイトqrコードのコピー偽造識別法を提案する。 まず、QRコードの偽造防止の原則を分析し、コピーフォージェリの識別をデバイスカテゴリーの鑑定に変換し、次いでデュアルブランチマルチスケール機能融合ネットワークを提案する。 ネットワークの設計において,データ前処理層,単一ブランチ設計等について詳細な解析を行い,実験と組み合わせて,デュアルブランチマルチスケール機能融合ネットワークの具体的構造を決定した。 実験の結果,提案手法は画像鑑定の分野における現在の一連の手法を超越した,コピー偽造識別の精度が高いことがわかった。

Anti-counterfeiting QR codes are widely used in people's work and life, especially in product packaging. However, the anti-counterfeiting QR code has the risk of being copied and forged in the circulation process. In reality, copying is usually based on genuine anti-counterfeiting QR codes, but the brands and models of copiers are diverse, and it is extremely difficult to determine which individual copier the forged anti-counterfeiting code come from. In response to the above problems, this paper proposes a method for copy forgery identification of anti-counterfeiting QR code based on deep learning. We first analyze the production principle of anti-counterfeiting QR code, and convert the identification of copy forgery to device category forensics, and then a Dual-Branch Multi-Scale Feature Fusion network is proposed. During the design of the network, we conducted a detailed analysis of the data preprocessing layer, single-branch design, etc., combined with experiments, the specific structure of the dual-branch multi-scale feature fusion network is determined. The experimental results show that the proposed method has achieved a high accuracy of copy forgery identification, which exceeds the current series of methods in the field of image forensics.
翻訳日:2022-01-20 14:46:11 公開日:2022-01-19
# スマートヘルスケアのためのコンピュータビジョンを用いたヨガのリアルタイム認識

Real-time Recognition of Yoga Poses using computer Vision for Smart Health Care ( http://arxiv.org/abs/2201.07594v1 )

ライセンス: Link先を確認
Abhishek Sharma, Yash Shah, Yash Agrawal, Prateek Jain(参考訳) 現在、ヨガは多くの人々の生活の一部となっている。 ヨガのポーズ識別には運動とスポーツの技術援助が取り入れられている。 そこで本研究では,ユーザがリアルタイムに修正機能を用いてヨガを行うための自己支援型ヨガ姿勢識別技術を開発した。 また、ヨガハンドマッドラ(手振り)の識別も行っている。 ヨギデータセットは、各ポーズの約400~900画像を含む10のヨガ姿勢を含むとともに、マダラス姿勢の識別のための5つのマダラを含む。 それぞれ約500枚の像がある。 この特徴は、体にヨガのポーズ用の骨格と、マダラのポーズ用の手を作ることで抽出されている。 2つの異なるアルゴリズムがヨガポーズのスケルトンとハンドマドラの2つのスケルトンを作成するのに使われている。 関節の角度は、異なる機械学習とディープラーニングモデルの特徴として抽出されている。 RandomSearch CVのXGBoostはすべてのモデルの中で最も正確であり、99.2\%の精度である。 本論文では, 完全な設計枠組みについて述べる。

Nowadays, yoga has become a part of life for many people. Exercises and sports technological assistance is implemented in yoga pose identification. In this work, a self-assistance based yoga posture identification technique is developed, which helps users to perform Yoga with the correction feature in Real-time. The work also presents Yoga-hand mudra (hand gestures) identification. The YOGI dataset has been developed which include 10 Yoga postures with around 400-900 images of each pose and also contain 5 mudras for identification of mudras postures. It contains around 500 images of each mudra. The feature has been extracted by making a skeleton on the body for yoga poses and hand for mudra poses. Two different algorithms have been used for creating a skeleton one for yoga poses and the second for hand mudras. Angles of the joints have been extracted as a features for different machine learning and deep learning models. among all the models XGBoost with RandomSearch CV is most accurate and gives 99.2\% accuracy. The complete design framework is described in the present paper.
翻訳日:2022-01-20 14:45:50 公開日:2022-01-19
# 深層多視点ステレオのための深部・表面の信頼度に基づく反復解法

A Confidence-based Iterative Solver of Depths and Surface Normals for Deep Multi-view Stereo ( http://arxiv.org/abs/2201.07609v1 )

ライセンス: Link先を確認
Wang Zhao, Shaohui Liu, Yi Wei, Hengkai Guo, Yong-Jin Liu(参考訳) 本稿では,深度,表面正規値,ビュー毎の信頼度マップを共同で予測する深層マルチビューステレオ(mvs)システムを提案する。 このアプローチの鍵となるのは,局所平面仮定に基づくエネルギーポテンシャルを最適化することで,ビュー毎の深度マップと正規マップを反復的に解く,新しい解法である。 具体的には, 隣接する画素から傾斜面を伝播して深度マップを更新し, 局所確率平面フィッティングで正規写像を更新する。 2つのステップは、カスタマイズされた信頼マップによって監視される。 この解法は、平面ベースの深度精錬と完成のための後処理ツールとして有効であるだけでなく、ディープラーニングパイプラインに効率的に組み込むことが可能である。 マルチビューステレオシステムは,深度と表面正規値の初期予測よりも,ソルバの複数の最適化ステップを用いる。 システム全体はエンドツーエンドでトレーニングでき、コストボリュームベースのニューラルネットワークから、粗悪なテクスチャ領域内のピクセルマッチングの問題を切り離すことができる。 スキャネットとrgb-dシーンv2の実験結果は,多視点深度推定において提案する深部mvsシステムの最先端性能を示し,従来型と深部学習型mvsパイプラインの双方の奥行き品質を一貫して向上させる。 コードはhttps://github.com/t huzhaowang/idn-solve rで入手できる。

In this paper, we introduce a deep multi-view stereo (MVS) system that jointly predicts depths, surface normals and per-view confidence maps. The key to our approach is a novel solver that iteratively solves for per-view depth map and normal map by optimizing an energy potential based on the locally planar assumption. Specifically, the algorithm updates depth map by propagating from neighboring pixels with slanted planes, and updates normal map with local probabilistic plane fitting. Both two steps are monitored by a customized confidence map. This solver is not only effective as a post-processing tool for plane-based depth refinement and completion, but also differentiable such that it can be efficiently integrated into deep learning pipelines. Our multi-view stereo system employs multiple optimization steps of the solver over the initial prediction of depths and surface normals. The whole system can be trained end-to-end, decoupling the challenging problem of matching pixels within poorly textured regions from the cost-volume based neural network. Experimental results on ScanNet and RGB-D Scenes V2 demonstrate state-of-the-art performance of the proposed deep MVS system on multi-view depth estimation, with our proposed solver consistently improving the depth quality over both conventional and deep learning based MVS pipelines. Code is available at https://github.com/t huzhaowang/idn-solve r.
翻訳日:2022-01-20 14:45:34 公開日:2022-01-19
# groupgazer: 参加者1人あたりの視線を計算するツールで、オンラインの視線を画面やビームの投影にマッピングするキャリブレーションを統合

GroupGazer: A Tool to Compute the Gaze per Participant in Groups with integrated Calibration to Map the Gaze Online to a Screen or Beamer Projection ( http://arxiv.org/abs/2201.07692v1 )

ライセンス: Link先を確認
Wolfgang Fuhl(参考訳) 本稿では,GroupGazeを紹介する。 集団全体の視線方向と視線位置を計算するための道具である。 GroupGazerは画像内のすべての人の視線方向を計算し、これらの視線ベクトルをプロジェクターのような投影にマッピングすることができる。 人固有の視線方向に加えて、画像内の位置に基づいて、各視線ベクトルの人関連を記憶する。 また、キャリブレーション後のグループ注意を省くこともできる。 このソフトウェアは無料で使用でき、単純なウェブカメラとNVIDIA GPU、オペレーティングシステムのWindowsやLinuxを必要とする。

In this paper we present GroupGaze. It is a tool that can be used to calculate the gaze direction and the gaze position of whole groups. GroupGazer calculates the gaze direction of every single person in the image and allows to map these gaze vectors to a projection like a projector. In addition to the person-specific gaze direction, the person affiliation of each gaze vector is stored based on the position in the image. Also, it is possible to save the group attention after a calibration. The software is free to use and requires a simple webcam as well as an NVIDIA GPU and the operating system Windows or Linux.
翻訳日:2022-01-20 14:45:04 公開日:2022-01-19
# Q-ViT:視覚変換器の完全微分可能量子化

Q-ViT: Fully Differentiable Quantization for Vision Transformer ( http://arxiv.org/abs/2201.07703v1 )

ライセンス: Link先を確認
Zhexin Li, Tong Yang, Peisong Wang, Jian Cheng(参考訳) 本稿では、量子化スケールとビット幅の両方が学習可能なパラメータであるQ-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。 具体的には、vitのヘッドが異なる量子化堅牢性を示すという観測に基づいて、ヘッドワイズビット幅を利用して、パフォーマンスを維持しながらq-vitのサイズを絞り込む。 さらに,量子化スケールとビット幅のジョイントトレーニングにおける収束問題を解くために,スイッチブルスケールという新しい手法を提案する。 このようにして、Q-ViTはViT量子化の限界を3ビットまで押し下げる。 さらに,ViTのすべてのアーキテクチャコンポーネントの量子化ロバスト性を解析し,マルチヘッド自己注意(MSA)とガウス誤差線形ユニット(GELU)がViT量子化の重要な側面であることを示す。 この研究は、ViT量子化に関するさらなる研究のための洞察を与える。 DeiT や Swin Transformer などの様々な ViT モデルに対する実験により,量子化法の有効性が示された。 特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。

In this paper, we propose a fully differentiable quantization method for vision transformer (ViT) named as Q-ViT, in which both of the quantization scales and bit-widths are learnable parameters. Specifically, based on our observation that heads in ViT display different quantization robustness, we leverage head-wise bit-width to squeeze the size of Q-ViT while preserving performance. In addition, we propose a novel technique named switchable scale to resolve the convergence problem in the joint training of quantization scales and bit-widths. In this way, Q-ViT pushes the limits of ViT quantization to 3-bit without heavy performance drop. Moreover, we analyze the quantization robustness of every architecture component of ViT and show that the Multi-head Self-Attention (MSA) and the Gaussian Error Linear Units (GELU) are the key aspects for ViT quantization. This study provides some insights for further research about ViT quantization. Extensive experiments on different ViT models, such as DeiT and Swin Transformer show the effectiveness of our quantization method. In particular, our method outperforms the state-of-the-art uniform quantization method by 1.5% on DeiT-Tiny.
翻訳日:2022-01-20 14:43:42 公開日:2022-01-19
# ニューラルネットワークによる生体情報検索の改善

Improving Biomedical Information Retrieval with Neural Retrievers ( http://arxiv.org/abs/2201.07745v1 )

ライセンス: Link先を確認
Man Luo, Arindam Mitra, Tejas Gokhale, Chitta Baral(参考訳) 情報検索(IR)は,オープンドメイン質問応答などの自然言語処理だけでなく,検索エンジンや対話システムにも不可欠である。 IRは、科学知識の内容や源が急速に進化する生物医学領域において重要な役割を果たす。 ニューラルレトリバーは、標準のオープンドメイン質問応答タスクにおいてTF-IDFやBM25のような伝統的なIRアプローチを上回っているが、バイオメディカルドメインにはまだ欠けている。 本稿では,生物医学領域におけるニューラルレトリバー(nr)を用いた情報検索(ir)の改善を図り,その目的を3段階のアプローチで達成する。 まず, 生体医学領域におけるデータの相対的欠如に対処するために, ニューラルレトリバーモデルの学習に利用できるテンプレートベースの質問生成法を提案する。 第2に,情報検索の下流タスクと密接に連携した2つの新しい事前学習タスクを開発する。 第三に、各コンテキストを複数のコンテキストベクトルにエンコードする ``Poly-DPR'' モデルを導入する。 bioasqチャレンジに関する広範な実験と分析は、提案手法が既存の神経アプローチを大きく上回り、小体でbm25を打ち負かすことを示唆している。 bm25と提案手法が相互補完できることを示すとともに,単純なハイブリッドモデルによってコーパスの大規模化が促進されることを示す。

Information retrieval (IR) is essential in search engines and dialogue systems as well as natural language processing tasks such as open-domain question answering. IR serve an important function in the biomedical domain, where content and sources of scientific knowledge may evolve rapidly. Although neural retrievers have surpassed traditional IR approaches such as TF-IDF and BM25 in standard open-domain question answering tasks, they are still found lacking in the biomedical domain. In this paper, we seek to improve information retrieval (IR) using neural retrievers (NR) in the biomedical domain, and achieve this goal using a three-pronged approach. First, to tackle the relative lack of data in the biomedical domain, we propose a template-based question generation method that can be leveraged to train neural retriever models. Second, we develop two novel pre-training tasks that are closely aligned to the downstream task of information retrieval. Third, we introduce the ``Poly-DPR'' model which encodes each context into multiple context vectors. Extensive experiments and analysis on the BioASQ challenge suggest that our proposed method leads to large gains over existing neural approaches and beats BM25 in the small-corpus setting. We show that BM25 and our method can complement each other, and a simple hybrid model leads to further gains in the large corpus setting.
翻訳日:2022-01-20 14:43:24 公開日:2022-01-19
# 深層学習における周波数原理/スペクトルバイアスの概観

Overview frequency principle/spectral bias in deep learning ( http://arxiv.org/abs/2201.07395v1 )

ライセンス: Link先を確認
Zhi-Qin John Xu, Yaoyu Zhang, Tao Luo(参考訳) 深層学習の理解は、ますます産業や科学に浸透してきている。 近年、フーリエ分析による研究ラインでは、ディープニューラルネットワーク(DNN)のトレーニング行動の周波数原理(F-Principleまたはスペクトルバイアス)を示すことで、この魔法の「ブラックボックス」に光を当てている。 F-原則は1次元の合成データで最初に実証され、続いて高次元の実際のデータセットで検証される。 一連の著作はその後、f原理の妥当性を高める。 この低周波バイアスは、低周波関数の学習におけるニューラルネットワークの強みと、高周波関数の学習におけるその欠如を明らかにする。 このような理解はDNNベースのアルゴリズムを実践的に設計し、様々なシナリオに現れる実験的な現象を説明し、周波数の観点から深層学習の研究をさらに進める。 不完全ではあるが、F-原則の概要を提供し、今後の研究のためにいくつかのオープンな問題を提案する。

Understanding deep learning is increasingly emergent as it penetrates more and more into industry and science. In recent years, a research line from Fourier analysis sheds lights into this magical "black box" by showing a Frequency Principle (F-Principle or spectral bias) of the training behavior of deep neural networks (DNNs) -- DNNs often fit functions from low to high frequency during the training. The F-Principle is first demonstrated by one-dimensional synthetic data followed by the verification in high-dimensional real datasets. A series of works subsequently enhance the validity of the F-Principle. This low-frequency implicit bias reveals the strength of neural network in learning low-frequency functions as well as its deficiency in learning high-frequency functions. Such understanding inspires the design of DNN-based algorithms in practical problems, explains experimental phenomena emerging in various scenarios, and further advances the study of deep learning from the frequency perspective. Although incomplete, we provide an overview of F-Principle and propose some open problems for future research.
翻訳日:2022-01-20 14:43:02 公開日:2022-01-19
# ReGNL:夜光を用いたディスラプティブイベント中のGDPの迅速予測

ReGNL: Rapid Prediction of GDP during Disruptive Events using Nightlights ( http://arxiv.org/abs/2201.07612v1 )

ライセンス: Link先を確認
Rushabh Musthyala, Rudrajit Kargupta, Hritish Jain, Dipanjan Chakraborty(参考訳) 政策立案者は、しばしばgdp、失業率、工業生産などのパラメータに基づいて決定を下す。 このような情報を入手または推定する主要な方法は資源集約的で時間を要する。 適時かつ熟知した意思決定を行うためには,これらのパラメータのプロキシを,特にcovid-19パンデミックのような破壊的なイベントにおいて,迅速かつ効率的にサンプリングできることが不可欠である。 近年,リモートセンシングデータの利用に注目が集まっている。 データは調査に比べて収集コストが安くなり、リアルタイムで入手できるようになった。 そこで本研究では,地域gdpナイトライト(regnl)について述べる。地域gdpナイトライト(regnl)は,過去のナイトライトとgdpデータのカスタムデータセットと場所の地理的座標に基づいて学習し,他のパラメータを考慮し,その場所のgdpを推定するニューラルネットベースモデルである。 米国50州を例にとると、ReGNLはディスラプティブに依存しず、通常の年(2019年)と、ディスラプティブイベント(2020年)の両方でGDPを予測することができる。 ReGNLは、パンデミックの間でさえ、予測のためのARIMAメソッドのタイムリーを上回ります。 以上の結果から,特に資源の乏しい地理において,インフラの構築が利用可能な粒度データを収集・作成し,破壊的なイベントにおける政策立案に活用できるようにする。

Policy makers often make decisions based on parameters such as GDP, unemployment rate, industrial output, etc. The primary methods to obtain or even estimate such information are resource intensive and time consuming. In order to make timely and well-informed decisions, it is imperative to be able to come up with proxies for these parameters which can be sampled quickly and efficiently, especially during disruptive events, like the COVID-19 pandemic. Recently, there has been a lot of focus on using remote sensing data for this purpose. The data has become cheaper to collect compared to surveys, and can be available in real time. In this work, we present Regional GDP NightLight (ReGNL), a neural network based model which is trained on a custom dataset of historical nightlights and GDP data along with the geographical coordinates of a place, and estimates the GDP of the place, given the other parameters. Taking the case of 50 US states, we find that ReGNL is disruption-agnostic and is able to predict the GDP for both normal years (2019) and for years with a disruptive event (2020). ReGNL outperforms timeseries ARIMA methods for prediction, even during the pandemic. Following from our findings, we make a case for building infrastructures to collect and make available granular data, especially in resource-poor geographies, so that these can be leveraged for policy making during disruptive events.
翻訳日:2022-01-20 14:42:45 公開日:2022-01-19
# 中間表現を用いたクロスランゲージバイナリソース符号マッチング

Cross-Language Binary-Source Code Matching with Intermediate Representations ( http://arxiv.org/abs/2201.07420v1 )

ライセンス: Link先を確認
Yi Gui, Yao Wan, Hongyu Zhang, Huifang Huang, Yulei Sui, Guandong Xu, Zhiyuan Shao, Hai Jin(参考訳) バイナリソースコードマッチングは,マルウェア検出やリバースエンジニアリング,脆弱性評価など,セキュリティやソフトウェアエンジニアリングに関連する多くのタスクにおいて重要な役割を果たす。 現在、バイナリコードとソースコードの共通ベクトル空間への埋め込みを共同で学習することで、バイナリソースコードマッチングにいくつかのアプローチが提案されている。 多くの努力にもかかわらず、既存のアプローチは単一のプログラミング言語で書かれたバイナリコードとソースコードのマッチングを目標としている。 しかし実際には、ソフトウェアアプリケーションは様々な要件やコンピューティングプラットフォームに対応するために、しばしば異なるプログラミング言語で書かれています。 プログラミング言語にまたがるバイナリとソースコードのマッチングは、マルチ言語とマルチプラットフォームアプリケーションのメンテナンスにおいて、さらなる課題をもたらす。 そこで本稿では,言語間バイナリソースコードマッチングの問題を定式化し,新しい問題のための新しいデータセットを開発する。 本稿では,バイナリとソースコードの中間表現を学習し,トランスフォーマーに基づくニューラルネットワークであるXLIRを提案する。 XLIRの有効性を検証するために、我々の収集したデータセットの上に、クロス言語バイナリソースコードマッチングとクロス言語ソースコードマッチングの2つのタスクに関する総合的な実験を行った。 実験結果と解析結果から,中間表現を持つXLIRは両タスクにおいて他の最先端モデルよりも優れていた。

Binary-source code matching plays an important role in many security and software engineering related tasks such as malware detection, reverse engineering and vulnerability assessment. Currently, several approaches have been proposed for binary-source code matching by jointly learning the embeddings of binary code and source code in a common vector space. Despite much effort, existing approaches target on matching the binary code and source code written in a single programming language. However, in practice, software applications are often written in different programming languages to cater for different requirements and computing platforms. Matching binary and source code across programming languages introduces additional challenges when maintaining multi-language and multi-platform applications. To this end, this paper formulates the problem of cross-language binary-source code matching, and develops a new dataset for this new problem. We present a novel approach XLIR, which is a Transformer-based neural network by learning the intermediate representations for both binary and source code. To validate the effectiveness of XLIR, comprehensive experiments are conducted on two tasks of cross-language binary-source code matching, and cross-language source-source code matching, on top of our curated dataset. Experimental results and analysis show that our proposed XLIR with intermediate representations significantly outperforms other state-of-the-art models in both of the two tasks.
翻訳日:2022-01-20 14:39:58 公開日:2022-01-19
# 教育のタイムタブル:問題、ベンチマーク、そして現状の成果

Educational Timetabling: Problems, Benchmarks, and State-of-the-Art Results ( http://arxiv.org/abs/2201.07525v1 )

ライセンス: Link先を確認
Sara Ceschia, Luca Di Gaspero, Andrea Schaerf(参考訳) 本研究は,「標準」定式化とそれに対応するベンチマークインスタンスに着目した教育タイムタリングの分野での研究貢献度に関する調査である。 これら6つの定式化を識別し,その妥当性とユーザビリティを指摘しながら,それらの特徴について論じる。 他の利用可能な定式化やデータセットもレビューされ、簡単に議論される。 続いて,選択したベンチマークにおいて,ソリューションの品質(上および下限),検索技術,実行時間,統計分布,その他の側面設定の観点から,最先端の成果を報告する。

We propose a survey of the research contributions on the field of Educational Timetabling with a specific focus on "standard" formulations and the corresponding benchmark instances. We identify six of such formulations and we discuss their features, pointing out their relevance and usability. Other available formulations and datasets are also reviewed and briefly discussed. Subsequently, we report the main state-of-the-art results on the selected benchmarks, in terms of solution quality (upper and lower bounds), search techniques, running times, statistical distributions, and other side settings.
翻訳日:2022-01-20 14:39:39 公開日:2022-01-19
# FAT: 3次重みニューラルネットワークのための高速付加型インメモリ加速器

FAT: An In-Memory Accelerator with Fast Addition for Ternary Weight Neural Networks ( http://arxiv.org/abs/2201.07634v1 )

ライセンス: Link先を確認
Shien Zhu, Luan H.K. Duong, Hui Chen, Di Liu, Weichen Liu(参考訳) 畳み込みニューラルネットワーク(cnns)は、様々なアプリケーションで優れた性能を示すが、計算複雑性が高い。 量子化はcnnのレイテンシとストレージコストを削減するために適用される。 量子化法のうち、BWNとTWNは8ビットと4ビットの量子化に対して独自の優位性を持つ。 CNNの乗算操作を、In-Memory-Computing (IMC)デバイスで好まれる追加で置き換える。 BWNのICC加速は広く研究されている。 しかし、TWNsは精度が高く、親和性も優れているが、TWNsのIMC加速は限定的な研究である。 既存のIMCデバイス上のTWNは、空間が十分に利用されておらず、追加操作が効率的でないため、非効率である。 本稿では,TWNのための新しいMCアクセラレータとしてFATを提案する。 まず,twnのスパース性を利用してゼロウェイトのヌル演算をスキップするスパース加算制御部を提案する。 第2に,メモリセルへの搬送と搬送の時間オーバーヘッドを回避するため,メモリセンス増幅器に基づく高速加算方式を提案する。 第3に,アクティベーションと重みの双方のデータ移動を低減し,メモリ列の並列性を向上させるために,静止データマッピングを提案する。 シミュレーションの結果,Sense Amplifier レベルでの追加動作では,FAT は State-Of-The-Art IMC アクセラレータParaPIM と比較して2.00X の高速化, 1.22X の電力効率, 1.22X の面積効率を実現している。 FATは10.02倍の高速化と12.19倍のエネルギー効率を達成する

Convolutional Neural Networks (CNNs) demonstrate great performance in various applications but have high computational complexity. Quantization is applied to reduce the latency and storage cost of CNNs. Among the quantization methods, Binary and Ternary Weight Networks (BWNs and TWNs) have a unique advantage over 8-bit and 4-bit quantization. They replace the multiplication operations in CNNs with additions, which are favoured on In-Memory-Computing (IMC) devices. IMC acceleration for BWNs has been widely studied. However, though TWNs have higher accuracy and better sparsity, IMC acceleration for TWNs has limited research. TWNs on existing IMC devices are inefficient because the sparsity is not well utilized, and the addition operation is not efficient. In this paper, we propose FAT as a novel IMC accelerator for TWNs. First, we propose a Sparse Addition Control Unit, which utilizes the sparsity of TWNs to skip the null operations on zero weights. Second, we propose a fast addition scheme based on the memory Sense Amplifier to avoid the time overhead of both carry propagation and writing back the carry to the memory cells. Third, we further propose a Combined-Stationary data mapping to reduce the data movement of both activations and weights and increase the parallelism of memory columns. Simulation results show that for addition operations at the Sense Amplifier level, FAT achieves 2.00X speedup, 1.22X power efficiency and 1.22X area efficiency compared with State-Of-The-Art IMC accelerator ParaPIM. FAT achieves 10.02X speedup and 12.19X energy efficiency compared with ParaPIM on networks with 80% sparsity
翻訳日:2022-01-20 14:39:30 公開日:2022-01-19
# GEMEL:エッジでのメモリ効率の良いリアルタイムビデオ分析のためのモデルマージ

GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at the Edge ( http://arxiv.org/abs/2201.07705v1 )

ライセンス: Link先を確認
Arthi Padmanabhan, Neil Agarwal, Anand Iyer, Ganesh Ananthanarayanan, Yuanchao Shu, Nikolaos Karianakis, Guoqing Harry Xu, Ravi Netravali(参考訳) ビデオ分析のパイプラインは、帯域幅のオーバーヘッドとプライバシ侵害を減らすために、エッジデプロイメントに着実に移行してきた。 最も注目すべきは、エッジボックスGPUは、リアルタイム推論のために増加する(複雑化する)モデルを同時に格納するために必要なメモリを欠いていることだ。 残念ながら、GPUリソースの時間/空間共有に依存する既存のソリューションは、必要なスワップ遅延が許容できないフレームドロップと精度違反をもたらすため不十分である。 本稿では,エッジビジョンモデル間のアーキテクチャ的類似性を利用した新たなメモリ管理手法であるモデルマージを提案する。 本システムであるGEMELは,(1)モデル単位のメモリ使用量と層間依存関係に関するいくつかの指針的観察を活用して,実効性と精度の高いマージ構成を迅速に同定し,(2)エッジ推論スケジュールを変更してマージメリットを最大化する。 さまざまなワークロードを対象とした実験の結果、gemelはメモリ使用量を最大60.7%削減し、時間/空間の共有だけで全体の精度を8~39%向上させることがわかった。

Video analytics pipelines have steadily shifted to edge deployments to reduce bandwidth overheads and privacy violations, but in doing so, face an ever-growing resource tension. Most notably, edge-box GPUs lack the memory needed to concurrently house the growing number of (increasingly complex) models for real-time inference. Unfortunately, existing solutions that rely on time/space sharing of GPU resources are insufficient as the required swapping delays result in unacceptable frame drops and accuracy violations. We present model merging, a new memory management technique that exploits architectural similarities between edge vision models by judiciously sharing their layers (including weights) to reduce workload memory costs and swapping delays. Our system, GEMEL, efficiently integrates merging into existing pipelines by (1) leveraging several guiding observations about per-model memory usage and inter-layer dependencies to quickly identify fruitful and accuracy-preserving merging configurations, and (2) altering edge inference schedules to maximize merging benefits. Experiments across diverse workloads reveal that GEMEL reduces memory usage by up to 60.7%, and improves overall accuracy by 8-39% relative to time/space sharing alone.
翻訳日:2022-01-20 14:39:02 公開日:2022-01-19
# (参考訳) 階層型サロゲートルールセットを用いた機械学習モデル行動の視覚的探索 [全文訳有]

Visual Exploration of Machine Learning Model Behavior with Hierarchical Surrogate Rule Sets ( http://arxiv.org/abs/2201.07724v1 )

ライセンス: CC BY 4.0
Jun Yuan, Brian Barr, Kyle Overton, Enrico Bertini(参考訳) モデル解釈の潜在的な解決策の1つは代理モデルを訓練することであり、説明すべきモデルの振る舞いを近似するより透明なモデルである。 典型的には、分類規則や決定木は論理に基づく表現の理解性のために用いられる。 しかし、決定木は深く成長しすぎ、規則集合は複雑なモデルを近似するには大きすぎる。 祖先ノード(条件)を共有しなければならない決定ツリー上のパスとは異なり、ルールはより柔軟である。 しかし、ルールの非構造的な視覚表現は、ルール間の推論を難しくする。 これらの問題に対処するために,新しいアルゴリズムとインタラクティブなソリューションを含むワークフローを提案する。 まず,ユーザ定義パラメータに基づいて階層ルールを生成するアルゴリズムである階層型サーロゲートルール(hsr)を提案する。 我々はまた、HSRと対話型代理ルール可視化を統合した視覚分析(VA)システムSuREにも貢献する。 特に,既存のルール視覚化の欠点を克服する新しい特徴整列木を提案する。 パラメータ感度,時間性能,サロゲート決定木との比較によりアルゴリズムの評価を行い,多くの点で合理的にスケールし,決定木よりも優れることを示した。 また,24名のボランティアによるユーザビリティスタディと7名のドメインエキスパートによる観察研究により,可視化とvaシステムを評価する。 本研究は,特徴に合わせた木を用いて,極めて高い精度で非自明なタスクを遂行できることを示す。 また,ルールベースのVAシステムの設計における今後の研究に役立つ興味深い観測点についても論じる。

One of the potential solutions for model interpretation is to train a surrogate model: a more transparent model that approximates the behavior of the model to be explained. Typically, classification rules or decision trees are used due to the intelligibility of their logic-based expressions. However, decision trees can grow too deep and rule sets can become too large to approximate a complex model. Unlike paths on a decision tree that must share ancestor nodes (conditions), rules are more flexible. However, the unstructured visual representation of rules makes it hard to make inferences across rules. To address these issues, we present a workflow that includes novel algorithmic and interactive solutions. First, we present Hierarchical Surrogate Rules (HSR), an algorithm that generates hierarchical rules based on user-defined parameters. We also contribute SuRE, a visual analytics (VA) system that integrates HSR and interactive surrogate rule visualizations. Particularly, we present a novel feature-aligned tree to overcome the shortcomings of existing rule visualizations. We evaluate the algorithm in terms of parameter sensitivity, time performance, and comparison with surrogate decision trees and find that it scales reasonably well and outperforms decision trees in many respects. We also evaluate the visualization and the VA system by a usability study with 24 volunteers and an observational study with 7 domain experts. Our investigation shows that the participants can use feature-aligned trees to perform non-trivial tasks with very high accuracy. We also discuss many interesting observations that can be useful for future research on designing effective rule-based VA systems.
翻訳日:2022-01-20 14:35:56 公開日:2022-01-19
# トップダウンの影響? 音声文からのCEOの性格とリスク影響の予測

Top-Down Influence? Predicting CEO Personality and Risk Impact from Speech Transcripts ( http://arxiv.org/abs/2201.07670v1 )

ライセンス: Link先を確認
Kilian Theil, Dirk Hovy, Heiner Stuckenschmidt(参考訳) CEOの個性は会社のパフォーマンスにどの程度影響しますか? マネジメント理論は大きな影響を与えるが、経験的に示すのは難しい -- トップマネージャの自己報告されたパーソナリティデータが公開されていない。 代わりに、クラウドソースのMyers--Briggs Type Indicator (MBTI)アセスメントを用いたテキストベースの人格回帰器を提案する。 評価は内部的および外部的妥当性が高く、4次元のうち3次元に対して中程度から強い相関で予測できる。 上層エキロン理論の証拠として、予測されたCEOの個人性が金融リスクの説明力を持っていることを示す。

How much does a CEO's personality impact the performance of their company? Management theory posits a great influence, but it is difficult to show empirically -- there is a lack of publicly available self-reported personality data of top managers. Instead, we propose a text-based personality regressor using crowd-sourced Myers--Briggs Type Indicator (MBTI) assessments. The ratings have a high internal and external validity and can be predicted with moderate to strong correlations for three out of four dimensions. Providing evidence for the upper echelons theory, we demonstrate that the predicted CEO personalities have explanatory power of financial risk.
翻訳日:2022-01-20 14:02:56 公開日:2022-01-19
# 双線形結合スムース最小最適化のためのリフテッドプリマル双対法

Lifted Primal-Dual Method for Bilinearly Coupled Smooth Minimax Optimization ( http://arxiv.org/abs/2201.07427v1 )

ライセンス: Link先を確認
Kiran Koshy Thekumparampil, Niao He, Sewoong Oh(参考訳) 双線型結合ミニマックス問題:$\min_{x} \max_{y} f について検討する。 (x) + y^\top A x - h (y)$ の場合、$f$ と $h$ は共に強い凸滑らかな函数であり、一階勾配オラクルを許容する。 驚くべきことに、既知の一階法アルゴリズムでは、この問題を解決するために$\omega((\sqrt{\frac{l_x}{\mu_x}} + \frac{\|a\|}{\sqrt{\mu_x \mu_y}} + \sqrt{\frac{l_y}{\mu_y}}) \log(\frac1{\varepsilon})) $\varepsilon$primal- dual gap という一般パラメータ系において、$l_x, l_y,\mu_x,\mu_y$ は対応する滑らか性と強い凸定数である。 最初の最適化アルゴリズムであるLifted Primal-Dual (LPD) を考案することで、このギャップを埋める。 提案手法は目的を拡張形式に引き上げ,スムーズな項と双線形項の両方を同じ原始双対の枠組みで最適かつシームレスに扱えるようにした。 最適性に加えて、この手法は1イテレーションあたりの勾配oracle呼び出しのみを使用する、望ましくは単純なシングルループアルゴリズムをもたらす。 さらに、$f$ がちょうど凸であるとき、滑らかな目的に適用される同じアルゴリズムは、ほぼ最適な反復複雑性を達成する。 また、LPD法を用いて直接単ループアルゴリズムを提供し、$O(\sqrt {\frac{L_x}{\varepsilon}} + \frac{\|A\|}{\sqrt{\mu_y \varepsilon}} + \sqrt{\frac{L_y}{\varepsilon}})$の反復複雑性を実現する。 二次ミニマックス問題と政策評価問題に関する数値実験により,本アルゴリズムの高速化が実証された。

We study the bilinearly coupled minimax problem: $\min_{x} \max_{y} f(x) + y^\top A x - h(y)$, where $f$ and $h$ are both strongly convex smooth functions and admit first-order gradient oracles. Surprisingly, no known first-order algorithms have hitherto achieved the lower complexity bound of $\Omega((\sqrt{\frac{L_x}{\mu_x}} + \frac{\|A\|}{\sqrt{\mu_x \mu_y}} + \sqrt{\frac{L_y}{\mu_y}}) \log(\frac1{\varepsilon}))$ for solving this problem up to an $\varepsilon$ primal-dual gap in the general parameter regime, where $L_x, L_y,\mu_x,\mu_y$ are the corresponding smoothness and strongly convexity constants. We close this gap by devising the first optimal algorithm, the Lifted Primal-Dual (LPD) method. Our method lifts the objective into an extended form that allows both the smooth terms and the bilinear term to be handled optimally and seamlessly with the same primal-dual framework. Besides optimality, our method yields a desirably simple single-loop algorithm that uses only one gradient oracle call per iteration. Moreover, when $f$ is just convex, the same algorithm applied to a smoothed objective achieves the nearly optimal iteration complexity. We also provide a direct single-loop algorithm, using the LPD method, that achieves the iteration complexity of $O(\sqrt{\frac{L_x}{\varepsilon}} + \frac{\|A\|}{\sqrt{\mu_y \varepsilon}} + \sqrt{\frac{L_y}{\varepsilon}})$. Numerical experiments on quadratic minimax problems and policy evaluation problems further demonstrate the fast convergence of our algorithm in practice.
翻訳日:2022-01-20 14:01:46 公開日:2022-01-19
# マルチモーダルニューロイメージングデータのための結合支持テンソルマシン分類

Coupled Support Tensor Machine Classification for Multimodal Neuroimaging Data ( http://arxiv.org/abs/2201.07683v1 )

ライセンス: Link先を確認
Li Peide, Seyyid Emre Sofuoglu, Tapabrata Maiti, Selin Aviyente(参考訳) マルチモーダルデータは、同じ現象に関する情報を複数のセンサーから取得し、異なる画像モダリティで取得する様々なアプリケーションで発生する。 マルチモーダルデータからの学習は、モーダル間の補完的な情報を取得する可能性を提供するため、機械学習と統計研究に大きな関心がある。 マルチモーダルモデリングは、異種データソース間の相互依存を説明するのに役立ち、単一のモダリティから利用できない新しい洞察を発見し、意思決定を改善する。 近年,マルチモーダルデータ融合において,潜伏因子を共同推定し,潜伏因子間の複雑な相互依存性を同定するための結合行列-テンソル因子化が導入された。 しかし,マトリックス・テンソル要素の結合に関する先行研究のほとんどは教師なし学習に焦点を合わせており,共同で見積もった潜在因子を用いた教師あり学習に関する研究はほとんどない。 本稿では,マルチモーダルテンソルデータ分類問題を考える。 AMTF(Advanced Coupled Matrix Tensor Factorization)から推定される潜在因子に基づく結合支援テンソルマシン(C-STM)を提案する。 C-STMは、個別および共有潜在因子と複数のカーネルを結合し、結合行列テンソルデータに対する最大マージン分類器を推定する。 C-STMの分類リスクは最適なベイズリスクに収束し、統計的に一貫した規則となる。 C-STMは脳波とfMRIの同時解析と同様にシミュレーション研究によって検証される。 実証的な証拠は、C-STMが複数の情報源からの情報を利用することができ、従来のシングルモード分類器よりも優れた分類性能を提供できることを示している。

Multimodal data arise in various applications where information about the same phenomenon is acquired from multiple sensors and across different imaging modalities. Learning from multimodal data is of great interest in machine learning and statistics research as this offers the possibility of capturing complementary information among modalities. Multimodal modeling helps to explain the interdependence between heterogeneous data sources, discovers new insights that may not be available from a single modality, and improves decision-making. Recently, coupled matrix-tensor factorization has been introduced for multimodal data fusion to jointly estimate latent factors and identify complex interdependence among the latent factors. However, most of the prior work on coupled matrix-tensor factors focuses on unsupervised learning and there is little work on supervised learning using the jointly estimated latent factors. This paper considers the multimodal tensor data classification problem. A Coupled Support Tensor Machine (C-STM) built upon the latent factors jointly estimated from the Advanced Coupled Matrix Tensor Factorization (ACMTF) is proposed. C-STM combines individual and shared latent factors with multiple kernels and estimates a maximal-margin classifier for coupled matrix tensor data. The classification risk of C-STM is shown to converge to the optimal Bayes risk, making it a statistically consistent rule. C-STM is validated through simulation studies as well as a simultaneous EEG-fMRI analysis. The empirical evidence shows that C-STM can utilize information from multiple sources and provide a better classification performance than traditional single-mode classifiers.
翻訳日:2022-01-20 14:00:56 公開日:2022-01-19
# 実用的2次元座標法の複雑さについて

On the Complexity of a Practical Primal-Dual Coordinate Method ( http://arxiv.org/abs/2201.07684v1 )

ライセンス: Link先を確認
Ahmet Alacaoglu, Volkan Cevher, Stephen J. Wright(参考訳) 両線形カップリングによる凸凹最小値問題の解法として, ランダムな外挿・座標降下法(PURE-CD)を応用した原始双対アルゴリズムの複雑性境界を証明した。 我々の複雑性は、密度と疎度(強く)凸-(強く)凹凸問題の両方の文献において最もよく知られた結果に一致するか改善される。

We prove complexity bounds for the primal-dual algorithm with random extrapolation and coordinate descent (PURE-CD), which has been shown to obtain good practical performance for solving convex-concave min-max problems with bilinear coupling. Our complexity bounds either match or improve the best-known results in the literature for both dense and sparse (strongly)-convex-(s trongly)-concave problems.
翻訳日:2022-01-20 14:00:31 公開日:2022-01-19
# ロボット操作のためのトランスフォーマーでエゴセントリックとパーソナライズを橋渡し

Look Closer: Bridging Egocentric and Third-Person Views with Transformers for Robotic Manipulation ( http://arxiv.org/abs/2201.07779v1 )

ライセンス: Link先を確認
Rishabh Jangir, Nicklas Hansen, Sambaral Ghosal, Mohit Jain, Xiaolong Wang(参考訳) 強化学習(rl)を用いた視覚フィードバックによる精度に基づく操作課題の解法は、従来のロボットシステムに必要な工学的労力を大幅に削減することができる。 しかし、視覚入力だけできめ細かい運動制御を行うことは、特に以前の作業でよく使われる静的な3人称カメラでは困難である。 本稿では,エージェントがロボットの手首に装着した自己中心カメラと第三者カメラの両方から視覚フィードバックを受けるロボット操作のための設定を提案する。 3人称カメラは静的だが、エゴセントリックカメラはロボットが視覚を積極的に制御し、正確な操作を支援する。 また,両カメラからの視覚情報を効果的に融合するために,空間的注意を一つの視点から他の視点へモデル化し,学習した特徴をrlポリシーの入力として利用するクロスビュー注意機構を備えたトランスフォーマを提案する。 本手法は,単視点および多視点のベースライン上での学習を向上し,非対応カメラを用いた実ロボット上での課題操作タスクのセットへの転送,状態情報へのアクセスの不要,タスク変動度の向上を実現した。 ハンマー操作タスクでは,実験の75%で成功し,マルチビューベースラインでは38%,シングルビューベースラインでは13%であった。

Learning to solve precision-based manipulation tasks from visual feedback using Reinforcement Learning (RL) could drastically reduce the engineering efforts required by traditional robot systems. However, performing fine-grained motor control from visual inputs alone is challenging, especially with a static third-person camera as often used in previous work. We propose a setting for robotic manipulation in which the agent receives visual feedback from both a third-person camera and an egocentric camera mounted on the robot's wrist. While the third-person camera is static, the egocentric camera enables the robot to actively control its vision to aid in precise manipulation. To fuse visual information from both cameras effectively, we additionally propose to use Transformers with a cross-view attention mechanism that models spatial attention from one view to another (and vice-versa), and use the learned features as input to an RL policy. Our method improves learning over strong single-view and multi-view baselines, and successfully transfers to a set of challenging manipulation tasks on a real robot with uncalibrated cameras, no access to state information, and a high degree of task variability. In a hammer manipulation task, our method succeeds in 75% of trials versus 38% and 13% for multi-view and single-view baselines, respectively.
翻訳日:2022-01-20 13:59:07 公開日:2022-01-19
# 混合非決定論的確率的オートマタ:非決定論的図形確率モデル

Mixed Nondeterministic-Pro babilistic Automata: Blending graphical probabilistic models with nondeterminism ( http://arxiv.org/abs/2201.07474v1 )

ライセンス: Link先を確認
Albert Benveniste, Jean-Baptiste Raclet(参考訳) 確率と統計のグラフモデルは確率論的推論の領域における中核的な概念であり、確率論的プログラミング-グラフィックモデルはベイズネットワークや因子グラフを含む。 本稿では,非決定論的オートマトンとグラフィカル確率モデルの両方を仮定する混合(非決定的/確率的)オートマトンモデルを開発する。 混合オートマトンは、並列合成、シミュレーション関係、およびグラフィカル確率モデルから継承されるメッセージパッシングアルゴリズムを備える。 セガラの確率的オートマトンは混合オートマトンにマッピングされる。

Graphical models in probability and statistics are a core concept in the area of probabilistic reasoning and probabilistic programming-graphica l models include Bayesian networks and factor graphs. In this paper we develop a new model of mixed (nondeterministic/pr obabilistic) automata that subsumes both nondeterministic automata and graphical probabilistic models. Mixed Automata are equipped with parallel composition, simulation relation, and support message passing algorithms inherited from graphical probabilistic models. Segala's Probabilistic Automatacan be mapped to Mixed Automata.
翻訳日:2022-01-20 13:57:57 公開日:2022-01-19
# 製品設計におけるAI手法の問題点

Problem examination for AI methods in product design ( http://arxiv.org/abs/2201.07642v1 )

ライセンス: Link先を確認
Philipp Rosenthal and Oliver Niggemann(参考訳) AIは製品に関する技術的および非技術的制約をチェックでき、新しい製品バリアントの迅速な設計をサポートし、新しいAIメソッドは創造性もサポートする。 しかし、現在プロダクトデザインとAIは、異なる用語と理論を育む別々のコミュニティです。 これにより、AIアプローチの製品設計へのマッピングが難しくなり、新しいソリューションが防止される。 本稿ではまず,製品設計におけるAI手法の学際的領域に関する重要な用語と概念を明らかにする。 本論文の重要な貢献は, 4つの特徴分解性, 相互依存, 革新, 創造性を用いた設計問題の新たな分類である。 これらの概念の定義は、それらが不足している場所で与えられる。 これらの概念のaiソリューションへの初期のマッピングは、設計例を使ってスケッチされ、検証される。 製品設計における創造性の重要性とAIにおけるそれに対応するギャップは、今後の研究のために指摘されている。

Artificial Intelligence (AI) has significant potential for product design: AI can check technical and non-technical constraints on products, it can support a quick design of new product variants and new AI methods may also support creativity. But currently product design and AI are separate communities fostering different terms and theories. This makes a mapping of AI approaches to product design needs difficult and prevents new solutions. As a solution, this paper first clarifies important terms and concepts for the interdisciplinary domain of AI methods in product design. A key contribution of this paper is a new classification of design problems using the four characteristics decomposability, inter-dependencies, innovation and creativity. Definitions of these concepts are given where they are lacking. Early mappings of these concepts to AI solutions are sketched and verified using design examples. The importance of creativity in product design and a corresponding gap in AI is pointed out for future research.
翻訳日:2022-01-20 13:57:48 公開日:2022-01-19
# (参考訳) 表情認識のための汎用的深層特徴抽出器を目指して [全文訳有]

Towards a General Deep Feature Extractor for Facial Expression Recognition ( http://arxiv.org/abs/2201.07781v1 )

ライセンス: CC BY-SA 4.0
Liam Schoneveld, Alice Othmani(参考訳) 人間の顔はかなりの量の情報を伝達する。 表情を通じて、顔は言語化を必要とせずに多数の感情を伝えることができる。 視覚的感情認識の研究が盛んである。 近年,この課題に対して,エンドツーエンドの深層ニューラルネットワークがいくつか提案されている。 しかし、そのようなモデルはデータセット間の一般化能力に欠けることが多い。 本稿では,他の顔感情認識タスクやデータセットに適用できるほど汎用的な視覚特徴抽出法を学習する,ディープラーニングに基づく新しいアプローチであるdeep face expression vector extractor (deepfever)を提案する。 DeepFEVERは、AffectNetとGoogle Facial Expression Comparisonデータセットで最先端の結果を上回っている。 DeepFEVERの抽出された機能は、トレーニング中に目に見えないデータセット、すなわちReal-World Affective Faces (RAF)データセットに対しても、非常にうまく一般化されている。

The human face conveys a significant amount of information. Through facial expressions, the face is able to communicate numerous sentiments without the need for verbalisation. Visual emotion recognition has been extensively studied. Recently several end-to-end trained deep neural networks have been proposed for this task. However, such models often lack generalisation ability across datasets. In this paper, we propose the Deep Facial Expression Vector ExtractoR (DeepFEVER), a new deep learning-based approach that learns a visual feature extractor general enough to be applied to any other facial emotion recognition task or dataset. DeepFEVER outperforms state-of-the-art results on the AffectNet and Google Facial Expression Comparison datasets. DeepFEVER's extracted features also generalise extremely well to other datasets -- even those unseen during training -- namely, the Real-World Affective Faces (RAF) dataset.
翻訳日:2022-01-20 13:55:41 公開日:2022-01-19
# サーロゲートモデリングと不確実性定量化のためのディープカプセルエンコーダデコーダネットワーク

Deep Capsule Encoder-Decoder Network for Surrogate Modeling and Uncertainty Quantification ( http://arxiv.org/abs/2201.07753v1 )

ライセンス: Link先を確認
Akshay Thakur and Souvik Chakraborty(参考訳) スパースデータからメカニクスにおけるシステムのサロゲートモデリングと不確実性定量化を行うために,新しい \textit{capsule} ベースのディープエンコーダデコーダモデルを提案する。 提案手法はcapsnet(capsnet)アーキテクチャを画像から画像への回帰エンコーダ・デコーダネットワークに適用して開発された。 具体的には、コンボリューションニューラルネットワーク(CNN)に対するCapsNetのメリットを活用することを目的としている。 提案手法の性能は楕円確率偏微分方程式 (SPDE) を解くことにより説明され, 定常熱伝導, 地下水流, その他の拡散過程などの力学系を, 入力次元が1024$の不確実性定量化問題に基づいて制御する。 しかし、問題定義はランダム拡散場を特定の共分散構造に制限せず、任意の拡散場に対する応答予測のより厳密なタスクが解決される。 性能評価の結果,提案手法は正確で効率的で頑健であることが示唆された。

We propose a novel \textit{capsule} based deep encoder-decoder model for surrogate modeling and uncertainty quantification of systems in mechanics from sparse data. The proposed framework is developed by adapting Capsule Network (CapsNet) architecture into image-to-image regression encoder-decoder network. Specifically, the aim is to exploit the benefits of CapsNet over convolution neural network (CNN) $-$ retaining pose and position information related to an entity to name a few. The performance of proposed approach is illustrated by solving an elliptic stochastic partial differential equation (SPDE), which also governs systems in mechanics such as steady heat conduction, ground water flow or other diffusion processes, based uncertainty quantification problem with an input dimensionality of $1024$. However, the problem definition does not the restrict the random diffusion field to a particular covariance structure, and the more strenuous task of response prediction for an arbitrary diffusion field is solved. The obtained results from performance evaluation indicate that the proposed approach is accurate, efficient, and robust.
翻訳日:2022-01-20 13:46:24 公開日:2022-01-19
# より簡単:変分オートエンコーダのスペクトル正規化とアップサンプリング技術

Simpler is better: spectral regularization and up-sampling techniques for variational autoencoders ( http://arxiv.org/abs/2201.07544v1 )

ライセンス: Link先を確認
Sara Bj\"ork, Jonas Nordhaug Myhre and Thomas Haugland Johansen(参考訳) ニューラルネットワークに基づく生成モデルのスペクトル挙動の完全な評価は未解決のままである。 最近の研究は、生成的対向ネットワークと、実画像と生成画像の高周波の相違に重点を置いている。 これを回避する現在の解決策は、変換された畳み込みをバイリニアアップサンプリングに置き換えるか、ジェネレータにスペクトル正規化項を追加するかである。 変分オートエンコーダ(VAE)もこれらの問題に悩まされていることはよく知られている。 本研究では,VAEの2次元フーリエ変換に基づくスペクトル正規化損失を簡易に提案し,生成モデルにおける周波数認識損失の現況と同等かそれ以上の結果が得られることを示す。 さらに,ジェネレータネットワークにおけるアップサンプリング手法の変更を試み,それがモデルのスペクトル性能に与える影響について検討した。 結果を示すために、合成および実データ集合の実験を含む。

Full characterization of the spectral behavior of generative models based on neural networks remains an open issue. Recent research has focused heavily on generative adversarial networks and the high-frequency discrepancies between real and generated images. The current solution to avoid this is to either replace transposed convolutions with bilinear up-sampling or add a spectral regularization term in the generator. It is well known that Variational Autoencoders (VAEs) also suffer from these issues. In this work, we propose a simple 2D Fourier transform-based spectral regularization loss for the VAE and show that it can achieve results equal to, or better than, the current state-of-the-art in frequency-aware losses for generative models. In addition, we experiment with altering the up-sampling procedure in the generator network and investigate how it influences the spectral performance of the model. We include experiments on synthetic and real data sets to demonstrate our results.
翻訳日:2022-01-20 13:46:03 公開日:2022-01-19
# 生物医用画像解析のための生成型adversarial networkの訓練課題に関する調査研究

A Survey on Training Challenges in Generative Adversarial Networks for Biomedical Image Analysis ( http://arxiv.org/abs/2201.07646v1 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Ruairi O'Reilly, and Mubashir Husain Rehmani(参考訳) 生体画像解析において、深層学習法の適用性は、利用可能な画像データ量によって直接影響を受ける。 これは、大規模な画像データセットを必要とするディープラーニングモデルがハイレベルなパフォーマンスを提供するためである。 generative adversarial networks (gans) は合成バイオメディカル画像の生成を通じてデータ制限に対処するために広く利用されている。 GANは2つのモデルで構成される。 ジェネレータは、受信したフィードバックに基づいて合成画像を生成する方法を学ぶモデルである。 判別器(discriminator)は、画像を合成またはリアルに分類し、ジェネレータにフィードバックを提供するモデルである。 トレーニングプロセスを通じて、GANは適切な合成画像の生成を妨げるいくつかの技術的課題を経験することができる。 まず、生成装置が同一の画像を生成するか、異なる入力特徴から一様画像を生成するモード崩壊問題である。 第二に、勾配降下最適化器がナッシュ平衡に達することができない非収束問題である。 第三に、最適分類性能を達成した判別器による不安定な訓練行動が発生し、発電機に有意なフィードバックが得られない、消滅する勾配問題である。 これらの問題は、ぼやけた、非現実的で、多様性の低い合成画像を生み出す。 これまでのところ、バイオメディカル画像領域におけるこれらの技術的課題の影響を概説した調査記事は存在していない。 本研究は, バイオメディカルイメージング領域におけるGANのトレーニング問題に対する解決策に基づくレビューと分類について述べる。 本調査では, バイオメディカルイメージの領域におけるGANの育成について, 今後の研究の方向性を概説する。

In biomedical image analysis, the applicability of deep learning methods is directly impacted by the quantity of image data available. This is due to deep learning models requiring large image datasets to provide high-level performance. Generative Adversarial Networks (GANs) have been widely utilized to address data limitations through the generation of synthetic biomedical images. GANs consist of two models. The generator, a model that learns how to produce synthetic images based on the feedback it receives. The discriminator, a model that classifies an image as synthetic or real and provides feedback to the generator. Throughout the training process, a GAN can experience several technical challenges that impede the generation of suitable synthetic imagery. First, the mode collapse problem whereby the generator either produces an identical image or produces a uniform image from distinct input features. Second, the non-convergence problem whereby the gradient descent optimizer fails to reach a Nash equilibrium. Thirdly, the vanishing gradient problem whereby unstable training behavior occurs due to the discriminator achieving optimal classification performance resulting in no meaningful feedback being provided to the generator. These problems result in the production of synthetic imagery that is blurry, unrealistic, and less diverse. To date, there has been no survey article outlining the impact of these technical challenges in the context of the biomedical imagery domain. This work presents a review and taxonomy based on solutions to the training problems of GANs in the biomedical imaging domain. This survey highlights important challenges and outlines future research directions about the training of GANs in the domain of biomedical imagery.
翻訳日:2022-01-20 13:45:49 公開日:2022-01-19
# (参考訳) 自然言語処理による機械学習を用いた偽ニュースモデルの開発 [全文訳有]

Development of Fake News Model using Machine Learning through Natural Language Processing ( http://arxiv.org/abs/2201.07489v1 )

ライセンス: CC BY 4.0
Sajjad Ahmed, Knut Hinkelmann, Flavio Corradini(参考訳) フェイクニュース検知の研究はまだ初期段階にあり、これは社会が関心を寄せる比較的新しい現象である。 機械学習は複雑な問題を解決するのに役立ち、近年ではAIシステムの構築に役立ちます。 我々は機械学習アルゴリズムと偽ニュースの識別にPassive Aggressive, Na\"ive Bayes, Support Vector Machineの3つの分類器を適用した。 フェイクニュース検出では、分類方法がフェイクニュースに特化していないため、単純な分類が完全に正しいわけではない。 機械学習とテキストベースの処理の統合により、偽ニュースを検出し、ニュースデータを分類できる分類器を構築することができる。 テキスト分類は主にテキストの様々な特徴の抽出に焦点を合わせ、その後これらの特徴を分類に組み込む。 この分野での大きな課題は、コーパスが利用できないために偽物と偽物とを区別する効率的な方法がないことである。 2つの公開データセットに3つの異なる機械学習分類器を適用した。 既存のデータセットに基づいた実験的分析は、非常に励ましく改善されたパフォーマンスを示している。

Fake news detection research is still in the early stage as this is a relatively new phenomenon in the interest raised by society. Machine learning helps to solve complex problems and to build AI systems nowadays and especially in those cases where we have tacit knowledge or the knowledge that is not known. We used machine learning algorithms and for identification of fake news; we applied three classifiers; Passive Aggressive, Na\"ive Bayes, and Support Vector Machine. Simple classification is not completely correct in fake news detection because classification methods are not specialized for fake news. With the integration of machine learning and text-based processing, we can detect fake news and build classifiers that can classify the news data. Text classification mainly focuses on extracting various features of text and after that incorporating those features into classification. The big challenge in this area is the lack of an efficient way to differentiate between fake and non-fake due to the unavailability of corpora. We applied three different machine learning classifiers on two publicly available datasets. Experimental analysis based on the existing dataset indicates a very encouraging and improved performance.
翻訳日:2022-01-20 13:42:19 公開日:2022-01-19
# 効率的なアノテーションのためのHER2スライドのスーパーピクセルプレセグメンテーション

Superpixel Pre-Segmentation of HER2 Slides for Efficient Annotation ( http://arxiv.org/abs/2201.07572v1 )

ライセンス: Link先を確認
Mathias \"Ottl, Jana M\"onius, Christian Marzahl, Matthias R\"ubner, Carol I. Geppert, Arndt Hartmann, Matthias W. Beckmann, Peter Fasching, Andreas Maier, Ramona Erber, Katharina Breininger(参考訳) 教師付き深層学習は、病理組織学や癌研究など、さまざまな分野の医療画像セグメンテーションにおける最先端のパフォーマンスを示しているが、そのようなデータの手動アノテーションは非常に困難である。 本研究では, 乳がん診断におけるHER2染色画像のプリセグメンテーションに対するスーパーピクセルアプローチの利用について検討し, より高速な手動アノテーションと修正を第2ステップで行う。 ベースラインとしての標準単純線形反復クラスタリング(slic)、プリトレーニングされたresnet-50とデノージングオートエンコーダの機能埋め込みに基づくドメイン適合型slic、スーパーピクセルの4つの方法を比較した。 オーバーセグメンテーションに取り組むために,各特徴空間のコンテンツに基づいて,スーパーピクセルを階層的にマージすることを提案する。 完全手動でアノテートされた画像に対するアプローチを評価する際、オートエンコーダベースのスーパーピクセルは、ベースラインのSLICスーパーピクセルに比べて境界F1スコアが23%増加することが観察された。 さらに、適応SLICとオートエンコーダベースのスーパーピクセルに階層クラスタリングを適用すると、境界F1スコアが73%増加する。 これらの評価は、注釈付きトレーニングデータの初期セットを必要とせず、効率的な手作業による洗練のための事前セグメンテーションの最初の結果を奨励する。

Supervised deep learning has shown state-of-the-art performance for medical image segmentation across different applications, including histopathology and cancer research; however, the manual annotation of such data is extremely laborious. In this work, we explore the use of superpixel approaches to compute a pre-segmentation of HER2 stained images for breast cancer diagnosis that facilitates faster manual annotation and correction in a second step. Four methods are compared: Standard Simple Linear Iterative Clustering (SLIC) as a baseline, a domain adapted SLIC, and superpixels based on feature embeddings of a pretrained ResNet-50 and a denoising autoencoder. To tackle oversegmentation, we propose to hierarchically merge superpixels, based on their content in the respective feature space. When evaluating the approaches on fully manually annotated images, we observe that the autoencoder-based superpixels achieve a 23% increase in boundary F1 score compared to the baseline SLIC superpixels. Furthermore, the boundary F1 score increases by 73% when hierarchical clustering is applied on the adapted SLIC and the autoencoder-based superpixels. These evaluations show encouraging first results for a pre-segmentation for efficient manual refinement without the need for an initial set of annotated training data.
翻訳日:2022-01-20 13:32:01 公開日:2022-01-19
# 自動運転車における物体検出の現状と課題

Object Detection in Autonomous Vehicles: Status and Open Challenges ( http://arxiv.org/abs/2201.07706v1 )

ライセンス: Link先を確認
Abhishek Balasubramaniam, Sudeep Pasricha(参考訳) オブジェクト検出は、監視およびセキュリティシステム、モバイルテキスト認識、mri/ctスキャンによる疾患の診断など、今日の多くの消費者アプリケーションにおいて不可欠な部分となっているコンピュータビジョンタスクである。 オブジェクト検出は、自動運転をサポートする重要なコンポーネントの1つである。 自動運転車は安全で堅牢な運転性能を確保するために周囲の認識に依存している。 この認識システムは、物体検出アルゴリズムを使用して、歩行者、車両、交通標識、車両近傍の障壁などの物体を正確に判定する。 ディープラーニングベースのオブジェクト検出器は、これらのオブジェクトをリアルタイムで見つけてローカライズするのに重要な役割を果たす。 本稿では,物体検出における最先端の課題と,その自律走行車への統合に向けた課題について述べる。

Object detection is a computer vision task that has become an integral part of many consumer applications today such as surveillance and security systems, mobile text recognition, and diagnosing diseases from MRI/CT scans. Object detection is also one of the critical components to support autonomous driving. Autonomous vehicles rely on the perception of their surroundings to ensure safe and robust driving performance. This perception system uses object detection algorithms to accurately determine objects such as pedestrians, vehicles, traffic signs, and barriers in the vehicle's vicinity. Deep learning-based object detectors play a vital role in finding and localizing these objects in real-time. This article discusses the state-of-the-art in object detectors and open challenges for their integration into autonomous vehicles.
翻訳日:2022-01-20 13:31:37 公開日:2022-01-19
# ConDor: 部分形状のための3Dポッドの自己監督型正準化

ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes ( http://arxiv.org/abs/2201.07788v1 )

ライセンス: Link先を確認
Rahul Sajnani, Adrien Poulenard, Jivitesh Jain, Radhika Dua, Leonidas J. Guibas, Srinath Sridhar(参考訳) 3Dオブジェクト理解の進歩は、一貫した位置と向きを持つインスタンスを含む手動の標準化された形状データセット(3Dポーズ)に依存している。 これにより、これらの手法を野生の形状に一般化することは困難になった。 画像はインターネット・モデル・コレクションや深度センサーから。 ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化する自己教師型手法である。 我々は、置換および回転同変のクラスであるTensor Field Networks (TFNs) と翻訳不変の3Dネットワーク上に構築する。 推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を取り,同変正則のポーズを出力する。 トレーニング中、このネットワークは自己超越損失を使用して、完全な3D点雲と部分的な3D点雲の非正準化集合から標準的ポーズを学習する。 ConDorは、一貫したオブジェクト部品の分離を、監督なしに学べる。 4つの新しい指標を総合的に測定した結果,提案手法は既存の手法よりも優れており,深度画像の操作やアノテーション転送などの新しい応用が可能であった。

Progress in 3D object understanding has relied on manually canonicalized shape datasets that contain instances with consistent position and orientation (3D pose). This has made it hard to generalize these methods to in-the-wild shapes, eg., from internet model collections or depth sensors. ConDor is a self-supervised method that learns to Canonicalize the 3D orientation and position for full and partial 3D point clouds. We build on top of Tensor Field Networks (TFNs), a class of permutation- and rotation-equivariant , and translation-invarian t 3D networks. During inference, our method takes an unseen full or partial 3D point cloud at an arbitrary pose and outputs an equivariant canonical pose. During training, this network uses self-supervision losses to learn the canonical pose from an un-canonicalized collection of full and partial 3D point clouds. ConDor can also learn to consistently co-segment object parts without any supervision. Extensive quantitative results on four new metrics show that our approach outperforms existing methods while enabling new applications such as operation on depth images and annotation transfer.
翻訳日:2022-01-20 13:30:53 公開日:2022-01-19
# より浅いヒューリスティックスを明らかにする:音節パターンを用いたトランスフォーマー型事前学習言語モデルの自然言語推論能力の探索

Uncovering More Shallow Heuristics: Probing the Natural Language Inference Capacities of Transformer-Based Pre-Trained Language Models Using Syllogistic Patterns ( http://arxiv.org/abs/2201.07614v1 )

ライセンス: Link先を確認
Reto Gubelmann and Siegfried Handschuh(参考訳) 本稿では,自然言語推論(NLI)のために微調整されたトランスフォーマーベース事前学習言語モデル(PLM)が使用する浅層ヒューリスティックスについて検討する。 そのために私たちは,syllogisticに基づくデータセットを構築ないし独自に構築し,当社のデータセット上で多数のモデルのパフォーマンスを評価する。 モデルが特定の浅いヒューリスティックに重きを置き、前提と仮説の間の対称性と非対称性を拾い上げる証拠を見つける。 我々は,本研究における一般化の欠如が,この分野における活発な議論のトピックとなっていることから,PLMが現在NLIを学ばず,むしろ刺激的なヒューリスティックスを学んでいることを示唆している。

In this article, we explore the shallow heuristics used by transformer-based pre-trained language models (PLMs) that are fine-tuned for natural language inference (NLI). To do so, we construct or own dataset based on syllogistic, and we evaluate a number of models' performance on our dataset. We find evidence that the models rely heavily on certain shallow heuristics, picking up on symmetries and asymmetries between premise and hypothesis. We suggest that the lack of generalization observable in our study, which is becoming a topic of lively debate in the field, means that the PLMs are currently not learning NLI, but rather spurious heuristics.
翻訳日:2022-01-20 13:30:13 公開日:2022-01-19
# (参考訳) Repre: 再構成前トレーニングによる自己監督型視覚変換器の改良 [全文訳有]

RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training ( http://arxiv.org/abs/2201.06857v2 )

ライセンス: CC BY 4.0
Luya Wang, Feng Liang, Yangguang Li, Honggang Zhang, Wanli Ouyang, Jing Shao(参考訳) 近年、自己監督型視覚変換器は印象的な表現学習能力で前例のない注目を集めている。 しかし、コントラスト学習という支配的な手法は、主に画像のグローバルな理解を学習するインスタンス識別プレテキストタスクに依存している。 本稿では,Reconstructive Pre-Training(RePre)を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。 私たちのrepreは、既存のコントラスト目的と並行して生のピクセルを再構築するブランチを追加することで、コントラストフレームワークを拡張します。 RePreは軽量な畳み込みベースのデコーダを備えており、トランスフォーマーエンコーダのマルチ階層機能を融合している。 マルチ階層機能は、低レベルから高レベルのセマンティック情報まで、豊富な監視を提供します。 私たちのRePreは、異なるビジョントランスフォーマーアーキテクチャを持つさまざまなコントラストフレームワークに対して、適切な改善を提供します。 下流タスクにおける転送性能は、教師付き事前訓練およびSOTA(State-of-the-ar t)自己監督タスクよりも優れる。

Recently, self-supervised vision transformers have attracted unprecedented attention for their impressive representation learning ability. However, the dominant method, contrastive learning, mainly relies on an instance discrimination pretext task, which learns a global understanding of the image. This paper incorporates local feature learning into self-supervised vision transformers via Reconstructive Pre-training (RePre). Our RePre extends contrastive frameworks by adding a branch for reconstructing raw image pixels in parallel with the existing contrastive objective. RePre is equipped with a lightweight convolution-based decoder that fuses the multi-hierarchy features from the transformer encoder. The multi-hierarchy features provide rich supervisions from low to high semantic information, which are crucial for our RePre. Our RePre brings decent improvements on various contrastive frameworks with different vision transformer architectures. Transfer performance in downstream tasks outperforms supervised pre-training and state-of-the-art (SOTA) self-supervised counterparts.
翻訳日:2022-01-20 13:28:28 公開日:2022-01-19
# (参考訳) 個人化フェデレーション学習におけるバックドアハイパーネットワークへのモデル転送攻撃 [全文訳有]

Model Transferring Attacks to Backdoor HyperNetwork in Personalized Federated Learning ( http://arxiv.org/abs/2201.07063v2 )

ライセンス: CC BY 4.0
Phung Lai, NhatHai Phan, Abdallah Khreishah, Issa Khalil, Xintao Wu(参考訳) 本稿では,HyperNetをベースとしたパーソナライズド・フェデレーション・ラーニング(HyperNetFL)における毒性攻撃によるバックドアリスクについて検討する。 そこで本研究では,hypernetflモデルが生成する正統かつパーソナライズされたすべてのローカルモデルに対して,そのトレーニングプロセス全体において,漏洩したすべてのクライアント間で算出された,一貫性と効果的な局所勾配を通じて,ローカルバックドア感染モデルを転送する,新たなモデルであるhntroj(hntroj)を提案する。 その結果、HNTROJは攻撃を成功させるのに必要な妥協されたクライアントの数を減らし、攻撃をステルスにする正統なデータサンプルのモデルユーティリティに関する突然のシフトや劣化の兆候がない。 HNTROJに対抗するために,複数のバックドア抵抗FLトレーニングアルゴリズムをHyperNetFLに適応させた。 複数のベンチマークデータセットを用いた広範な実験により、hntrojはデータ中毒やモデル置換攻撃を大きく上回り、堅牢なトレーニングアルゴリズムをバイパスしていることが示された。

This paper explores previously unknown backdoor risks in HyperNet-based personalized federated learning (HyperNetFL) through poisoning attacks. Based upon that, we propose a novel model transferring attack (called HNTROJ), i.e., the first of its kind, to transfer a local backdoor infected model to all legitimate and personalized local models, which are generated by the HyperNetFL model, through consistent and effective malicious local gradients computed across all compromised clients in the whole training process. As a result, HNTROJ reduces the number of compromised clients needed to successfully launch the attack without any observable signs of sudden shifts or degradation regarding model utility on legitimate data samples making our attack stealthy. To defend against HNTROJ, we adapted several backdoor-resistant FL training algorithms into HyperNetFL. An extensive experiment that is carried out using several benchmark datasets shows that HNTROJ significantly outperforms data poisoning and model replacement attacks and bypasses robust training algorithms.
翻訳日:2022-01-20 13:14:08 公開日:2022-01-19
# (参考訳) SAR画像における航空機検出のための注意的特徴補正とアライメントネットワーク [全文訳有]

Attentional Feature Refinement and Alignment Network for Aircraft Detection in SAR Imagery ( http://arxiv.org/abs/2201.07124v2 )

ライセンス: CC BY 4.0
Yan Zhao, Lingjun Zhao, Zhong Liu, Dewen Hu, Gangyao Kuang, Li Liu(参考訳) SAR(Synthetic Aperture Radar)画像における航空機検出は、航空機の非常に離散的な外観、明らかなクラス内変異、小さなサイズ、深刻な背景の干渉により、SAR自動目標認識(SAR ATR)領域において難しい課題である。 本稿では,sar画像中の航空機を検出するために,注目的特徴改善・アライメントネットワーク(afran)と呼ばれる単発検出器を提案する。 具体的には,航空機の情報特性の精細化・整合化のために,注意機能融合モジュール(AFFM),変形性横方向接続モジュール(DLCM),アンカー誘導検出モジュール(ADM)の3つの重要なコンポーネントを慎重に設計する。 干渉の少ない航空機の特性を表現するため、AFFMにおいて低レベルのテクスチャと高レベルのセマンティックな特徴を融合して洗練する。 航空機の離散後方散乱点と畳み込みサンプリングスポットのアライメントはDLCMで促進される。 最終的に航空機の位置は、改良されたアンカーによって修正された整列した特徴に基づいてADMで正確に予測される。 本手法の性能を評価するため,自作SAR航空機スライスデータセットと大シーンSAR画像を収集した。 詳細な分析による広範囲な量的・質的実験により,提案する3成分の有効性が示された。 さらに、DAPN、PADN、一般的なCNNベースの手法(FPN、Cascade R-CNN、SSD、RefineDet、RDDetなど)と比較して、最も高い検出精度と競合速度が得られた。

Aircraft detection in Synthetic Aperture Radar (SAR) imagery is a challenging task in SAR Automatic Target Recognition (SAR ATR) areas due to aircraft's extremely discrete appearance, obvious intraclass variation, small size and serious background's interference. In this paper, a single-shot detector namely Attentional Feature Refinement and Alignment Network (AFRAN) is proposed for detecting aircraft in SAR images with competitive accuracy and speed. Specifically, three significant components including Attention Feature Fusion Module (AFFM), Deformable Lateral Connection Module (DLCM) and Anchor-guided Detection Module (ADM), are carefully designed in our method for refining and aligning informative characteristics of aircraft. To represent characteristics of aircraft with less interference, low-level textural and high-level semantic features of aircraft are fused and refined in AFFM throughly. The alignment between aircraft's discrete back-scatting points and convolutional sampling spots is promoted in DLCM. Eventually, the locations of aircraft are predicted precisely in ADM based on aligned features revised by refined anchors. To evaluate the performance of our method, a self-built SAR aircraft sliced dataset and a large scene SAR image are collected. Extensive quantitative and qualitative experiments with detailed analysis illustrate the effectiveness of the three proposed components. Furthermore, the topmost detection accuracy and competitive speed are achieved by our method compared with other domain-specific,e.g. , DAPN, PADN, and general CNN-based methods,e.g., FPN, Cascade R-CNN, SSD, RefineDet and RPDet.
翻訳日:2022-01-20 12:45:04 公開日:2022-01-19
# GradTail: 勾配ベースのサンプル重み付けによる長期学習

GradTail: Learning Long-Tailed Data Using Gradient-based Sample Weighting ( http://arxiv.org/abs/2201.05938v2 )

ライセンス: Link先を確認
Zhao Chen, Vincent Casser, Henrik Kretzschmar, Dragomir Anguelov(参考訳) 長文トレーニングデータ分布に直面するモデル性能を改善するために勾配を用いたアルゴリズムであるgradtailを提案する。 収束した、おそらく過適合なモデルで動作する従来のロングテール分類器とは異なり、勾配ドット製品契約に基づくアプローチは、モデルトレーニング中に早期にロングテールデータを分離し、そのデータに対して高いサンプル重量を動的に取り込むことで、性能を向上させることができることを示す。 このような重み付けは分類モデルと回帰モデルの両方にモデル改善をもたらし、後者はロングテールの文献では比較的未検討であり、勾配アライメントによって発見されたロングテールの例は、私たちの意味的期待と一致していることを示している。

We propose GradTail, an algorithm that uses gradients to improve model performance on the fly in the face of long-tailed training data distributions. Unlike conventional long-tail classifiers which operate on converged - and possibly overfit - models, we demonstrate that an approach based on gradient dot product agreement can isolate long-tailed data early on during model training and improve performance by dynamically picking higher sample weights for that data. We show that such upweighting leads to model improvements for both classification and regression models, the latter of which are relatively unexplored in the long-tail literature, and that the long-tail examples found by gradient alignment are consistent with our semantic expectations.
翻訳日:2022-01-20 12:15:53 公開日:2022-01-19
# SNCSE:ソフトネガティブサンプルを用いた教師なし文のコントラスト学習

SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples ( http://arxiv.org/abs/2201.05979v2 )

ライセンス: Link先を確認
Hao Wang, Yangguang Li, Zhen Huang, Yong Dou, Lingpeng Kong, Jing Shao(参考訳) 教師なし文の埋め込みは、文の意味を反映する最も適切な埋め込みを得ることを目的としている。 対照的な学習は注目を浴びている。 文に対して、現在のモデルは様々なデータ拡張法を用いて正のサンプルを生成する一方、他の独立した文を負のサンプルとみなす。 その後、正のペアの埋め込みを引っ張り、負のペアの埋め込みを分散させるためにインフォデンスロスを採用する。 これらのモデルは文の埋め込みに大きな進歩をもたらしたが、機能抑制に悩まされる可能性がある。 モデルはテキストの類似性とセマンティックな類似性を区別し分離することができない。 そして、実際の意味の違いにかかわらず、類似したテキストを持つ任意のペアの意味的類似性を過大評価することができる。 これは、教師なしのコントラスト学習における正のペアは、データ拡張によって同じテキストでも類似しているためである。 特徴抑圧を緩和するために,ソフト・ネガティブ・サンプル(SNCSE)を組み込んだ教師なし文のコントラスト学習を提案する。 ソフトな負のサンプルは、非常に類似したテキストを共有しているが、明らかに元のサンプルと異なる意味を持っている。 具体的には、原文の否定をソフトな負のサンプルとみなし、正と負のサンプルのみを含む従来のコントラスト学習フレームワークにそれらを導入するために、双方向マージン損失(BML)を提案する。 実験の結果,sncseは,平均スピアマン相関係数78.97%,ロバータベース79.23%で意味的テキスト類似性(sts)タスクの最先端性能を得ることができた。 さらに,SNCSEの弱点を検出するために,ランクに基づく誤り解析手法を採用した。

Unsupervised sentence embedding aims to obtain the most appropriate embedding for a sentence to reflect its semantic. Contrastive learning has been attracting developing attention. For a sentence, current models utilize diverse data augmentation methods to generate positive samples, while consider other independent sentences as negative samples. Then they adopt InfoNCE loss to pull the embeddings of positive pairs gathered, and push those of negative pairs scattered. Although these models have made great progress on sentence embedding, we argue that they may suffer from feature suppression. The models fail to distinguish and decouple textual similarity and semantic similarity. And they may overestimate the semantic similarity of any pairs with similar textual regardless of the actual semantic difference between them. This is because positive pairs in unsupervised contrastive learning come with similar and even the same textual through data augmentation. To alleviate feature suppression, we propose contrastive learning for unsupervised sentence embedding with soft negative samples (SNCSE). Soft negative samples share highly similar textual but have surely and apparently different semantic with the original samples. Specifically, we take the negation of original sentences as soft negative samples, and propose Bidirectional Margin Loss (BML) to introduce them into traditional contrastive learning framework, which merely involves positive and negative samples. Our experimental results show that SNCSE can obtain state-of-the-art performance on semantic textual similarity (STS) task with average Spearman's correlation coefficient of 78.97% on BERTbase and 79.23% on RoBERTabase. Besides, we adopt rank-based error analysis method to detect the weakness of SNCSE for future study.
翻訳日:2022-01-20 12:15:38 公開日:2022-01-19
# sture: オンラインマルチオブジェクト追跡におけるロバストデータアソシエーションのための空間-時間間相互表現学習

STURE: Spatial-Temporal Mutual Representation Learning for Robust Data Association in Online Multi-Object Tracking ( http://arxiv.org/abs/2201.06824v2 )

ライセンス: Link先を確認
Haidong Wang, Zhiyong Li, Yaping Li, Ke Nai, Ming Wen(参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、コンピュータビジョンとインテリジェントな車両プラットフォームのための長年のタスクである。 現在、主要なパラダイムはトラッキング・バイ・検出であり、このパラダイムの主な難しさは、現在の候補検出と過去のトラックレットを関連付ける方法である。 しかし、motのシナリオでは、各履歴トラックレットはオブジェクトシーケンスで構成され、各候補検出は単なるフラットイメージであり、オブジェクトシーケンスの時間的特徴を欠いている。 現在の候補検出と履歴トラックレットの特徴の違いは、オブジェクトの関連性をはるかに難しくする。 そこで,本稿では,現在候補検出と歴史的シーケンス間の空間時間表現を相互表現空間で学習する空間-時間間相互表現学習(sture)手法を提案する。 歴史的トラケレットの場合、検出学習ネットワークは、相互表現空間におけるシーケンス学習ネットワークの表現と一致せざるを得ない。 提案手法は,オブジェクト連想における各種設計損失を用いて,検出とシーケンス表現をより識別する手法である。 その結果、現在の検出特徴を強化するために時空間特徴を相互に学習し、特徴差を緩和することができる。 STUREのロバスト性を証明するために、パブリックMOTチャレンジベンチマークに適用され、ID保存メトリクスに基づく様々な最先端のオンラインMOTトラッカーと比較してよく機能する。

Online multi-object tracking (MOT) is a longstanding task for computer vision and intelligent vehicle platform. At present, the main paradigm is tracking-by-detectio n, and the main difficulty of this paradigm is how to associate the current candidate detection with the historical tracklets. However, in the MOT scenarios, each historical tracklet is composed of an object sequence, while each candidate detection is just a flat image, which lacks the temporal features of the object sequence. The feature difference between current candidate detection and historical tracklets makes the object association much harder. Therefore, we propose a Spatial-Temporal Mutual {Representation} Learning (STURE) approach which learns spatial-temporal representations between current candidate detection and historical sequence in a mutual representation space. For the historical trackelets, the detection learning network is forced to match the representations of sequence learning network in a mutual representation space. The proposed approach is capable of extracting more distinguishing detection and sequence representations by using various designed losses in object association. As a result, spatial-temporal feature is learned mutually to reinforce the current detection features, and the feature difference can be relieved. To prove the robustness of the STURE, it is applied to the public MOT challenge benchmarks and performs well compared with various state-of-the-art online MOT trackers based on identity-preserving metrics.
翻訳日:2022-01-20 12:15:08 公開日:2022-01-19
# 誰が救急部を増やすの? オレゴン健康保険実験の新たな知見

Who Increases Emergency Department Use? New Insights from the Oregon Health Insurance Experiment ( http://arxiv.org/abs/2201.07072v2 )

ライセンス: Link先を確認
Augustine Denteh, Helge Liebert(参考訳) オレゴン州の救急医療機関(ED)がオレゴン州の実験で利用したことに対する新たな知見を提供する。 非パラメトリック因果機械学習法を用いて,メディケイド被覆がED使用に与える影響について,経済的に意味のある治療効果がみられた。 効果分布は広く分散しており、有意な効果は高用量個体に集中している。 参加者の約14%の小さなグループで、ed使用が大幅に増加したことで、全体的な効果が向上した。 個々の治療効果の残りは、ゼロまたは負と区別できない。 平均治療効果は、ほとんどの人の個別治療効果を表すものではない。 対象は,男性,スナップ前参加者,50歳未満の成人,初診前ed使用者の4群である。 以上の結果から, メディケイドは, ED使用に慣れており, 救急部門をあらゆる種類のケアに利用している人の間で, 有効利用率を高めることが示唆された。 我々は、異種効果を利用して最適な割り当てルールを推定し、同様の拡張における保険適用を優先順位付けする。

We provide new insights into the finding that Medicaid increased emergency department (ED) use from the Oregon experiment. Using nonparametric causal machine learning methods, we find economically meaningful treatment effect heterogeneity in the impact of Medicaid coverage on ED use. The effect distribution is widely dispersed, with significant positive effects concentrated among high-use individuals. A small group - about 14% of participants - in the right tail with significant increases in ED use drives the overall effect. The remainder of the individualized treatment effects is either indistinguishable from zero or negative. The average treatment effect is not representative of the individualized treatment effect for most people. We identify four priority groups with large and statistically significant increases in ED use - men, prior SNAP participants, adults less than 50 years old, and those with pre-lottery ED use classified as primary care treatable. Our results point to an essential role of intensive margin effects - Medicaid increases utilization among those already accustomed to ED use and who use the emergency department for all types of care. We leverage the heterogeneous effects to estimate optimal assignment rules to prioritize insurance applications in similar expansions.
翻訳日:2022-01-20 12:14:45 公開日:2022-01-19
# h&e-adversarial network: ヘマトキシリンとエオシン回帰による染色不変特徴学習のための畳み込みニューラルネットワーク

H&E-adversarial network: a convolutional neural network to learn stain-invariant features through Hematoxylin & Eosin regression ( http://arxiv.org/abs/2201.06329v2 )

ライセンス: Link先を確認
Niccol\'o Marini, Manfredo Atzori, Sebastian Ot\'alora, Stephane Marchand-Maillet, Henning M\"uller(参考訳) コンピュータ病理学(Computational pathology)は、スライド画像全体 (WSI) と呼ばれる大規模なデジタル組織像を自動的に解析するアルゴリズムを開発することを目的とした分野である。 WSIは、特定の構造を可視化するために染色された薄い組織サンプルを走査する。 医療センター間で異なる準備とスキャン設定により、染色色の不均一性を示す。 色の不均一性は、ほとんどの計算病理タスクの最先端アルゴリズムである畳み込みニューラルネットワーク(CNN)を訓練する問題である。 いくつかの方法が開発されているにもかかわらず、染色色の不均一性は、いくつかの医療センターのデータに基づいて一般化できるCNNの開発を制限する未解決の課題である。 本稿では,複数の色変化を含むデータをより一般化するcnnの訓練手法を提案する。 H&E-adversarial CNNと呼ばれるこの手法は、トレーニング中にH&Eマトリックス情報を利用して、染色不変の特徴を学習する。 この方法は,11種類の異種データセットを含む大腸および前立腺病理画像の分類において評価され,染色色多様性を扱うために用いられる他の5つの手法と比較された。 H&E-adversarial CNNは、他のアルゴリズムと比較して性能が向上し、色の不均一な画像の染色に有効であることを示す。

Computational pathology is a domain that aims to develop algorithms to automatically analyze large digitized histopathology images, called whole slide images (WSI). WSIs are produced scanning thin tissue samples that are stained to make specific structures visible. They show stain colour heterogeneity due to different preparation and scanning settings applied across medical centers. Stain colour heterogeneity is a problem to train convolutional neural networks (CNN), the state-of-the-art algorithms for most computational pathology tasks, since CNNs usually underperform when tested on images including different stain variations than those within data used to train the CNN. Despite several methods that were developed, stain colour heterogeneity is still an unsolved challenge that limits the development of CNNs that can generalize on data from several medical centers. This paper aims to present a novel method to train CNNs that better generalize on data including several colour variations. The method, called H&E-adversarial CNN, exploits H&E matrix information to learn stain-invariant features during the training. The method is evaluated on the classification of colon and prostate histopathology images, involving eleven heterogeneous datasets, and compared with five other techniques used to handle stain colour heterogeneity. H&E-adversarial CNNs show an improvement in performance compared to the other algorithms, demonstrating that it can help to better deal with stain colour heterogeneous images.
翻訳日:2022-01-20 12:12:27 公開日:2022-01-19
# マルチエージェントピックアップおよび配送タスクのためのスタンバイベースデッドロック回避方法

Standby-Based Deadlock Avoidance Method for Multi-Agent Pickup and Delivery Tasks ( http://arxiv.org/abs/2201.06014v2 )

ライセンス: Link先を確認
Tomoki Yamauchi, Yuki Miyashita and Toshiharu Sugawara(参考訳) 複数のエージェントが衝突せずに反復的に材料を運ぶマルチエージェントピックアップ・アンド・デリバリー(MAPD)問題に注目が集まっている。 しかし、従来のMAPDアルゴリズムの多くは、自動倉庫など、特定の設計のグリッドのような環境を前提としている。 そのため、長い期間エージェントが滞在できるピックアップと配送の場所が多く、またグリッド内の移動の自由による衝突を避けるために多くの回り道がある。 対照的に、捜索救助や建設現場のような迷路のような環境は、ピックアップ/配達の場所が少なく、その数は不均衡である可能性があるため、多くのエージェントはそのような場所に集中し、効率の悪さを招き、しばしば立ち往生またはデッドロックされる。 そこで我々は,迷路型制限環境においても輸送効率を向上させるために,スタンバイベースデッドロック回避(SBDA)と呼ばれるデッドロック回避手法を提案する。 SBDAは調音点探索アルゴリズムを用いてリアルタイムに決定された待機ノードを使用し、エージェントは有限時間滞在することが保証される。 提案手法が従来の手法より優れていることを示す。 また,待機ノード選択のパラメータが性能に与える影響についても検討した。

The multi-agent pickup and delivery (MAPD) problem, in which multiple agents iteratively carry materials without collisions, has received significant attention. However, many conventional MAPD algorithms assume a specifically designed grid-like environment, such as an automated warehouse. Therefore, they have many pickup and delivery locations where agents can stay for a lengthy period, as well as plentiful detours to avoid collisions owing to the freedom of movement in a grid. By contrast, because a maze-like environment such as a search-and-rescue or construction site has fewer pickup/delivery locations and their numbers may be unbalanced, many agents concentrate on such locations resulting in inefficient operations, often becoming stuck or deadlocked. Thus, to improve the transportation efficiency even in a maze-like restricted environment, we propose a deadlock avoidance method, called standby-based deadlock avoidance (SBDA). SBDA uses standby nodes determined in real-time using the articulation-point-f inding algorithm, and the agent is guaranteed to stay there for a finite amount of time. We demonstrated that our proposed method outperforms a conventional approach. We also analyzed how the parameters used for selecting standby nodes affect the performance.
翻訳日:2022-01-20 12:12:01 公開日:2022-01-19